Google DeepMind tiene una nueva forma de mirar dentro de la “mente” de una IA

noviembre 16, 2024

14

Neuronpedia, una plataforma para la interpretabilidad mecanicista, se asoció con DeepMind en julio para construir un manifestación de Gemma Scope con el que puedes jugar ahora mismo. En la demostración, puede probar diferentes mensajes y ver cómo el modelo divide su mensaje y qué activaciones enciende su mensaje. También puedes jugar con el modelo. Por ejemplo, si sube la función sobre perros y luego le hace una pregunta al modelo sobre los presidentes de EE. UU., Gemma encontrará alguna forma de entretejer un balbuceo aleatorio sobre perros, o es posible que el modelo simplemente comience a ladrarle.

Una cosa interesante acerca de los codificadores automáticos dispersos es que no están supervisados, lo que significa que encuentran funciones por sí solos. Esto conduce a descubrimientos sorprendentes sobre cómo los modelos descomponen los conceptos humanos. “Mi característica favorita private es la avergonzarse característica”, cube Joseph Bloom, líder científico de Neuronpedia. “Parece aparecer en críticas negativas a textos y películas. Es simplemente un gran ejemplo de cómo rastrear cosas que son tan humanas en algún nivel”.

Puede buscar conceptos en Neuronpedia y resaltará qué funciones se activan en tokens o palabras específicas, y con qué fuerza se activa cada una. “Si lees el texto y ves lo que está resaltado en verde, es cuando el modelo cree que el concepto vergonzoso es más relevante. El ejemplo más activo de vergüenza es el de alguien sermoneando a otra persona”, cube Bloom.

Algunas funciones están resultando más fáciles de rastrear que otras. “Una de las características más importantes que uno desea encontrar en un modelo es el engaño”, cube Johnny Lin, fundador de Neuronpedia. “No es muy fácil de encontrar: ‘Oh, ahí está la característica que se activa cuando nos está mintiendo’. Por lo que he visto, no es cierto que podamos encontrar el engaño y prohibirlo”.

La investigación de DeepMind es related a lo que otra empresa de inteligencia synthetic, Anthropic, hizo en mayo con Puerta Dorada Claude. Utilizó escasos codificadores automáticos para encontrar las partes de Claude, su modelo, que se iluminaban cuando hablaban del puente Golden Gate en San Francisco. Luego amplificó las activaciones relacionadas con el puente hasta el punto en que Claude literalmente no se identificó como Claude, un modelo de IA, sino como el puente físico Golden Gate y respondía a las indicaciones como el puente.

Aunque pueda parecer extravagante, la investigación de la interpretabilidad mecanicista puede resultar increíblemente útil. “Como herramienta para comprender cómo se generaliza el modelo y en qué nivel de abstracción funciona, estas características son realmente útiles”, cube Batson.

Por ejemplo, un equipo liderado por Samuel Marks, ahora en Anthropic, usado escasos codificadores automáticos para encontrar características que mostraran que un modelo specific estaba asociando ciertas profesiones con un género específico. Luego desactivaron estas características de género para reducir el sesgo en el modelo. Este experimento se realizó en un modelo muy pequeño, por lo que no está claro si el trabajo se aplicará a un modelo mucho más grande.

La investigación de la interpretabilidad mecanicista también puede brindarnos información sobre por qué la IA comete errores. En el caso de la afirmación de que 9.11 es mayor que 9.8, investigadores de translúcido Vio que la pregunta estaba activando las partes de un modelo de IA relacionadas con los versículos de la Biblia y el 11 de septiembre. Los investigadores concluyeron que la IA podría estar interpretando los números como fechas, afirmando que la fecha posterior, el 11 de septiembre, period mayor que el 8 de septiembre. Y en muchos libros, como textos religiosos, la sección 9.11 viene después de la sección 9.8, lo que puede ser la razón por la que la IA la considera mayor. Una vez que supieron por qué la IA cometió este error, los investigadores sintonizaron las activaciones de la IA en los versículos de la Biblia y el 11 de septiembre, lo que llevó al modelo a dar la respuesta correcta cuando se le preguntó nuevamente si 9.11 es mayor que 9.8.

Google DeepMind tiene una nueva forma de mirar dentro de la “mente” de una IA

Related Articles

Escalado de modelos de base portátil

Plan semanal de comidas 7.6.25 – Wellplated.com

Receta de helado de plátano – Amor y limones

LEAVE A REPLY Cancel reply

Latest Articles

Escalado de modelos de base portátil

Plan semanal de comidas 7.6.25 – Wellplated.com

Receta de helado de plátano – Amor y limones

2025 상반기 젤네일 트렌드 요약 정리 정리

¿Puedo omitir la crema hidratante y usar suero solo? – Hermoso con cerebros