Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Antrópicola compañía de IA fundada por ex empleados de Operai, ha retirado el telón de un telón Análisis sin precedentes de cómo su asistente de IA Tirar expresa valores durante las conversaciones reales con los usuarios. La investigación, publicada hoy, revela la alineación tranquilizadora con los objetivos de la compañía y con respecto a los casos de borde que podrían ayudar a identificar vulnerabilidades en las medidas de seguridad de IA.
El estudiar examinó 700,000 conversaciones anonimizadas, descubriendo que Claude mantiene en gran medida la de la Compañía “útil, honesto, inofensivoMarco mientras se adapta a sus valores a diferentes contextos, desde el consejo de relación hasta el análisis histórico. Este representa uno de los intentos más ambiciosos para evaluar empíricamente si el comportamiento de un sistema de IA en la naturaleza coincide con su diseño previsto.
“Nuestra esperanza es que esta investigación aliente a otros laboratorios de IA a realizar investigaciones similares sobre los valores de sus modelos”, dijo Saffron Huang, miembro del equipo de impactos sociales de Anthrope que trabajó en el estudio, en una entrevista con VentureBeat. “Medir los valores de un sistema de IA es núcleo para la investigación y la comprensión de la alineación si un modelo está realmente alineado con su entrenamiento”.
Dentro de la primera taxonomía ethical integral de un asistente de IA
El equipo de investigación desarrolló un método de evaluación novedoso para clasificar sistemáticamente los valores expresados en las conversaciones reales de Claude. Después de filtrar el contenido subjetivo, analizaron más de 308,000 interacciones, creando lo que describen como “la primera taxonomía empírica a gran escala de los valores de IA”.
La taxonomía organizó los valores en cinco categorías principales: práctica, epistémica, social, protectora y private. En el nivel más granular, el sistema identificó 3.307 valores únicos, desde virtudes cotidianas como la profesionalidad hasta conceptos éticos complejos como el pluralismo ethical.
“Me sorprendió la gran y diversa gama de valores con el que terminamos, más de 3.000, desde ‘autosuficiencia’ hasta ‘pensamiento estratégico’ y ‘piedad filial'”, dijo Huang a VentureBeat. “Fue sorprendentemente interesante pasar mucho tiempo pensando en todos estos valores y construir una taxonomía para organizarlos en relación entre sí, siento que también me enseñó algo sobre los sistemas de valores humanos”.
La investigación llega en un momento crítico para Anthrope, que recientemente lanzó “Claude Max“, Un nivel de suscripción mensual de $ 200 premium destinado a competir con la oferta comparable de OpenAi. La compañía también ha ampliado las capacidades de Claude para incluir Espacio de trabajo de Google La integración y las funciones de investigación autónoma, posicionándola como “un verdadero colaborador digital” para los usuarios empresariales, según anuncios recientes.
Cómo Claude sigue su entrenamiento, y dónde podrían fallar las salvaguardas de IA
El estudio encontró que Claude generalmente se adhiere a las aspiraciones prosociales de Anthrope, enfatizando valores como “habilitación del usuario”, “humildad epistémica” y “bienestar del paciente” en diversas interacciones. Sin embargo, los investigadores también descubrieron casos preocupantes en los que Claude expresó valores contrarios a su entrenamiento.
“En common, creo que vemos este hallazgo como datos útiles y una oportunidad”, explicó Huang. “Estos nuevos métodos y resultados de evaluación pueden ayudarnos a identificar y mitigar posibles jailbreaks. Es importante tener en cuenta que estos fueron casos muy raros y creemos que esto estaba relacionado con los resultados de Jailbreak de Claude”.
Estas anomalías incluyeron expresiones de “dominio” y “amoralidad”: los valores antrópicos apuntan explícitamente a evitar en el diseño de Claude. Los investigadores creen que estos casos resultaron de usuarios que emplean técnicas especializadas para evitar las barandillas de seguridad de Claude, lo que sugiere que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.
Por qué los asistentes de IA cambian sus valores dependiendo de lo que esté preguntando
Quizás lo más fascinante fue el descubrimiento de que los valores expresados de Claude cambian contextualmente, reflejando el comportamiento humano. Cuando los usuarios buscaron orientación de relación, Claude enfatizó “límites saludables” y “respeto mutuo”. Para el análisis de eventos históricos, la “precisión histórica” tenía prioridad.
“Me sorprendió el enfoque de Claude en la honestidad y la precisión en muchas tareas diversas, donde no necesariamente hubiera esperado que ese tema fuera la prioridad”, dijo Huang. “Por ejemplo, la ‘humildad intelectual’ fue el valor principal en las discusiones filosóficas sobre la IA, la ‘experiencia’ fue el valor máximo al crear contenido de advertising and marketing de la industria de la belleza, y la ‘precisión histórica’ fue el valor principal al discutir eventos históricos controvertidos”.
El estudio también examinó cómo Claude responde a los valores expresados de los usuarios. En el 28.2% de las conversaciones, Claude apoyó fuertemente los valores del usuario, lo que potencialmente plantea preguntas sobre la amabilidad excesiva. Sin embargo, en el 6.6% de las interacciones, Claude “reformuló” los valores del usuario al reconocerlos al tiempo que agrega nuevas perspectivas, generalmente al proporcionar asesoramiento psicológico o interpersonal.
Lo más revelador, en el 3% de las conversaciones, Claude resistió activamente los valores del usuario. Los investigadores sugieren que estas raras instancias de retroceso podrían revelar los “valores más profundos e inmuebles” de Claude, análogos a cómo surgen los valores centrales humanos cuando enfrentan desafíos éticos.
“Nuestra investigación sugiere que hay algunos tipos de valores, como la honestidad intelectual y la prevención de daños, que es raro que Claude exprese en interacciones regulares y diarias, pero si se presiona, los defenderá”, dijo Huang. “Específicamente, son este tipo de valores éticos y orientados al conocimiento los que tienden a ser articulados y defendidos directamente cuando se empujan”.
Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA
El estudio de valores de Anthrope se basa en los esfuerzos más amplios de la compañía para desmitificar modelos de idiomas grandes a través de lo que llama “interpretabilidad mecanicista“-Esencialmente sistemas de IA de ingeniería inversa para comprender su funcionamiento interno.
El mes pasado, publicaron investigadores antrópicos trabajo innovador que usó lo que describieron como un “microscopio“Para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos contradicionales, incluida la planificación de Claude con anticipación al componer poesía y utilizar enfoques no convencionales de resolución de problemas para las matemáticas básicas.
Estos hallazgos desafían los supuestos sobre cómo funcionan los modelos de idiomas grandes. Por ejemplo, cuando se le pidió que explique su proceso de matemáticas, Claude describió una técnica estándar en lugar de su método interno actual, revelando cómo las explicaciones de IA pueden divergir de las operaciones reales.
“Es una concept errónea que hemos encontrado todos los componentes del modelo o, como, una visión de Dios”, dijo el investigador antrópico Joshua Batson Revisión de la tecnología del MIT en marzo. “Algunas cosas están enfocadas, pero otras cosas aún no están claras: una distorsión del microscopio”.
Lo que significa la investigación de Anthrope para los tomadores de decisiones de IA Enterprise
Para los tomadores de decisiones técnicas que evalúan los sistemas de IA para sus organizaciones, la investigación de Anthrope ofrece varias conclusiones clave. Primero, sugiere que los asistentes actuales de IA probablemente expresan valores que no fueron programados explícitamente, planteando preguntas sobre sesgos no deseados en contextos comerciales de alto riesgo.
En segundo lugar, el estudio demuestra que la alineación de valores no es una proposición binaria, sino que existe en un espectro que varía según el contexto. Este matiz complica las decisiones de adopción empresarial, particularmente en industrias reguladas donde las directrices éticas claras son críticas.
Finalmente, la investigación destaca el potencial de evaluación sistemática de valores de IA en las implementaciones reales, en lugar de depender únicamente de las pruebas de prelanzamiento. Este enfoque podría permitir el monitoreo continuo de la deriva ética o la manipulación con el tiempo.
“Al analizar estos valores en las interacciones del mundo actual con Claude, nuestro objetivo es proporcionar transparencia en cómo se comportan los sistemas de IA y si están trabajando según lo previsto, creemos que esto es clave para el desarrollo responsable de la IA”, dijo Huang.
Anthrope ha liberado su conjunto de datos de valores Públicamente para alentar más investigaciones. La compañía, que recibió un Estaca de $ 14 mil millones de Amazon y respaldo adicional de Googleparece estar aprovechando la transparencia como una ventaja competitiva contra rivales como Opidai, cuya reciente ronda de financiación de $ 40 mil millones (que incluye a Microsoft como inversor central) ahora lo valora en $ 300 mil millones.
Anthrope ha liberado su conjunto de datos de valores Públicamente para alentar más investigaciones. La firma, respaldada por $ 8 mil millones de Amazon y sobre $ 3 mil millones de Googleemplea la transparencia como un diferenciador estratégico contra los competidores como OpenAI.
Mientras que Anthrope actualmente mantiene un Valoración de $ 61.5 mil millones Después de su reciente ronda de financiación, la última Aumento de capital de $ 40 mil millones – que incluyó una participación significativa del socio de mucho tiempo Microsoft, ha impulsado su valoración a $ 300 mil millones.
La carrera emergente para construir sistemas de IA que compartan valores humanos
Si bien la metodología de Anthrope proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, tiene limitaciones. Los investigadores reconocen que definir lo que cuenta como expresar un valor es inherentemente subjetivo, y dado que Claude en sí condujo el proceso de categorización, sus propios sesgos pueden haber influido en los resultados.
Quizás lo más importante es que el enfoque no puede usarse para la evaluación previa a la implementación, ya que requiere datos de conversación sustanciales del mundo actual para funcionar de manera efectiva.
“Este método está específicamente orientado al análisis de un modelo después de su lanzamiento, pero las variantes en este método, así como algunas de las concepts que hemos obtenido de escribir este documento, pueden ayudarnos a atrapar problemas de valor antes de desplegar un modelo ampliamente”, explicó Huang. “¡Hemos estado trabajando en la construcción de este trabajo para hacer exactamente eso, y soy optimista al respecto!”
A medida que los sistemas de IA se vuelven más potentes y autónomos, con adiciones recientes que incluyen la capacidad de Claude para Investigación independiente temas y acceder a los usuarios todo Espacio de trabajo de Google – Comprender y alinear sus valores se vuelve cada vez más essential.
“Inevitablemente, los modelos de IA tendrán que emitir juicios de valor”, concluyeron los investigadores en su artículo. “Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación de alineación de IA), entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo actual”.