Aunque los datos sintéticos son una herramienta poderosa, solo puede reducir las alucinaciones de inteligencia synthetic en circunstancias específicas. En casi cualquier otro caso, los amplificará. ¿Por qué es esto? ¿Qué significa este fenómeno para aquellos que han invertido en él?
¿En qué se diferencian los datos sintéticos de los datos reales?
Los datos sintéticos son información generada por AI. En lugar de ser recolectado de eventos u observaciones del mundo actual, se produce artificialmente. Sin embargo, se asemeja al authentic lo suficiente como para producir una salida precisa y relevante. Esa es la concept, de todos modos.
Para crear un conjunto de datos synthetic, los ingenieros de IA entrenan un algoritmo generativo en una base de datos relacional actual. Cuando se le solicita, produce un segundo conjunto que refleja estrechamente el primero pero no contiene información genuina. Si bien las tendencias generales y las propiedades matemáticas permanecen intactas, hay suficiente ruido para enmascarar las relaciones originales.
Un conjunto de datos generado por IA va más allá de la identificación, replicando la lógica subyacente de las relaciones entre campos en lugar de simplemente reemplazar los campos con alternativas equivalentes. Dado que no contiene detalles de identificación, las empresas pueden usarlo para eludir las regulaciones de privacidad y derechos de autor. Más importante aún, pueden compartirlo libremente o distribuirlo sin temor a una violación.
Sin embargo, la información falsa se usa más comúnmente para la suplementación. Las empresas pueden usarlo para enriquecer o expandir los tamaños de muestra que son demasiado pequeños, lo que las hace lo suficientemente grandes como para entrenar los sistemas de IA de manera efectiva.
¿Los datos sintéticos minimizan las alucinaciones de IA?
A veces, los algoritmos hacen referencia a eventos inexistentes o hacen sugerencias lógicamente imposibles. Estas alucinaciones a menudo no son sensibles, engañosas o incorrectas. Por ejemplo, un modelo de lenguaje grande podría escribir un artículo sobre cómo domesticar leones o convertirse en médico a los 6 años. Sin embargo, no son todo este extremo, lo que puede hacer que el reconocimiento de ellos sea desafiante.
Si se selecciona adecuadamente, los datos artificiales pueden mitigar estos incidentes. Una base de datos de capacitación relevante y auténtica es la base de cualquier modelo, por lo que es lógico que cuantos más detalles tenga alguien, más precisa será la producción de su modelo. Un conjunto de datos complementario permite la escalabilidad, incluso para aplicaciones de nicho con información pública limitada.
Debiasing es otra forma en que una base de datos sintética puede minimizar las alucinaciones de IA. Según la MIT Sloan Faculty of Administration, puede ayudar a abordar el sesgo Porque no se limita al tamaño de la muestra authentic. Los profesionales pueden usar detalles realistas para llenar los vacíos donde las subpoblaciones seleccionadas están en exceso o sobrerrepresentadas.
Cómo los datos artificiales empeoran las alucinaciones
Desde los algoritmos inteligentes no se puede razonar o contextualizar la informaciónson propensos a las alucinaciones. Los modelos generativos, los modelos de lenguaje grande antes de la aparición en specific, son especialmente vulnerables. De alguna manera, los hechos artificiales agravan el problema.
Amplificación de sesgo
Al igual que los humanos, la IA puede aprender y reproducir sesgos. Si una base de datos synthetic sobrevalora a algunos grupos al tiempo que subrepresenta a otros, lo cual es consolinamente fácil de hacer accidentalmente, su lógica de toma de decisiones se sesgará, afectando negativamente la precisión de la salida.
Puede surgir un problema comparable cuando las empresas usan datos falsos para eliminar los sesgos del mundo actual porque ya no puede reflejar la realidad. Por ejemplo, ya que Más del 99% de los cánceres de seno ocurren en mujeres, el uso de información complementaria para equilibrar la representación podría sesgar diagnósticos.
Alucinaciones interseccionales
La interseccionalidad es un marco sociológico que describe cómo los datos demográficos como la edad, el género, la raza, la ocupación y la clase se cruzan. Analiza cómo las identidades sociales superpuestas de los grupos dan como resultado combinaciones únicas de discriminación y privilegios.
Cuando se le pide a un modelo generativo que produzca detalles artificiales basados en lo que entrenó, puede generar combinaciones que no existían en el authentic o son lógicamente imposibles.
Ericka Johnson, profesora de género y sociedad en la Universidad de Linköping, trabajó con un científico de aprendizaje automático para demostrar este fenómeno. Usaron una purple adversaria generativa Para crear versiones sintéticas de figuras del censo de los Estados Unidos de 1990.
De inmediato, notaron un problema evidente. La versión synthetic tenía categorías tituladas “esposa y soltera” y “maridos nunca casados”, las cuales eran alucinaciones interseccionales.
Sin una curación adecuada, la base de datos de réplica siempre representará subpoblaciones dominantes en los conjuntos de datos mientras subrepresentan, o incluso excluye, grupos subrepresentados. Los casos de borde y los valores atípicos pueden ignorarse por completo a favor de las tendencias dominantes.
Colapso del modelo
Una excesiva dependencia de los patrones y tendencias artificiales conduce al colapso del modelo, donde el rendimiento de un algoritmo se deteriora drásticamente a medida que se vuelve menos adaptable a las observaciones y eventos del mundo actual.
Este fenómeno es particularmente evidente en la IA generativa de próxima generación. Usar repetidamente una versión synthetic para entrenarlos da como resultado un bucle autoconsumente. Un estudio encontró que su Calidad y declive de recuerdo progresivamente sin suficientes cifras reales recientes en cada generación.
Exagerado
Exagerado es una dependencia excesiva de los datos de capacitación. El algoritmo funciona bien inicialmente, pero alucinará cuando se presente con nuevos puntos de datos. La información sintética puede agravar este problema si no refleja con precisión la realidad.
Las implicaciones del uso continuo de datos sintéticos
El mercado de datos sintéticos está en auge. Empresas en esta industria de nicho recaudó alrededor de $ 328 millones En 2022, por encima de $ 53 millones en 2020, un aumento del 518% en solo 18 meses. Vale la pena señalar que este es solo una financiación públicamente conocida, lo que significa que la cifra actual puede ser aún mayor. Es seguro decir que las empresas están increíblemente invertidas en esta solución.
Si las empresas continúan utilizando una base de datos synthetic sin una curación y debiajes adecuados, el rendimiento de su modelo disminuirá progresivamente, agrupando sus inversiones de IA. Los resultados pueden ser más severos, dependiendo de la aplicación. Por ejemplo, en la atención médica, un aumento en las alucinaciones podría provocar diagnósticos erróneos o planes de tratamiento inadecuados, lo que lleva a resultados más pobres del paciente.
La solución no implicará volver a datos reales.
Los sistemas de IA necesitan millones, si no miles de millones, de imágenes, texto y movies para capacitación, gran parte de los cuales se raspan de sitios internet públicos y se compila en conjuntos de datos abiertos masivos. Desafortunadamente, los algoritmos consumen esta información más rápido que los humanos pueden generarla. ¿Qué sucede cuando aprenden todo?
Los líderes empresariales están preocupados por golpear el muro de datos, el punto en el que se ha agotado toda la información pública en Web. Puede acercarse más rápido de lo que piensan.
Aunque tanto la cantidad de texto sin formato en la página internet de rastreo común promedio como la cantidad de usuarios de Web están creciendo en un 2% a 4% Anualmente, los algoritmos se están quedando sin datos de alta calidad. Solo el 10% al 40% se puede usar para capacitar sin comprometer el rendimiento. Si las tendencias continúan, la acción de información pública generada por humanos podría agotarse para 2026.
Con toda probabilidad, el sector de IA puede llegar a la pared de datos incluso antes. El auge generativo de la IA de los últimos años ha aumentado las tensiones sobre la propiedad de la información y la infracción de los derechos de autor. Más propietarios de sitios internet están utilizando el Protocolo de exclusión de Robots, un estándar que utiliza un archivo robots.txt para bloquear los rastreadores internet, o dejar que su sitio esté fuera de los límites.
Un estudio de 2024 publicado por un grupo de investigación liderado por el MIT reveló el colosal conjunto de datos de rastreo común (C4), un corpus de rastreo internet a gran escala) están en aumento. Encima 28% de las fuentes críticas más activas en C4 estaban completamente restringidos. Además, el 45% de C4 ahora está designado fuera de los límites por los términos de servicio.
Si las empresas respetan estas restricciones, la frescura, la relevancia y la precisión de los hechos públicos del mundo actual disminuirán, lo que las obliga a confiar en bases de datos artificiales. Es posible que no tengan muchas opciones si los tribunales dicen que cualquier alternativa es una infracción de derechos de autor.
El futuro de los datos sintéticos y las alucinaciones de IA
A medida que las leyes de derechos de autor se modernizan y más propietarios de sitios internet ocultan su contenido de los rastreadores internet, la generación de conjuntos de datos artificiales se volverá cada vez más common. Las organizaciones deben prepararse para enfrentar la amenaza de alucinaciones.