Un importante conjunto de datos de capacitación de IA contiene millones de ejemplos de datos personales

julio 18, 2025

1

La conclusión, cube William Agnew, miembro postdoctoral en ética de IA en la Universidad Carnegie Mellon y uno de los coautores, es que “cualquier cosa que pones en línea puede [be] y probablemente ha sido raspado “.

Los investigadores encontraron miles de Instancias de documentos de identidad validados, incluidas imágenes de tarjetas de crédito, licencias de conducir, pasaportes y certificados de nacimiento, así como más de 800 documentos de solicitud de empleo validados (incluidos los currículums y las cartas de presentación), que se confirmaron a través de LinkedIn y otras búsquedas internet como asociadas con personas reales. (En muchos más casos, los investigadores no tuvieron tiempo para validar los documentos o no pudieron debido a problemas como la claridad de la imagen).

Varios de los currículums revelaron información confidencial, incluido el estado de discapacidad, los resultados de las verificaciones de antecedentes, las fechas de nacimiento y los lugares de nacimiento de los dependientes y la raza. Cuando los currículums estaban vinculados a personas con presencias en línea, los investigadores también encontraron información de contacto, identificadores gubernamentales, información sociodemográfica, fotografías faciales, direcciones de viviendas e información de contacto de otras personas (como referencias).

Ejemplos de documentos relacionados con la identidad que se encuentran en el conjunto de datos a pequeña escala de CommonPool, que muestran una tarjeta de crédito, número de seguro social y una licencia de conducir. Para cada muestra, el tipo de sitio de URL se muestra en la parte superior, la imagen en el medio y la leyenda en las citas a continuación. Toda la información private ha sido reemplazada y el texto ha sido parafraseado para evitar citas directas. Se han redactado imágenes para mostrar la presencia de caras sin identificar a los individuos.

Cuando se lanzó en 2023, DataComp Commonpool, con sus 12.8 mil millones de muestras de datos, fue el conjunto de datos existente más grande de pares de texto de imagen disponibles públicamente, que a menudo se usan para entrenar modelos generativos de texto a imagen. Si bien sus curadores dijeron que CommonPool estaba destinado a la investigación académica, su licencia no prohíbe el uso comercial también.

CommonPool se creó como un seguimiento del conjunto de datos Laion-5B, que se utilizó para entrenar modelos, incluida la difusión estable y la mediana edad. Se basa en la misma fuente de datos: raspado internet realizado por la organización sin fines de lucro Frequent Crawl entre 2014 y 2022.

Si bien los modelos comerciales a menudo no divulgan en qué conjuntos de datos están capacitados, las fuentes de datos compartidas de DataComp Commonpool y Laion-5b significan que los conjuntos de datos son similares y que la misma información de identificación private probablemente aparece en Laion-5b, así como en otros modelos intermedios entrenados en datos comunes. Los investigadores de CommonPool no respondieron a las preguntas por correo electrónico.

Y dado que DataComp Commonpool se ha descargado más de 2 millones de veces en los últimos dos años, es possible que “allí [are]Muchos modelos aguas abajo que están capacitados en este conjunto de datos exactos ”, cube Rachel Hong, estudiante de doctorado en informática de la Universidad de Washington y el autor principal del periódico. Esos duplicarían riesgos de privacidad similares.

Las buenas intenciones no son suficientes

“Puede suponer que cualquier datos con canto internet a gran escala siempre contiene contenido que no debería estar allí”, cube Abeba Birhane, científico cognitivo y ético tecnológico que lidera el Laboratorio de Responsabilidad de AI de Trinity School Dublin, ya sea información de identificación private (PII), Imágenes de abuso sexual infantilo discurso de odio (que Birhane investigación en Laion-5b ha encontrado).

Un importante conjunto de datos de capacitación de IA contiene millones de ejemplos de datos personales

Las buenas intenciones no son suficientes

Related Articles

손 끝에서 시작되는 여름, 네일로 기분 전환하기

Los robots que crecen y se reparan están aquí

enlaces + cosas pequeñas – The Small Issues Weblog

LEAVE A REPLY Cancel reply

Latest Articles

손 끝에서 시작되는 여름, 네일로 기분 전환하기

Los robots que crecen y se reparan están aquí

enlaces + cosas pequeñas – The Small Issues Weblog

Sarah -Jane Crawford – Presentadora de televisión – Título de su sitio

La carrera espacial de los drones estadounidenses comienza con el empuje del Pentágono