La conclusión, cube William Agnew, miembro postdoctoral en ética de IA en la Universidad Carnegie Mellon y uno de los coautores, es que “cualquier cosa que pones en línea puede [be] y probablemente ha sido raspado “.
Los investigadores encontraron miles de Instancias de documentos de identidad validados, incluidas imágenes de tarjetas de crédito, licencias de conducir, pasaportes y certificados de nacimiento, así como más de 800 documentos de solicitud de empleo validados (incluidos los currículums y las cartas de presentación), que se confirmaron a través de LinkedIn y otras búsquedas internet como asociadas con personas reales. (En muchos más casos, los investigadores no tuvieron tiempo para validar los documentos o no pudieron debido a problemas como la claridad de la imagen).
Varios de los currículums revelaron información confidencial, incluido el estado de discapacidad, los resultados de las verificaciones de antecedentes, las fechas de nacimiento y los lugares de nacimiento de los dependientes y la raza. Cuando los currículums estaban vinculados a personas con presencias en línea, los investigadores también encontraron información de contacto, identificadores gubernamentales, información sociodemográfica, fotografías faciales, direcciones de viviendas e información de contacto de otras personas (como referencias).

Cortesía de los investigadores
Cuando se lanzó en 2023, DataComp Commonpool, con sus 12.8 mil millones de muestras de datos, fue el conjunto de datos existente más grande de pares de texto de imagen disponibles públicamente, que a menudo se usan para entrenar modelos generativos de texto a imagen. Si bien sus curadores dijeron que CommonPool estaba destinado a la investigación académica, su licencia no prohíbe el uso comercial también.
CommonPool se creó como un seguimiento del conjunto de datos Laion-5B, que se utilizó para entrenar modelos, incluida la difusión estable y la mediana edad. Se basa en la misma fuente de datos: raspado internet realizado por la organización sin fines de lucro Frequent Crawl entre 2014 y 2022.
Si bien los modelos comerciales a menudo no divulgan en qué conjuntos de datos están capacitados, las fuentes de datos compartidas de DataComp Commonpool y Laion-5b significan que los conjuntos de datos son similares y que la misma información de identificación private probablemente aparece en Laion-5b, así como en otros modelos intermedios entrenados en datos comunes. Los investigadores de CommonPool no respondieron a las preguntas por correo electrónico.
Y dado que DataComp Commonpool se ha descargado más de 2 millones de veces en los últimos dos años, es possible que “allí [are]Muchos modelos aguas abajo que están capacitados en este conjunto de datos exactos ”, cube Rachel Hong, estudiante de doctorado en informática de la Universidad de Washington y el autor principal del periódico. Esos duplicarían riesgos de privacidad similares.
Las buenas intenciones no son suficientes
“Puede suponer que cualquier datos con canto internet a gran escala siempre contiene contenido que no debería estar allí”, cube Abeba Birhane, científico cognitivo y ético tecnológico que lidera el Laboratorio de Responsabilidad de AI de Trinity School Dublin, ya sea información de identificación private (PII), Imágenes de abuso sexual infantilo discurso de odio (que Birhane investigación en Laion-5b ha encontrado).