22.8 C
Colombia
sábado, julio 5, 2025

Las identidades reales se pueden recuperar a partir de conjuntos de datos sintéticos


Si 2022 marcó el momento en que el potencial disruptivo de la IA generativa captó por primera vez la atención del público, 2024 ha sido el año en el que las preguntas sobre la legalidad de sus datos subyacentes han pasado a ocupar un lugar central para las empresas ansiosas por aprovechar su poder.

los estados unidos doctrina de uso legítimojunto con la licencia académica implícita que durante mucho tiempo había permitido a los sectores de investigación académica y comercial explorar la IA generativa, se volvió cada vez más insostenible a medida que aumentaba evidencia de plagio emergió. Posteriormente, Estados Unidos ha, por el momento, no permitido El contenido generado por IA tenga derechos de autor.

Estos asuntos están lejos de estar resueltos y lejos de ser resueltos de manera inminente; en 2023, debido en parte a creciente preocupación de los medios y del público sobre el estatus authorized de la producción generada por IA, la Oficina de Derechos de Autor de EE. UU. lanzó una investigación de años de duración sobre este aspecto de la IA generativa, publicando el primer segmento (sobre réplicas digitales) en julio de 2024.

Mientras tanto, los intereses empresariales siguen frustrados por la posibilidad de que los costosos modelos que desean explotar puedan exponerlos a ramificaciones legales cuando finalmente surjan leyes y definiciones definitivas.

La costosa solución a corto plazo ha sido legitimar los modelos generativos capacitándolos con datos que las empresas tienen derecho a explotar. La conversión de texto a imagen de Adobe (y ahora texto a vídeo) La arquitectura Firefly se basa principalmente en su compra del conjunto de datos de imágenes de archivo de Fotolia en 2014, complementado mediante el uso de datos de dominio público con derechos de autor vencidos*. Al mismo tiempo, los actuales proveedores de fotografías de archivo, como Getty y Shutterstock, capitalizado sobre el nuevo valor de sus datos bajo licencia, con un número creciente de acuerdos para licenciar contenido o desarrollar sus propios sistemas GenAI compatibles con IP.

Soluciones sintéticas

Desde que se eliminaron los datos protegidos por derechos de autor de los usuarios capacitados espacio latente de un modelo de IA es lleno de problemaslos errores en esta área podrían resultar muy costosos para las empresas que experimentan con soluciones empresariales y de consumo que utilizan el aprendizaje automático.

Una solución alternativa y mucho más económica para los sistemas de visión por computadora (y también Modelos de lenguaje grandes, o LLM), es el uso de datos sintéticosdonde el conjunto de datos se compone de ejemplos generados aleatoriamente del dominio objetivo (como caras, gatos, iglesias o incluso un conjunto de datos más generalizado).

Sitios como thispersondoesnotexist.com popularizaron hace mucho tiempo la thought de que se podían sintetizar fotografías de apariencia auténtica de personas “no reales” (en ese caso explicit, a través de Generative Adversarial Networks, o GAN) sin tener ninguna relación con personas que realmente existen en el mundo actual.

Por lo tanto, si se entrena un sistema de reconocimiento facial o un sistema generativo con ejemplos tan abstractos y no reales, en teoría se puede obtener un estándar de productividad fotorrealista para un modelo de IA sin necesidad de considerar si los datos son legalmente utilizables.

Acto de equilibrio

El problema es que los sistemas que producen datos sintéticos están a su vez entrenados con datos reales. Si rastros de esos datos se filtran a los datos sintéticos, esto potencialmente proporciona evidencia de que se ha explotado materials restringido o no autorizado para obtener ganancias monetarias.

Para evitar esto, y para producir imágenes verdaderamente “aleatorias”, dichos modelos deben asegurarse de que estén biengeneralizado. Generalización es la medida de la capacidad de un modelo de IA entrenado para comprender intrínsecamente conceptos de alto nivel (como ‘rostro’, ‘hombre’o ‘mujer’) sin recurrir a replicar los datos de entrenamiento reales.

Desafortunadamente, puede resultar difícil para los sistemas capacitados producir (o reconocer) detalle granular a menos que entrene bastante en un conjunto de datos. Esto expone al sistema al riesgo de memorización: una tendencia a reproducir, hasta cierto punto, ejemplos de los datos de entrenamiento reales.

Esto se puede mitigar estableciendo un ambiente más relajado. tasa de aprendizajeo finalizando la capacitación en una etapa en la que los conceptos básicos aún son dúctiles y no están asociados con ningún punto de datos específico (como una imagen específica de una persona, en el caso de un conjunto de datos faciales).

Sin embargo, es possible que ambas soluciones conduzcan a modelos con detalles menos detallados, ya que el sistema no tuvo la oportunidad de avanzar más allá de los “fundamentos” del dominio objetivo y llegar a los detalles.

Por lo tanto, en la literatura científica se aplican generalmente tasas de aprendizaje muy altas y programas de formación integrales. Si bien los investigadores suelen intentar llegar a un equilibrio entre una aplicabilidad amplia y una granularidad en el modelo last, incluso los sistemas ligeramente “memorizados” a menudo pueden presentarse erróneamente como bien generalizados, incluso en las pruebas iniciales.

Revelación de rostro

Esto nos lleva a un nuevo e interesante artículo de Suiza, que afirma ser el primero en demostrar que las imágenes originales y reales que alimentan los datos sintéticos se pueden recuperar a partir de imágenes generadas que, en teoría, deberían ser completamente aleatorias:

Imágenes de rostros de ejemplo filtradas de datos de entrenamiento. En la fila de arriba, vemos las imágenes originales (reales); En la fila de abajo vemos imágenes generadas aleatoriamente, que concuerdan significativamente con las imágenes reales. Fuente: https://arxiv.org/pdf/2410.24015

Imágenes de rostros de ejemplo filtradas de datos de entrenamiento. En la fila de arriba, vemos las imágenes originales (reales); En la fila de abajo vemos imágenes generadas aleatoriamente, que concuerdan significativamente con las imágenes reales. Fuente: https://arxiv.org/pdf/2410.24015

Los resultados, sostienen los autores, indican que los generadores “sintéticos” de hecho han memorizado una gran cantidad de puntos de datos de entrenamiento, en su búsqueda de una mayor granularidad. También indican que los sistemas que se basan en datos sintéticos para proteger a los productores de IA de las consecuencias legales podrían ser muy poco fiables a este respecto.

Los investigadores llevaron a cabo un extenso estudio sobre seis conjuntos de datos sintéticos de última generación, demostrando que en todos los casos, los datos originales (potencialmente protegidos o protegidos por derechos de autor) se pueden recuperar. Ellos comentan:

«Nuestros experimentos demuestran que los conjuntos de datos de reconocimiento facial sintéticos de última generación contienen muestras muy cercanas a las muestras de los datos de entrenamiento de sus modelos generadores. En algunos casos, las muestras sintéticas contienen pequeños cambios en la imagen authentic; sin embargo, también podemos observar que en algunos casos la muestra generada contiene más variación (por ejemplo, diferente pose, condición de luz, and so forth.) mientras se conserva la identidad.

«Esto sugiere que los modelos generadores están aprendiendo y memorizando la información relacionada con la identidad a partir de los datos de entrenamiento y pueden generar identidades similares. Esto crea preocupaciones críticas con respecto a la aplicación de datos sintéticos en tareas sensibles a la privacidad, como la biometría y el reconocimiento facial.’

El papel esta titulado Revelando rostros sintéticos: cómo los conjuntos de datos sintéticos pueden exponer identidades realesy proviene de dos investigadores del Instituto de Investigación Idiap en Martigny, la École Polytechnique Fédérale de Lausanne (EPFL) y la Université de Lausanne (UNIL) en Lausanne.

Método, datos y resultados

Las caras memorizadas en el estudio fueron reveladas por Ataque de inferencia de membresía. Aunque el concepto suena complicado, se explica por sí mismo: inferir membresía, en este caso, se refiere al proceso de cuestionar un sistema hasta que revela datos que coinciden con los datos que se están buscando o se parecen significativamente a ellos.

Más ejemplos de fuentes de datos inferidas, del estudio. En este caso, las imágenes sintéticas de origen provienen del conjunto de datos DCFace.

Más ejemplos de fuentes de datos inferidas, del estudio. En este caso, las imágenes sintéticas de origen provienen del conjunto de datos DCFace.

Los investigadores estudiaron seis conjuntos de datos sintéticos cuya fuente (actual) period conocida. Dado que tanto los conjuntos de datos reales como los falsos en cuestión contienen un volumen muy alto de imágenes, esto es efectivamente como buscar una aguja en un pajar.

Por lo tanto, los autores utilizaron un modelo de reconocimiento facial disponible en el mercado. con un ResNet100 columna vertebral entrenada en el adacara función de pérdida (en el WebFace12M conjunto de datos).

Los seis conjuntos de datos sintéticos utilizados fueron: caradc (un modelo de difusión latente); IDiff-cara (Uniforme – un modelo de difusión basado en FFHQ); IDiff-Face (dos etapas: una variante que utiliza un método de muestreo diferente); GANDDiffCara (basado en redes generativas adversarias y modelos de difusión, utilizando EstiloGAN3 para generar identidades iniciales, y luego cabina de sueños crear ejemplos variados); IDNET (un método GAN, basado en EstiloGAN-ADA); y Cara (un marco de protección de la identidad).

Dado que GANDiffFace utiliza tanto GAN como métodos de difusión, se comparó con el conjunto de datos de entrenamiento de StyleGAN, el origen más cercano a un “rostro actual” que proporciona esta crimson.

Los autores excluyeron los conjuntos de datos sintéticos que utilizan CGI en lugar de métodos de IA y, al evaluar los resultados, descontaron las coincidencias para niños, debido a anomalías en la distribución en este sentido, así como las imágenes sin rostros (que pueden ocurrir con frecuencia en conjuntos de datos de rostros, donde el net scraping los sistemas producen falsos positivos para objetos o artefactos que tienen cualidades similares a las de una cara).

Similitud del coseno se calculó para todos los pares recuperados y se concatenó en histogramas, como se ilustra a continuación:

Una representación de histograma para puntuaciones de similitud de cosenos calculadas en los diversos conjuntos de datos, junto con sus valores de similitud relacionados para los k pares superiores (líneas verticales discontinuas).

Una representación de histograma para puntuaciones de similitud de cosenos calculadas en los diversos conjuntos de datos, junto con sus valores de similitud relacionados para los okay pares superiores (líneas verticales discontinuas).

El número de similitudes está representado en los picos del gráfico anterior. El artículo también presenta comparaciones de muestras de los seis conjuntos de datos y sus correspondientes imágenes estimadas en los conjuntos de datos originales (reales), de los cuales algunas selecciones se presentan a continuación:

Muestras de los numerosos casos reproducidos en el artículo original, al que se remite al lector para una selección más completa.

Muestras de los numerosos casos reproducidos en el artículo authentic, al que se remite al lector para una selección más completa.

El artículo comenta:

‘[The] Los conjuntos de datos sintéticos generados contienen imágenes muy similares del conjunto de entrenamiento de su modelo generador, lo que genera preocupaciones con respecto a la generación de tales identidades.

Los autores señalan que, para este enfoque en explicit, la ampliación a conjuntos de datos de mayor volumen probablemente resulte ineficiente, ya que el cálculo necesario sería extremadamente engorroso. Observan además que la comparación visible period necesaria para inferir coincidencias y que el reconocimiento facial automatizado por sí solo probablemente no sería suficiente para una tarea más amplia.

Respecto a las implicaciones de la investigación, y de cara a los caminos a seguir, el trabajo señala:

‘[We] Me gustaría resaltar que la principal motivación para generar conjuntos de datos sintéticos es abordar las preocupaciones de privacidad al utilizar conjuntos de datos faciales rastreados en la net a gran escala.

«Por lo tanto, la filtración de cualquier información wise (como identidades de imágenes reales en los datos de entrenamiento) en el conjunto de datos sintéticos genera preocupaciones críticas con respecto a la aplicación de datos sintéticos para tareas sensibles a la privacidad, como la biometría. Nuestro estudio arroja luz sobre los problemas de privacidad en la generación de conjuntos de datos de reconocimiento facial sintéticos y allana el camino para futuros estudios hacia la generación de conjuntos de datos de rostros sintéticos responsables.’

Aunque los autores prometen una publicación del código para este trabajo en el pagina del proyectono hay ningún enlace al repositorio precise.

Conclusión

Últimamente, la atención de los medios ha enfatizado la rendimientos decrecientes obtenido entrenando modelos de IA con datos generados por IA.

La nueva investigación suiza, sin embargo, pone de relieve una consideración que puede ser más apremiante para el creciente número de empresas que desean aprovechar y beneficiarse de la IA generativa: la persistencia de patrones de datos no autorizados o protegidos por IP, incluso en conjuntos de datos que son diseñado para combatir esta práctica. Si tuviéramos que darle una definición, en este caso se podría llamar ‘lavado de cara’.

* Sin embargo, la decisión de Adobe de permitir que los usuarios carguen imágenes generadas por IA en Adobe Inventory ha socavado efectivamente la “pureza” authorized de estos datos. Bloomberg sostenido en abril de 2024, las imágenes proporcionadas por el usuario del sistema de IA generativa MidJourney se habían incorporado a las capacidades de Firefly.

Este modelo no está identificado en el artículo.

Publicado por primera vez el miércoles 6 de noviembre de 2024

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles