A medida que crece la demanda de IA generativa, también crece el hambre de datos de alta calidad para entrenar estos sistemas. Los editores académicos han comenzado a monetizar el contenido de su investigación para proporcionar datos de capacitación para modelos de lenguajes grandes (LLM). Si bien este desarrollo está creando una nueva fuente de ingresos para los editores y potenciando la IA generativa para los descubrimientos científicos, plantea preguntas críticas sobre la integridad y confiabilidad de la investigación utilizada. Esto plantea una pregunta essential: ¿son confiables los conjuntos de datos que se venden y qué implicaciones tiene esta práctica para la comunidad científica y los modelos generativos de IA?
El auge de los acuerdos de investigación monetizados
Las principales editoriales académicas, incluidas Wiley, Taylor & Francis y otras, han reportado ingresos sustanciales por la concesión de licencias de su contenido a empresas de tecnología que desarrollan modelos de IA generativa. Por ejemplo, Wiley reveló más de 40 millones de dólares en ganancias de este tipo de acuerdos sólo este año. Estos acuerdos permiten a las empresas de IA acceder a conjuntos de datos científicos diversos y amplios, presumiblemente mejorando la calidad de sus herramientas de IA.
El argumento de los editores es sencillo: las licencias garantizan mejores modelos de IA, lo que beneficia a la sociedad y al mismo tiempo recompensa a los autores con regalías. Este modelo de negocio beneficia tanto a las empresas de tecnología como a los editores. Sin embargo, la creciente tendencia a monetizar el conocimiento científico tiene riesgos, principalmente cuando investigaciones cuestionables se infiltran en estos conjuntos de datos de entrenamiento de IA.
La sombra de la investigación falsa
La comunidad académica no es ajena a los problemas de investigación fraudulenta. Los estudios sugieren que muchos hallazgos publicados son defectuosos, sesgados o simplemente poco confiables. Una encuesta de 2020 encontró que casi la mitad de los investigadores informaron problemas como la presentación selectiva de datos o estudios de campo mal diseñados. En 2023, más de 10.000 artículos fueron retractados debido a resultados falsificados o poco confiables, un número que continúa aumentando anualmente. Los expertos creen que esta cifra representa la punta de un iceberg, ya que en las bases de datos científicas circulan innumerables estudios dudosos.
La disaster ha sido impulsada principalmente por “fábricas de papel”, organizaciones en la sombra que producen estudios fabricados, a menudo en respuesta a presiones académicas en regiones como China, India y Europa del Este. Se estima que alrededor del 2% de los envíos de revistas a nivel mundial provienen de fábricas de papel. Estos artículos falsos pueden parecerse a investigaciones legítimas, pero están plagados de datos ficticios y conclusiones infundadas. Es inquietante que estos artículos pasen por alto la revisión por pares y terminen en revistas respetadas, comprometiendo la confiabilidad de los conocimientos científicos. Por ejemplo, durante la pandemia de COVID-19, estudios defectuosos Los estudios sobre la ivermectina sugirieron falsamente su eficacia como tratamiento, lo que sembró confusión y retrasó respuestas efectivas de salud pública. Este ejemplo resalta el daño potencial de difundir investigaciones poco confiables, donde los resultados erróneos pueden tener un impacto significativo.
Consecuencias para la formación y la confianza en la IA
Las implicaciones son profundas cuando los LLM se capacitan en bases de datos que contienen investigaciones fraudulentas o de baja calidad. Los modelos de IA utilizan patrones y relaciones dentro de sus datos de entrenamiento para generar resultados. Si los datos de entrada están corruptos, los resultados pueden perpetuar las imprecisiones o incluso amplificarlas. Este riesgo es particularmente alto en campos como la medicina, donde los conocimientos incorrectos generados por la IA podrían tener consecuencias potencialmente mortales.
Además, la cuestión amenaza la confianza del público en el mundo académico y la IA. A medida que los editores continúan cerrando acuerdos, deben abordar las preocupaciones sobre la calidad de los datos que se venden. No hacerlo podría dañar la reputación de la comunidad científica y socavar los posibles beneficios sociales de la IA.
Garantizar datos confiables para la IA
Reducir los riesgos de que una investigación defectuosa interrumpa la formación en IA requiere un esfuerzo conjunto de los editores, las empresas de IA, los desarrolladores, los investigadores y la comunidad en common. Los editores deben mejorar su proceso de revisión por pares para detectar estudios poco confiables antes de incorporarlos a conjuntos de datos de capacitación. Ofrecer mejores recompensas a los revisores y establecer estándares más altos puede ayudar. Un proceso de revisión abierto es basic aquí. Aporta más transparencia y responsabilidad, ayudando a generar confianza en la investigación.
Las empresas de IA deben tener más cuidado con quién trabajan cuando buscan investigaciones para la formación en IA. Es clave elegir editoriales y revistas con una sólida reputación por sus investigaciones de alta calidad y bien revisadas. En este contexto, vale la pena observar de cerca el historial de un editor, como la frecuencia con la que se retractan de sus artículos o cuán abiertos son sobre su proceso de revisión. Ser selectivo mejora la confiabilidad de los datos y genera confianza en las comunidades de investigación e inteligencia synthetic.
Los desarrolladores de IA deben asumir la responsabilidad de los datos que utilizan. Esto significa trabajar con expertos, comprobar cuidadosamente las investigaciones y comparar los resultados de múltiples estudios. Las propias herramientas de inteligencia synthetic también pueden diseñarse para identificar datos sospechosos y reducir los riesgos de que investigaciones cuestionables se difundan aún más.
La transparencia también es un issue esencial. Los editores y las empresas de inteligencia synthetic deberían compartir abiertamente detalles sobre cómo se utiliza la investigación y adónde van las regalías. Herramientas como la Rastreador de acuerdos de licencia de IA generativa son prometedores pero necesitan una adopción más amplia. Los investigadores también deberían poder opinar sobre cómo se utiliza su trabajo. Políticas de participacióncomo los de Prensa de la Universidad de Cambridgeofrecen a los autores management sobre sus contribuciones. Esto genera confianza, garantiza la equidad y hace que los autores participen activamente en este proceso.
Además, se debe fomentar el acceso abierto a la investigación de alta calidad para garantizar inclusión y equidad en el desarrollo de la IA. Los gobiernos, las organizaciones sin fines de lucro y los actores de la industria pueden financiar iniciativas de acceso abierto, reduciendo la dependencia de los editores comerciales para conjuntos de datos de capacitación críticos. Además de eso, la industria de la IA necesita reglas claras para obtener datos de manera ética. Al centrarnos en investigaciones confiables y bien revisadas, podemos crear mejores herramientas de inteligencia synthetic, proteger la integridad científica y mantener la confianza del público en la ciencia y la tecnología.
La conclusión
Monetizar la investigación para la formación en IA presenta tanto oportunidades como desafíos. Si bien la concesión de licencias para el contenido académico permite el desarrollo de modelos de IA más potentes, también genera preocupaciones sobre la integridad y confiabilidad de los datos utilizados. Las investigaciones defectuosas, incluidas las de las “fábricas de papel”, pueden corromper los conjuntos de datos de entrenamiento de la IA, lo que genera imprecisiones que pueden socavar la confianza del público y los beneficios potenciales de la IA. Para garantizar que los modelos de IA se basen en datos confiables, los editores, las empresas de IA y los desarrolladores deben trabajar juntos para mejorar los procesos de revisión por pares, aumentar la transparencia y priorizar la investigación de alta calidad y bien examinada. Al hacerlo, podemos salvaguardar el futuro de la IA y defender la integridad de la comunidad científica.