32.3 C
Colombia
lunes, julio 7, 2025

Meta Defiense Llama 4 lanzamiento contra ‘Informes de calidad mixta’, culpa a Bugs


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


El nuevo buque insignia de Meta Modelo de idioma insignia Llama 4 llegó de repente durante el fin de semanacon la empresa matriz de Fb, Instagram, WhatsApp y Quest VR (entre otros servicios y productos) revelando no uno, no dos, sino tres versiones, todas actualizadas para ser más potentes y performadores utilizando la fashionable arquitectura de “mezcla de expertos” y un nuevo método de entrenamiento que involucra hiperparámetros fijos, conocidos como METAP.

Además, los tres están equipados con Home windows de contexto masivo: la cantidad de información que un modelo de idioma AI puede manejar en un intercambio de entrada/salida con un usuario o herramienta.

Pero después del anuncio sorpresa y el lanzamiento público de dos de esos modelos para la descarga y el uso, el Scout 4 de nivel inferior Parameter 4 Scout and Midier Llama 4 Maverick, el sábado, la respuesta de la comunidad de IA en las redes sociales ha sido menos que adorar.

Llama 4 Spare confusión y crítica entre los usuarios de IA

Un no verificado correo En el Foro de la Comunidad de Lengua China de América del Norte, 1Point3Acres se dirigió a la r/localllama subreddit en Reddit alegando ser de un investigador de la organización Genai de Meta que afirmó que el modelo se desempeñó mal en los puntos de referencia de terceros internamente y que el liderazgo de la compañía “Los conjuntos de pruebas de combinación sugeridos de varios puntos de referencia durante el proceso posterior a la capacitación, con el objetivo de cumplir con los objetivos en varias métricas y producir un resultado ‘presentable'”.

La publicación fue recibida con escepticismo de la comunidad en su autenticidad, y un correo electrónico de VentureBeat a un portavoz de Meta aún no ha recibido una respuesta.

Pero otros usuarios encontraron razones para dudar de los puntos de referencia independientemente.

“En este punto, sospecho mucho que Meta enganchó algo en los pesos liberados … si no, deberían despedir a todos los que trabajaron en esto y luego usar dinero para adquirir nous“, Comentó @cto_junior en X, en referencia a una prueba de usuario independiente que muestra el bajo rendimiento de Llama 4 Maverick (16%) en un Benchmark conocido como Aider Polyglotque ejecuta un modelo a través de 225 tareas de codificación. Eso está muy por debajo del rendimiento de modelos más antiguos de tamaño comparable como Deepseek V3 y Claude 3.7 Sonnet.

Haciendo referencia a la ventana de contexto de 10 millones de token Meta se jactó para Llama 4 Scout, AI PhD y autor Andriy Burkov escribió en x en parte que: “El contexto declarado de 10 m es digital porque ningún modelo fue entrenado en indicaciones de más de 256k tokens. Esto significa que si le envía más de 256k tokens, obtendrá una producción de baja calidad la mayor parte del tiempo”.

También en el subreddit r/localllama, el usuario dr_karminski escribió que “Estoy increíblemente decepcionado con Llama-4,“Y demostró su bajo rendimiento en comparación con el modelo V3 no razonable de Deepseek en tareas de codificación, como simular bolas que rebotan en torno a un heptágono.

El ex investigador y precise AI2 (Instituto Allen para la Inteligencia Synthetic) científico de investigación senior Nathan Lambert se llevó a su weblog de Interconnects Sushack el lunes para señalar que una comparación de referencia publicada por Meta con su propio sitio de descarga de Llama de Llama 4 Maverick a otros modelos, basado en el costo al rendimiento en la herramienta de comparación de terceros en la cabeza a cabeza Lmarena elo también conocido como chatbot area, en realidad usó un diferente Versión de Llama 4 Maverick de lo que la compañía misma había puesto a disposición del público, una “optimizada para la conversación”.

Como escribió Lambert: “Deseado. Los resultados a continuación son falsos, y es una gran thought para la comunidad de Meta no lanzar el modelo que usaron para crear su importante impulso de advertising. Hemos visto muchos modelos abiertos que se producen para maximizar en Chatbotarena mientras destruyen el rendimiento del modelo en habilidades importantes como las matemáticas o el código”.

Lambert continuó observando que si bien este modelo en explicit en la area period “Tanking la reputación técnica del lanzamiento porque su carácter es juvenil”, incluyendo muchos emojis y diálogo emotivo frívolo, “¡El modelo actual en otros proveedores de alojamiento es bastante inteligente y tiene un tono razonable!”

En respuesta al torrente de la crítica y las acusaciones de la cocina de referencia, El vicepresidente de Meta y jefe de Genai Ahmad al-Dahle llevó a X para decir:

“Nos alegra comenzar a obtener Llama 4 en todas sus manos. Ya estamos escuchando muchos resultados excelentes que la gente obtiene con estos modelos.

Dicho esto, también estamos escuchando algunos informes de calidad mixta en diferentes servicios. Dado que dejamos caer las modelos tan pronto como estuvieron listos, esperamos que tomen varios días para que todas las implementaciones públicas se marquen. Seguiremos trabajando a través de nuestras correcciones de errores y socios de incorporación.

También hemos escuchado afirmaciones de que entrenamos en conjuntos de pruebas, eso simplemente no es cierto y nunca lo haríamos. Nuestra mejor comprensión es que la calidad variable que las personas están viendo se debe a la necesidad de estabilizar las implementaciones.

Creemos que los modelos LLAMA 4 son un avance significativo y esperamos trabajar con la comunidad para desbloquear su valor.

Sin embargo, incluso esa respuesta se encontró con muchos Quejas de bajo rendimiento y exige más información, como más documentación técnica describir los modelos de Llama 4 y sus procesos de capacitación, así como preguntas adicionales sobre por qué este lanzamiento en comparación con todos los lanzamientos de LLAMA anteriores fue particularmente plagado de problemas.

También se produce inmediatamente después del número dos en la vicepresidente de investigación de Meta, Joelle Pineau, que trabajó en la adyacente organización de investigación de inteligencia synthetic meta fundacional (justo), anunciando su partida de la empresa en LinkedIn la semana pasada con “nada más que admiración y profunda gratitud por cada uno de mis gerentes”. Pineau, debe tenerse en cuenta también promovió el lanzamiento de la familia Mannequin de Llama 4 este fin de semana.

Llama 4 continúa extendiéndose a otros proveedores de inferencias con resultados mixtos, pero es seguro decir que el lanzamiento inicial de la familia Mannequin no ha sido una inmersión en la comunidad de IA.

Y el próximo Meta Llamacon el 29 de abrilla primera celebración y reunión para desarrolladores externos de la familia Mannequin, probablemente tendrá mucho forraje para la discusión. Lo seguiremos todo, estén atentos.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles