API de Meta Oleleshes Llama que se ejecuta 18 veces más rápido que OpenAI: Cerebras Partnership ofrece 2.600 tokens por segundo

abril 30, 2025

16

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

Meta anunció hoy una asociación con Sistemas de cerebras Para alimentar su nuevo API de llamasofreciendo a los desarrolladores acceso a velocidades de inferencia hasta 18 veces más rápido que las soluciones tradicionales basadas en GPU.

El anuncio, hecho en la inauguración de Meta Llano Conferencia de desarrolladores en Menlo Park, posiciona a la compañía para competir directamente con Opadai, Antrópicoy Google En el mercado de servicios de inferencia de IA en rápido crecimiento, donde los desarrolladores compran tokens por miles de millones para alimentar sus aplicaciones.

“Meta ha seleccionado a Cerebras para colaborar para ofrecer la inferencia extremely rápida que necesitan para servir a los desarrolladores a través de su nueva API de LLAMA”, dijo Julie Shin Choi, directora de advertising and marketing de Cerebras, durante una sesión de prensa. “En Cerebras estamos muy, muy emocionados de anunciar nuestra primera asociación HyperScaler CSP para ofrecer una inferencia extremely rápida a todos los desarrolladores”.

La asociación marca la entrada formal de Meta en el negocio de la venta de AI Computation, transformando sus populares modelos de llama de código abierto en un servicio comercial. Mientras que los modelos de llama de Meta se han acumulado One mil millones de descargasHasta ahora, la compañía no había ofrecido una infraestructura en la nube de primera parte para que los desarrolladores creen aplicaciones con ellos.

“Esto es muy emocionante, incluso sin hablar sobre cerebras específicamente”, dijo James Wang, un ejecutivo senior de Cerebras. “Openai, Anthrope, Google: han construido un nuevo negocio de IA completamente nuevo desde cero, que es el negocio de inferencia de IA. Los desarrolladores que están construyendo aplicaciones de IA comprarán tokens por millones, a veces por miles de millones. Y estas son como las nuevas instrucciones de cómputo que las personas necesitan para construir aplicaciones AI”.

Una tabla de referencia muestra a Cerebras Processing Llama 4 a 2,648 tokens por segundo, superando drásticamente a los competidores Sambanova (747), Groq (600) y servicios basados en GPU de Google y otros, explicando la elección de {hardware} de Meta para su nueva API. (Crédito: Cerebras)

Breaking the Pace Barrier: Cómo modelos de Llama de Cerebras Supercharges

Lo que distingue a la oferta de Meta es el aumento de la velocidad dramática proporcionado por los chips de IA especializados de Cerebras. El sistema de cerebras se entrega 2.600 tokens por segundo para Llama 4 Scout, en comparación con aproximadamente 130 fichas por segundo para ChatGPT y alrededor de 25 tokens por segundo para Deepseek, según puntos de referencia de Análisis synthetic.

“Si solo se compara con API a API, Gemini y GPT, todos son grandes modelos, pero todos se ejecutan a velocidades de GPU, que son aproximadamente 100 tokens por segundo”, explicó Wang. “Y 100 tokens por segundo están bien para el chat, pero es muy lento para el razonamiento. Es muy lento para los agentes. Y la gente está luchando con eso hoy”.

Esta ventaja de velocidad permite categorías completamente nuevas de aplicaciones que antes no eran prácticas, incluidos los agentes en tiempo actual, los sistemas de voz de baja latencia conversacional, la generación de código interactivo y el razonamiento instantáneo de múltiples pasos, todos los cuales requieren encadenamiento de múltiples llamadas de modelo de lenguaje grandes que ahora se pueden completar en segundos en lugar de minutos.

El API de llamas Representa un cambio significativo en la estrategia de IA de Meta, la transición de ser principalmente un proveedor de modelos a convertirse en una compañía de infraestructura de IA de servicio completo. Al ofrecer un servicio API, Meta está creando un flujo de ingresos a partir de sus inversiones de IA mientras mantiene su compromiso de abrir modelos.

“Meta ahora está en el negocio de vender tokens, y es excelente para el tipo de ecosistema de IA estadounidense”, señaló Wang durante la conferencia de prensa. “Traen mucho a la mesa”.

La API ofrecerá herramientas para el ajuste y la evaluación, comenzando con Modelo de Llama 3.3 8Bpermitiendo a los desarrolladores generar datos, entrenar en él y probar la calidad de sus modelos personalizados. Meta enfatiza que no utilizará datos de clientes para capacitar a sus propios modelos, y los modelos construidos con la API de LLAMA se pueden transferir a otros hosts, una clara diferenciación de los enfoques más cerrados de algunos competidores.

Las cerebras alimentarán el nuevo servicio de Meta a través de su pink de centros de datos Ubicado en toda América del Norte, incluidas las instalaciones en Dallas, Oklahoma, Minnesota, Montreal y California.

“Todos nuestros centros de datos que sirven a la inferencia están en América del Norte en este momento”, explicó Choi. “Serviremos Meta con toda la capacidad de las cerebras. La carga de trabajo se equilibrará en todos estos diferentes centros de datos”.

El arreglo comercial sigue lo que Choi describió como “el proveedor de cómputo clásico para un modelo hiperscalador”, comparable a la forma en que NVIDIA proporciona {hardware} a los principales proveedores de la nube. “Están reservando bloques de nuestro cómputo para que puedan servir a su población de desarrolladores”, dijo.

Más allá de las cerebras, Meta también ha anunciado una asociación con Groq Para proporcionar opciones de inferencia rápida, brindando a los desarrolladores múltiples alternativas de alto rendimiento más allá de la inferencia tradicional basada en GPU.

La entrada de Meta en el mercado de API de inferencia con métricas de rendimiento superiores podría alterar el orden establecido dominado por Opadai, Googley Antrópico. Al combinar la popularidad de sus modelos de código abierto con capacidades de inferencia dramáticamente más rápidas, Meta se está posicionando como un competidor formidable en el espacio comercial de IA.

“Meta está en una posición única con 3 mil millones de usuarios, centros de datos de hiper escala y un gran ecosistema de desarrolladores”, según los materiales de presentación de Cerebras. La integración de la tecnología de cerebras “ayuda a Meta Leapfrog OpenAi y Google en rendimiento en aproximadamente 20X”.

Para las cerebras, esta asociación representa un hito importante y la validación de su enfoque especializado de {hardware} de IA. “Hemos estado construyendo este motor a escala de obleas durante años, y siempre supimos que la primera tarifa de la tecnología, pero en última instancia tiene que terminar como parte de la nube de hiperescala de otra persona. Ese fue el objetivo closing desde una perspectiva de estrategia comercial, y finalmente hemos alcanzado ese hito”, dijo Wang.

El API de llamas Actualmente está disponible como una vista previa limitada, con Meta Planificación de un lanzamiento más amplio en las próximas semanas y meses. Los desarrolladores interesados en acceder a la inferencia Extremely-Quick Llama 4 pueden solicitar el acceso temprano seleccionando cerebras de las opciones del modelo dentro de la API de LLAMA.

“Si te imaginas a un desarrollador que no sabe nada sobre cerebras porque somos una empresa relativamente pequeña, solo pueden hacer clic en dos botones en el SDK estándar de SDK estándar de Meta, generar una tecla API, seleccionar la bandera de cerebras y luego, de repente, sus tokens se procesan en un motor gigante a escala de dafers”, explicó las cejas. “Ese tipo de hacernos estar en el again -end del ecosistema de desarrolladores de Meta todo el ecosistema es tremendo para nosotros”.

La elección de Meta de silicio especializada señala algo profundo: en la siguiente fase de la IA, no es solo lo que saben sus modelos, sino lo rápido que pueden pensarlo. En ese futuro, la velocidad no es solo una característica, es todo el punto.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Every day te tiene cubierto. Le damos la cuenta inside de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir concepts para el ROI máximo.

Leer nuestro política de privacidad

Gracias por suscribirse. Mira más Boletines de VB aquí.

Ocurrió un error.

API de Meta Oleleshes Llama que se ejecuta 18 veces más rápido que OpenAI: Cerebras Partnership ofrece 2.600 tokens por segundo

Breaking the Pace Barrier: Cómo modelos de Llama de Cerebras Supercharges

Related Articles

Prime 5 Consejos dietéticos para frutas y verduras de verano: coma fresco, cocine inteligente, mantente saludable

2025 상반기 젤네일 트렌드 요약 정리 정리

Escalado de modelos de base portátil

LEAVE A REPLY Cancel reply

Latest Articles

Prime 5 Consejos dietéticos para frutas y verduras de verano: coma fresco, cocine inteligente, mantente saludable

2025 상반기 젤네일 트렌드 요약 정리 정리

Escalado de modelos de base portátil

7 mejores suplementos de cúrcuma, revisados por Glamour Editors UK 2025

Sevilla Adventures – The Fitnessista

API de Meta Oleleshes Llama que se ejecuta 18 veces más rápido que OpenAI: Cerebras Partnership ofrece 2.600 tokens por segundo

Breaking the Pace ​​Barrier: Cómo modelos de Llama de Cerebras Supercharges

Related Articles

LEAVE A REPLY Cancel reply

Latest Articles

Breaking the Pace Barrier: Cómo modelos de Llama de Cerebras Supercharges