Hace aproximadamente una década, la inteligencia synthetic se dividió entre el reconocimiento de imágenes y la comprensión del lenguaje. Los modelos de visión podrían detectar objetos, pero no pudieron describirlos, y los modelos de lenguaje generan texto pero no pudieron “ver”. Hoy, esa división está desapareciendo rápidamente. Modelos de lenguaje de visión (VLMS) Ahora mix las habilidades visuales y lingüísticas, permitiéndoles interpretar imágenes y explicarlas de manera que se sientan casi humanas. Lo que los hace realmente notables es su proceso de razonamiento paso a paso, conocido como Cadena de pensamientoque ayuda a convertir estos modelos en herramientas poderosas y prácticas en todas las industrias como la atención médica y la educación. En este artículo, exploraremos cómo funcionan los VLM, por qué su razonamiento es importante y cómo están transformando los campos de la medicina a los autos autónomos.
Comprender los modelos de lenguaje de visión
Los modelos de lenguaje de visión, o VLM, son un tipo de inteligencia synthetic que puede comprender tanto las imágenes como el texto al mismo tiempo. A diferencia de los sistemas de IA más antiguos que solo podían manejar texto o imágenes, los VLM reúnen estas dos habilidades. Esto los hace increíblemente versátiles. Pueden mirar una imagen y describir lo que está sucediendo, responder preguntas sobre un video o incluso crear imágenes basadas en una descripción escrita.
Por ejemplo, si le pide a un VLM que describa una foto de un perro corriendo en un parque. Un VLM no solo cube: “Hay un perro”. Puede decirte: “El perro está persiguiendo una pelota cerca de un gran roble”. Es ver la imagen y conectarla a palabras de una manera que tenga sentido. Esta capacidad de combinar la comprensión visible y del lenguaje crea todo tipo de posibilidades, desde ayudarlo a buscar fotos en línea para ayudar en tareas más complejas como las imágenes médicas.
En su núcleo, los VLM funcionan combinando dos piezas clave: un sistema de visión que analiza imágenes y un sistema de lenguaje que procesa el texto. La parte de la visión se retira de detalles como formas y colores, mientras que la parte del idioma convierte esos detalles en oraciones. Los VLM están entrenados en conjuntos de datos masivos que contienen miles de millones de pares de texto de imagen, lo que les brinda una amplia experiencia para desarrollar una fuerte comprensión y alta precisión.
¿Qué significa el razonamiento de la cadena de pensamiento en VLMS?
El razonamiento de la cadena de pensamiento, o la cuna, es una forma de hacer que la IA piense paso a paso, al igual que cómo abordamos un problema al desglosarlo. En VLMS, significa que la IA no solo proporciona una respuesta cuando le pregunta algo sobre una imagen, sino que también explica cómo llegó allí, explicando cada paso lógico en el camino.
Digamos que le muestras a un VLM una foto de un pastel de cumpleaños con velas y preguntas: “¿Cuántos años tiene la persona?” Sin cuna, podría adivinar un número. Con la cuna, lo piensa: “Está bien, veo un pastel con velas. Las velas generalmente muestran la edad de alguien. Vamos a contarlos, hay 10. Entonces, la persona probablemente tenga 10 años”. Puede seguir el razonamiento a medida que se desarrolla, lo que hace que la respuesta sea mucho más confiable.
Del mismo modo, cuando se le muestra una escena de tráfico a VLM y le preguntó: “¿Es seguro cruzar?” El VLM podría razonar: “La luz peatonal es roja, por lo que no debes cruzarla. También hay un automóvil que se vuelve cerca, y se mueve, no se detiene. Eso significa que no es seguro en este momento”. Al caminar por estos pasos, la IA le muestra exactamente a qué está prestando atención en la imagen y por qué resolve lo que hace.
Por qué los importantes de la cadena de pensamiento en VLMS
La integración del razonamiento de COT en VLM trae varias ventajas clave.
Primero, hace que la IA sea más fácil de confiar. Cuando explica sus pasos, obtienes una comprensión clara de cómo alcanzó la respuesta. Esto es importante en áreas como la atención médica. Por ejemplo, cuando mira una exploración por resonancia magnética, un VLM podría decir: “Veo una sombra en el lado izquierdo del cerebro. Esa área controla el habla y el paciente tiene problemas para hablar, por lo que podría ser un tumor”. Un médico puede seguir esa lógica y sentirse seguro de la entrada de la IA.
En segundo lugar, ayuda a la IA a abordar problemas complejos. Al desglosar las cosas, puede manejar preguntas que necesitan más que una mirada rápida. Por ejemplo, contar velas es easy, pero descubrir la seguridad en una calle concurrida toma múltiples pasos, incluyendo verificar luces, detectar autos, juzgar la velocidad. COT permite a la IA manejar esa complejidad dividiéndola en múltiples pasos.
Finalmente, hace que la IA sea más adaptable. Cuando razona paso a paso, puede aplicar lo que sabe a nuevas situaciones. Si nunca se ha visto un tipo específico de pastel antes, aún puede descubrir la conexión de la edad de vela porque lo está pensando, no solo confiar en patrones memorizados.
Cómo la cadena de pensamiento y los VLM están redefiniendo las industrias
La combinación de COT y VLMS está teniendo un impacto significativo en diferentes campos:
- Cuidado de la salud: En medicina, a VLMS como Med-Palm 2 de Google Use la cuna para romper preguntas médicas complejas en pasos de diagnóstico más pequeños. Por ejemplo, cuando se le recibe una radiografía de tórax y síntomas como la tos y el dolor de cabeza, la IA podría pensar: “Estos síntomas podrían ser un resfriado, alergias o algo peor. No hay ganglios linfáticos hinchados, por lo que probablemente no es una infección grave. Los pulmones parecen claros, por lo que probablemente no neumonía. Un resfriado común se ajusta mejor”. Camina por las opciones y aterriza en una respuesta, dando a los médicos una explicación clara para trabajar.
- Autos autónomos: Para los vehículos autónomos, los VLM mejorados con cuna mejoran la seguridad y la toma de decisiones. Por ejemplo, un automóvil autónomo puede analizar una escena de tráfico paso a paso: verificar las señales de peatones, identificar vehículos en movimiento y decidir si es seguro proceder. Sistemas como Lingo-1 de Wayve Genere comentarios de lenguaje pure para explicar acciones como la desaceleración de un ciclista. Esto ayuda a los ingenieros y pasajeros a comprender el proceso de razonamiento del vehículo. La lógica paso a paso también permite un mejor manejo de condiciones de carretera inusuales mediante la combinación de entradas visuales con conocimiento contextual.
- Análisis geoespacial: Google Se aplica el modelo Géminis Razonamiento de cuna para datos espaciales como mapas e imágenes satelitales. Por ejemplo, puede evaluar el daño de los huracanes integrando imágenes satelitales, pronósticos meteorológicos y datos demográficos, luego generar visualizaciones claras y respuestas a preguntas complejas. Esta capacidad acelera la respuesta a desastres al proporcionar a los tomadores de decisiones información oportuna y útil sin requerir experiencia técnica.
- Robótica: En robótica, la integración de COT y VLMS permite a los robots planificar mejor y ejecutar tareas de múltiples pasos. Por ejemplo, cuando un robotic tiene la tarea de recoger un objeto, VLM habilitado para cuna le permite identificar la copa, determinar los mejores puntos de agarre, planificar una ruta libre de colisiones y llevar a cabo el movimiento, todo mientras “explica” cada paso de su proceso. Proyectos como RT-2 Demuestre cómo COT permite a los robots adaptarse mejor a las nuevas tareas y responder a comandos complejos con un razonamiento claro.
- Educación: En el aprendizaje, tutores de IA como Khanmigo Usa cuna para enseñar mejor. Para un problema matemático, podría guiar a un estudiante: “Primero, escriba la ecuación. A continuación, obtenga la variable sola restando 5 de ambos lados. Ahora, divida por 2”. En lugar de entregar la respuesta, pasa por el proceso, ayudando a los estudiantes a comprender los conceptos paso a paso.
El resultado remaining
Los modelos de lenguaje de visión (VLMS) permiten a la IA interpretar y explicar los datos visuales utilizando el razonamiento paso a paso de humanos a través de procesos de cadena de pensamiento (COT). Este enfoque aumenta la confianza, la adaptabilidad y la resolución de problemas en las industrias como la atención médica, los automóviles autónomos, el análisis geoespacial, la robótica y la educación. Al transformar cómo AI aborda tareas complejas y apoya la toma de decisiones, VLM está estableciendo un nuevo estándar para tecnología inteligente confiable y práctica.