27.3 C
Colombia
martes, julio 8, 2025

De la intención a la ejecución: cómo Microsoft está transformando grandes modelos de lenguaje en IA orientada a la acción


Los modelos de lenguaje grande (LLM) tienen cambió cómo manejamos el procesamiento del lenguaje pure. Pueden responder preguntas, escribir código y mantener conversaciones. Sin embargo, se quedan cortos cuando se trata de tareas del mundo actual. Por ejemplo, un LLM puede guiarlo en la compra de una chaqueta, pero no puede realizar el pedido por usted. Esta brecha entre pensar y hacer es una limitación importante. La gente no sólo necesita información; Quieren resultados.

Para cerrar esta brecha, Microsoft está torneado LLM en agentes de IA orientados a la acción. Al permitirles planificar, descomponer tareas y participar en interacciones del mundo actual, permiten a los LLM gestionar tareas prácticas de forma eficaz. Este cambio tiene el potencial de redefinir lo que pueden hacer los LLM, convirtiéndolos en herramientas que automatizan flujos de trabajo complejos y simplifican las tareas cotidianas. Veamos qué se necesita para que esto suceda y cómo Microsoft está abordando el problema.

Qué necesitan los LLM para actuar

Para que los LLM realicen tareas en el mundo actual, deben ir más allá de comprender el texto. Deben interactuar con entornos digitales y físicos mientras se adaptan a las condiciones cambiantes. Estas son algunas de las capacidades que necesitan:

  1. Comprender la intención del usuario

Para actuar de forma eficaz, los LLM deben comprender las solicitudes de los usuarios. Las entradas como texto o comandos de voz suelen ser vagas o incompletas. El sistema debe llenar los vacíos utilizando su conocimiento y el contexto de la solicitud. Las conversaciones de varios pasos pueden ayudar a refinar estas intenciones, asegurando que la IA las comprenda antes de actuar.

  1. Convertir intenciones en acciones

Después de comprender una tarea, los LLM deben convertirla en pasos prácticos. Esto podría implicar hacer clic en botones, llamar a API o controlar dispositivos físicos. Los LLM necesitan modificar sus acciones a la tarea específica, adaptándose al entorno y resolviendo desafíos a medida que surgen.

  1. Adaptarse a los cambios

Las tareas del mundo actual no siempre salen según lo planeado. Los LLM deben anticipar problemas, ajustar los pasos y encontrar alternativas cuando surjan problemas. Por ejemplo, si un recurso necesario no está disponible, el sistema debería encontrar otra forma de completar la tarea. Esta flexibilidad garantiza que el proceso no se detenga cuando las cosas cambian.

  1. Especializado en Tareas Específicas

Si bien los LLM están diseñados para uso common, la especialización los hace más eficientes. Al centrarse en tareas específicas, estos sistemas pueden ofrecer mejores resultados con menos recursos. Esto es especialmente importante para dispositivos con potencia informática limitada, como teléfonos inteligentes o sistemas integrados.

Al desarrollar estas habilidades, los LLM pueden ir más allá del easy procesamiento de información. Pueden tomar acciones significativas, allanando el camino para que la IA se integre perfectamente en los flujos de trabajo cotidianos.

Cómo Microsoft está transformando los LLM

El enfoque de Microsoft para crear IA orientada a la acción sigue un proceso estructurado. El objetivo clave es permitir que los LLM comprendan comandos, planifiquen de manera efectiva y tomen medidas. Así es como lo están haciendo:

Paso 1: recopilación y preparación de datos

En la primera frase, recopilaron datos relacionados con sus casos de uso específicos: Agente OVNI (descrito a continuación). Los datos incluyen consultas de usuarios, detalles ambientales y acciones específicas de tareas. En esta fase se recopilan dos tipos diferentes de datos: en primer lugar, recopilaron datos del plan de tareas que ayudaron a los LLM a delinear los pasos de alto nivel necesarios para completar una tarea. Por ejemplo, “Cambiar el tamaño de fuente en Phrase” puede implicar pasos como seleccionar texto y ajustar la configuración de la barra de herramientas. En segundo lugar, recopilaron datos de tareas y acciones, lo que permitió a los LLM traducir estos pasos en instrucciones precisas, como hacer clic en botones específicos o usar atajos de teclado.

Esta combinación le da al modelo tanto el panorama common como las instrucciones detalladas que necesita para realizar las tareas de manera efectiva.

Paso 2: entrenar el modelo

Una vez que se recopilan los datos, los LLM se perfeccionan mediante múltiples sesiones de capacitación. En el primer paso, los LLM están capacitados para la planificación de tareas enseñándoles cómo dividir las solicitudes de los usuarios en pasos prácticos. Luego se utilizan datos etiquetados por expertos para enseñarles cómo traducir estos planes en acciones específicas. Para mejorar aún más sus capacidades de resolución de problemas, los LLM se han involucrado en un proceso de exploración autoimpulsado que les permite abordar tareas no resueltas y generar nuevos ejemplos para el aprendizaje continuo. Finalmente, se aplica el aprendizaje por refuerzo, utilizando la retroalimentación de los éxitos y fracasos para mejorar aún más su toma de decisiones.

Paso 3: Prueba sin conexión

Después del entrenamiento, el modelo se prueba en entornos controlados para garantizar la confiabilidad. Métricas como Tasa de éxito de la tarea (TSR) y la tasa de éxito de pasos (SSR) se utilizan para medir el rendimiento. Por ejemplo, probar un agente de gestión de calendarios podría implicar verificar su capacidad para programar reuniones y enviar invitaciones sin errores.

Paso 4: Integración en Sistemas Reales

Una vez validado, el modelo se integra en un marco de agente. Esto le permitió interactuar con entornos del mundo actual, como hacer clic en botones o navegar por menús. Herramientas como las API de automatización de la interfaz de usuario ayudaron al sistema a identificar y manipular elementos de la interfaz de usuario de forma dinámica.

Por ejemplo, si se le asigna la tarea de resaltar texto en Phrase, el agente identifica el botón de resaltado, selecciona el texto y aplica el formato. Un componente de memoria podría ayudar a LLM a realizar un seguimiento de acciones pasadas, permitiéndole adaptarse a nuevos escenarios.

Paso 5: Pruebas en el mundo actual

El último paso es la evaluación en línea. Aquí, el sistema se prueba en escenarios del mundo actual para garantizar que pueda manejar cambios y errores inesperados. Por ejemplo, un bot de atención al cliente podría guiar a los usuarios a restablecer una contraseña mientras se adaptan a entradas incorrectas o información faltante. Esta prueba garantiza que la IA sea sólida y esté lista para el uso diario.

Un ejemplo práctico: el agente OVNI

Para mostrar cómo funciona la IA orientada a la acción, Microsoft desarrolló el Agente OVNI. Este sistema está diseñado para ejecutar tareas del mundo actual en entornos Home windows, convirtiendo las solicitudes de los usuarios en acciones completadas.

Básicamente, el Agente UFO utiliza un LLM para interpretar solicitudes y planificar acciones. Por ejemplo, si un usuario cube “Resalte la palabra ‘importante’ en este documento”, el agente interactúa con Phrase para completar la tarea. Recopila información contextual, como las posiciones de los controles de la interfaz de usuario, y la utiliza para planificar y ejecutar acciones.

El Agente OVNI se basa en herramientas como el Automatización de la interfaz de usuario de Home windows (UIA) API. Esta API escanea aplicaciones en busca de elementos de management, como botones o menús. Para una tarea como “Guardar el documento como PDF”, el agente utiliza la UIA para identificar el botón “Archivo”, ubicar la opción “Guardar como” y ejecutar los pasos necesarios. Al estructurar los datos de manera consistente, el sistema garantiza un funcionamiento fluido desde la capacitación hasta la aplicación en el mundo actual.

Superando desafíos

Si bien se trata de un avance apasionante, la creación de una IA orientada a la acción conlleva desafíos. La escalabilidad es un problema importante. Entrenar e implementar estos modelos en diversas tareas requiere importantes recursos. Garantizar la seguridad y la fiabilidad es igualmente importante. Los modelos deben realizar tareas sin consecuencias no deseadas, especialmente en entornos sensibles. Y como estos sistemas interactúan con datos privados, también es essential mantener estándares éticos en torno a la privacidad y la seguridad.

La hoja de ruta de Microsoft se centra en mejorar la eficiencia, ampliar los casos de uso y mantener estándares éticos. Con estos avances, los LLM podrían redefinir cómo interactúa la IA con el mundo, haciéndolos más prácticos, adaptables y orientados a la acción.

El futuro de la IA

Transformar los LLM en agentes orientados a la acción podría cambiar las reglas del juego. Estos sistemas pueden automatizar tareas, simplificar los flujos de trabajo y hacer que la tecnología sea más accesible. El trabajo de Microsoft en inteligencia synthetic orientada a la acción y herramientas como UFO Agent es solo el comienzo. A medida que la IA continúa evolucionando, podemos esperar sistemas más inteligentes y más capaces que no solo interactúen con nosotros, sino que realicen trabajos.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles