Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Un completo nueva encuesta de investigadores y socios académicos de Microsoft revela que los agentes de inteligencia synthetic impulsados por grandes modelos de lenguaje (LLM) son cada vez más capaces de controlar interfaces gráficas de usuario (GUI), cambiando potencialmente la forma en que los humanos interactúan con el software program.
Básicamente, la tecnología brinda a los sistemas de inteligencia synthetic la capacidad de ver y manipular interfaces de computadora tal como lo hacen los humanos: hacer clic en botones, completar formularios y navegar entre aplicaciones. En lugar de exigir a los usuarios que aprendan comandos de software program complejos, estos “agentes GUI” pueden interpretar solicitudes en lenguaje pure y ejecutar automáticamente las acciones necesarias.
“Estos agentes representan un cambio de paradigma, ya que permiten a los usuarios realizar tareas complejas de varios pasos a través de simples comandos conversacionales”, afirman los investigadores. escribir. “Sus aplicaciones abarcan navegación internet, interacciones de aplicaciones móviles y automatización de escritorio, ofreciendo una experiencia de usuario transformadora que revoluciona la forma en que las personas interactúan con el software program”.
Piense en ello como si tuviera un asistente ejecutivo altamente capacitado que puede operar cualquier programa de software program en su nombre. Simplemente le dices al asistente lo que quieres lograr y él se encarga de todos los detalles técnicos para hacerlo realidad.

El auge de los asistentes de IA empresarial lo cambia todo
Las principales empresas de tecnología ya están compitiendo para incorporar estas capacidades en sus productos. Microsoft Automatización de energía utiliza LLM para ayudar a los usuarios a crear flujos de trabajo automatizados en todas las aplicaciones. la empresa Asistente de IA copiloto Puede controlar directamente el software program basado en comandos de texto. antrópico Uso de la computadora La funcionalidad de Claude permite que la IA interactúe con interfaces internet y realice tareas complejas. Según se informa, Google está desarrollando Proyecto Jarvisun sistema de inteligencia synthetic que usaría el navegador Chrome para realizar tareas basadas en la internet como investigación, compras y reservas de viajes, aunque esta capacidad aún está en desarrollo y no se ha hecho pública.
“La llegada de los modelos de lenguajes grandes, en specific los modelos multimodales, ha marcado el comienzo de una nueva period de automatización de GUI”, señala el artículo. “Han demostrado capacidades excepcionales en la comprensión del lenguaje pure, la generación de códigos, la generalización de tareas y el procesamiento visible”.
Esto representa un potencial Oportunidad de mercado de 68.900 millones de dólares para 2028, según analistas de BCC Analysis, a medida que las empresas busquen automatizar tareas repetitivas y hacer que su software program sea más accesible para usuarios no técnicos. Se prevé que el mercado crezca de 8.300 millones de dólares en 2022 a esta cifra, a una tasa de crecimiento anual compuesta (CAGR) del 43,9% durante el período previsto.
El impacto empresarial: desafíos y oportunidades en la automatización de la IA
Sin embargo, aún quedan obstáculos importantes antes de que la tecnología tenga una adopción empresarial generalizada. Los investigadores identifican varias limitaciones clave, incluyendo preocupaciones de privacidad cuando los agentes manejan datos confidenciales, limitaciones de rendimiento computacional y la necesidad de mejores garantías de seguridad y confiabilidad.
“Si bien son eficaces para flujos de trabajo predefinidos, estos métodos carecían de la flexibilidad y adaptabilidad necesarias para aplicaciones dinámicas del mundo actual”, afirma el documento sobre enfoques de automatización anteriores.
El equipo de investigación proporciona una hoja de ruta detallada para abordar estos desafíos, enfatizando la importancia de desarrollar modelos más eficientes que puede ejecutarse localmente en dispositivosimplementando medidas de seguridad sólidas y creando marcos de evaluación estandarizados.
“Al incorporar salvaguardas y acciones personalizables, estos agentes garantizan la eficiencia y la seguridad al manejar comandos complejos”, señalan los investigadores, destacando los avances recientes en la preparación de la tecnología para la empresa.
Para los líderes de tecnología empresarial, la aparición de agentes GUI basados en LLM representa tanto una oportunidad como una consideración estratégica. Si bien la tecnología promete importantes ganancias de productividad a través de la automatización, las organizaciones deberán evaluar cuidadosamente las implicaciones de seguridad y los requisitos de infraestructura de la implementación de estos sistemas de IA.
“El campo de los agentes GUI está avanzando hacia arquitecturas de múltiples agentes, capacidades multimodales, diversos conjuntos de acciones y novedosas estrategias de toma de decisiones”, explica el artículo. “Estas innovaciones marcan pasos importantes hacia la creación de agentes inteligentes y adaptables capaces de lograr un alto rendimiento en entornos variados y dinámicos”.
Los expertos de la industria predicen que para 2025, al menos 60% de las grandes empresas pondrá a prueba algún tipo de agentes de automatización de GUI, lo que potencialmente conducirá a ganancias masivas de eficiencia, pero también planteará preguntas importantes sobre la privacidad de los datos y el desplazamiento laboral.
La encuesta exhaustiva sugiere que estamos en un punto de inflexión en el que las interfaces de IA conversacionales podrían cambiar fundamentalmente la forma en que los humanos interactúan con el software program, aunque hacer realidad este potencial requerirá avances continuos tanto en la tecnología subyacente como en las prácticas de implementación empresarial.
“Estos desarrollos están sentando las bases para agentes más versátiles y potentes capaces de manejar entornos complejos y dinámicos”, concluyen los investigadores, apuntando a un futuro en el que los asistentes de IA se convertirán en una parte integral de nuestra forma de trabajar con las computadoras.