Dos años después del IA generativa Growth realmente comenzó con el lanzamiento de Chatgptya no parece tan emocionante tener un asistente de IA fenomenalmente útil en su navegador o teléfono internet, solo esperando que haga preguntas. El próximo gran impulso en IA es para Agentes de IA que puede tomar medidas en su nombre. Pero si bien la IA Agentic ya ha llegado para usuarios avanzados como codificadores, los consumidores cotidianos aún no tienen este tipo de asistentes de IA.
Eso pronto cambiará. Antrópico, Google Profundoy Opadai Hemos presentado recientemente modelos experimentales que pueden usar computadoras como lo hacen las personas: buscar la internet para obtener información, completar formularios y hacer clic en los botones. Con un poco de orientación del usuario humano, pueden pensar como ordenar comestibles, llamar a un Súperbusque el mejor precio para un producto, o encuentre un vuelo para sus próximas vacaciones. Y si bien estos primeros modelos tienen habilidades limitadas y aún no están ampliamente disponibles, muestran la dirección en la que está tomando AI.
“Esto es solo que la IA hace clic”, dijo el CEO de Operai, Sam Altman, en un video de demostración Mientras observaba al agente de Operai, llamado operador, navegar a OpenTable, buscar un restaurante de San Francisco y verificar una mesa para las dos a las 7 p.m.
Zachary Liptonprofesor asociado de aprendizaje automático en Carnegie Mellon Universidad, señala que Agentes de IA ya se están integrando en un software program especializado para diferentes tipos de clientes empresariales, como vendedores, médicos y abogados. Pero hasta ahora, no hemos visto agentes de IA que puedan “hacer cosas de rutina en su computadora portátil”, cube. “¿Qué es intrigante aquí?es la posibilidad de que las personas comiencen a entregar las llaves “.
Agentes de IA de antrópico, Google DeepMindy OpenAi
Anthrope fue el primero en presentar esta nueva funcionalidad, con una anuncio En octubre, su chatbot Claude ahora puede “usar computadoras como lo hacen los humanos”. La compañía enfatizó que le estaba dando a los modelos esta capacidad como un prueba beta públicay que solo está disponible para desarrolladores que están construyendo herramientas y productos sobre Anthrope’s modelos de idiomas grandes. Claude navega al ver las capturas de pantalla de lo que el usuario ve y contando los píxeles requeridos para mover el cursor a cierto lugar para hacer clic. Un portavoz de Anthrope cube que Claude puede hacer este trabajo en cualquier computadora y dentro de cualquier aplicación de escritorio.
El siguiente fuera de la puerta fue Google Deepmind con su Proyecto Marineroconstruido sobre el modelo de idioma Gemini 2 de Google. La compañía mostró a Mariner en diciembre, pero lo llamó un “prototipo de investigación temprano” y dijo que solo está haciendo que la herramienta esté disponible para “probadores de confianza” por ahora. Como otra precaución, Mariner actualmente solo opera dentro del navegador Chrome, y solo dentro de una pestaña activa, lo que significa que no se ejecutará en segundo plano mientras trabaja en otras tareas. Si bien este requisito parece derrotar de alguna manera el propósito de tener un ayudante de IA que ahorra tiempo, es possible que sea solo una condición temporal para esta etapa temprana de desarrollo.
Finalmente, en enero Operai lanzó su agente de uso de computadora (CUA), llamado Operador. Openai lo llamó una “vista previa de investigación” y lo puso a disposición solo para los usuarios que pagan US $ 200 por mes por el servicio premium de OpenAI, aunque la compañía dijo que está trabajando para un lanzamiento más amplio. Yash Kumarun ingeniero en el equipo de operadores, cube que la herramienta puede trabajar esencialmente con cualquier sitio internet. “Estamos comenzando con el navegador porque aquí es donde ocurre la mayoría del trabajo”, cube Kumar. Pero señala que “el modelo CUA también está capacitado para usar una computadora, por lo que es posible que podamos expandirlo” para trabajar con otras aplicaciones de escritorio.
Como los demás, el operador confía en Razonamiento de la cadena de pensamiento para tomar instrucciones y dividirlas en una serie de tareas que puede completar. Si necesita más información para completar una tarea, como, por ejemplo, si prefiere comprar cebollas rojas o amarillas, se detendrá y solicitará información. También solicita confirmación antes de dar un paso remaining, como reservar la mesa del restaurante o poner en el pedido de comestibles.
Preocupaciones de seguridad para los agentes de uso informático
Aquí hay algunas cosas que los agentes de uso informático aún no pueden hacer: iniciar sesión en sitios, aceptar los términos de servicio, resolver los captchas e ingresar la tarjeta de crédito u otros detalles de pago. Si un agente se enfrenta a uno de estos obstáculos, le devuelve el volante al usuario humano. Openai señala que el operador no toma capturas de pantalla del navegador mientras el usuario ingresa información de inicio de sesión o pago.
Las tres compañías han notado que poner una IA a cargo de su computadora podría presentar riesgos de seguridad. Anthrope ha planteado específicamente la preocupación de ataques de inyección puntualeso formas en que los actores maliciosos pueden agregar algo a la solicitud del usuario para que el modelo tome una acción inesperada. “Dado que Claude puede interpretar capturas de pantalla de las computadoras conectadas a la Webes posible que pueda estar expuesto al contenido que incluye ataques de inyección puntuales ”, escribió Anthrope en un weblog.
Lipton de CMU cube que las compañías no han revelado mucha información sobre los agentes de uso informático y cómo funcionan, por lo que es difícil evaluar los riesgos. “Si alguien está haciendo que su operador de computadora haga algo nefasto, ¿eso significa que ya tienen acceso a su computadora?” Se pregunta, y si es así, ¿por qué el malhechor no tomaría medidas directamente?
Aún así, cube Lipton, con todas las acciones que tomamos y las compras que hacemos en línea, “no requiere un salto salvaje de imaginación para imaginar acciones que dejarían al usuario en un pepinillo”. Por ejemplo, cube: “¿Quién será la primera persona que se despierta y cube: ‘Mi [agent] me compró una flota de autos? ‘”
El futuro de los agentes de uso de la computadora
Si bien ninguna de las compañías ha revelado un cronograma para hacer que sus agentes de uso informático estén ampliamente disponibles, parece possible que los consumidores comiencen a tener acceso a ellos este año, ya sea a través de las grandes compañías de IA o a través de startups creación imitaciones más baratas.
Kumar de Openai cube que es un momento emocionante, y ese operador marca un paso hacia un futuro más colaborativo para los humanos y la IA. “Es un trampolín en nuestro camino hacia Agi”, cube, refiriéndose a los muy prometidos sueño/pesadilla de inteligencia common synthetic. “La capacidad de usar las mismas interfaces y herramientas con las que los humanos interactúan a diario amplían la utilidad de la IA, ayudando a las personas a ahorrar tiempo en las tareas cotidianas”.
Si recuerdas la película prescient de 2013 Suparece que estamos corriendo hacia el mundo que existía al comienzo de la película, antes de que Samantha de voz sensual comenzara a hablar en el oído del protagonista. Es un mundo en el que todos tienen una IA aburrida y impartial para ayudarlos a leer y responder a los mensajes y cuidar otras tareas mundanas. Una vez que las compañías de IA logren ese objetivo, sin duda comenzarán a trabajar en Samantha.
De los artículos de su sitio
Artículos relacionados en la internet