33.9 C
Colombia
lunes, julio 7, 2025

Niantic está entrenando una IA ‘geoespacial’ gigante en datos de Pokémon Go


Si quieres ver lo que sigue en IA, simplemente sigue los datos. ChatGPT y DALL-E se entrenaron con grandes cantidades de datos de Web. La IA generativa está avanzando en biotecnología y robótica gracias a conjuntos de datos existentes o recién recopilados. Entonces, una forma de mirar hacia el futuro es preguntar: ¿Qué conjuntos de datos colosales están todavía listos para ser recogidos?

Recientemente, surgió una nueva pista.

en un publicación de weblogla compañía de juegos Niantic dijo que está entrenando una nueva IA en millones de imágenes del mundo actual recopiladas por jugadores de Pokémon Go y en su aplicación Scaniverse. Inspirado por los grandes modelos lingüísticos que impulsan chatbotsllaman a su algoritmo un “gran modelo geoespacial” y esperan que sea tan fluido en el mundo físico como lo es ChatGPT en el mundo del lenguaje.

Siga los datos

Este momento de la IA está definido por algoritmos que generan lenguaje, imágenes y, cada vez más, vídeo. Con DALL-E y ChatGPT de OpenAI, cualquiera puede usar el lenguaje cotidiano para conseguir que una computadora genere imágenes fotorrealistas o explique la física cuántica. Ahora, el algoritmo Sora de la empresa está aplicando un enfoque comparable a la generación de vídeo. Otros están compitiendo con OpenAI, incluido Google, Metay antrópico.

La concept essential que dio origen a estos modelos: la rápida digitalización de las últimas décadas es útil para algo más que entretenernos e informarnos a los humanos: también es alimento para la IA. Pocos habrían visto Web de esta manera en su aparición, pero en retrospectiva, la humanidad ha estado ocupada reuniendo un enorme conjunto de datos educativos de lenguaje, imágenes, códigos y movies. Para bien o para mal (hay varias demandas por infracción de derechos de autor en proceso), las empresas de IA recopilaron todos esos datos para entrenar potentes modelos de IA.

Ahora que saben que la receta básica funciona bien, las empresas y los investigadores están buscando más ingredientes.

En biotecnología, los laboratorios están entrenando IA en colecciones de estructuras moleculares construidas durante décadas y utilizándola para modelar y generar proteínas, ADN, ARN y otras biomoléculas acelerar la investigación y descubrimiento de drogas. Otros están probando grandes modelos de IA en coches sin conductor y robots de almacén y humanoides—Tanto como una mejor manera de decirle a los robots qué hacer, como también para enseñarles cómo navegar y moverse por el mundo.

Por supuesto, para los robots, la fluidez en el mundo físico es essential. Así como el lenguaje es infinitamente complejo, también lo son las situaciones que un robotic puede encontrar. Los cerebros de robots codificados a mano nunca podrán explicar toda la variación. Por eso los investigadores ahora construir grandes conjuntos de datos pensando en los robots. Pero no están ni cerca de la escala de Web, donde miles de millones de humanos han estado trabajando en paralelo durante mucho tiempo.

¿Podría haber Web para el mundo físico? Niantic así lo cree. Se llama Pokémon Go. Pero el exitoso juego es sólo un ejemplo. Las empresas tecnológicas han sido creando mapas digitales del mundo durante años. Ahora, parece possible que esos mapas lleguen a la IA.

Entrenadores Pokémon

Lanzado en 2016, Pokémon Go fue una sensación de realidad aumentada.

En el juego, los jugadores rastrean personajes digitales (o Pokémon) que se han colocado por todo el mundo. Usando sus teléfonos como una especie de portal, los jugadores ven personajes superpuestos en una ubicación física, por ejemplo, sentados en un banco de un parque o holgazaneando junto a una sala de cine. Una oferta más nueva, Pokémon Playground, permite a los usuarios insertar personajes en ubicaciones para otros jugadores. Todo esto es posible gracias a los detallados mapas digitales de la empresa.

El sistema de posicionamiento visible (VPS) de Niantic puede determinar la posición de un teléfono hasta en centímetros a partir de una única imagen de una ubicación. En parte, VPS ensambla mapas 3D de ubicaciones de manera clásica, pero el sistema también se basa en una crimson de algoritmos de aprendizaje automático (uno o más por ubicación) entrenados en años de imágenes y escaneos de jugadores tomados en varios ángulos, horas del día y estaciones. estampado con una posición en el mundo.

“Como parte del Sistema de Posicionamiento Visible (VPS) de Niantic, hemos entrenado más de 50 millones de redes neuronales, con más de 150 billones de parámetros, lo que permite la operación en más de un millón de ubicaciones”, dijo la compañía. escribió en su reciente publicación de weblog.

Ahora Niantic quiere ir más allá.

En lugar de millones de redes neuronales individuales, quieren utilizar datos de Pokémon Go y Scaniverse para entrenar un modelo básico único. Mientras que los modelos individuales están limitados por las imágenes que les han proporcionado, el nuevo modelo se generalizaría a todos ellos. Frente al frente de una iglesia, por ejemplo, se basaría en todas las iglesias y ángulos que se ven (de frente, de lado, de atrás) para visualizar partes de la iglesia que no se han mostrado.

Esto es un poco parecido a lo que hacemos los humanos mientras navegamos por el mundo. Es posible que no podamos ver a la vuelta de una esquina, pero podemos adivinar lo que hay allí (puede ser un pasillo, el costado de un edificio o una habitación) y planificarlo según nuestro punto de vista y experiencia.

Niantic escribe que un modelo geoespacial grande le permitiría mejorar las experiencias de realidad aumentada. Pero también cree que un modelo de este tipo podría impulsar otras aplicaciones, incluso en robótica y sistemas autónomos.

Ponerse físico

Niantic cree que está en una posición única porque cuenta con una comunidad comprometida que contribuye con un millón de nuevos escaneos por semana. Además, esos escaneos se realizan desde la vista de los peatones, a diferencia de la calle, como en Google Maps o para los vehículos autónomos. No se equivocan.

Si tomamos Web como ejemplo, entonces los nuevos conjuntos de datos más poderosos pueden ser recopilados por millones, o incluso miles de millones, de humanos trabajando en conjunto.

Al mismo tiempo, Pokémon Go no es completo. Aunque las ubicaciones abarcan continentes, son escasas en un lugar determinado y regiones enteras están completamente oscuras. Además, otras empresas, quizás la más notable Google, llevan mucho tiempo mapeando el mundo. Pero a diferencia de Web, estos conjuntos de datos son propietarios y están fragmentados.

No está claro si eso importa, es decir, si se necesita un conjunto de datos del tamaño de Web para crear una IA generalizada que sea tan fluida en el mundo físico como lo son los LLM en el verbal.

Pero es posible que surja un conjunto de datos más completo del mundo físico a partir de algo como Pokémon Go, sólo que de gran tamaño. Esto ya ha comenzado con los teléfonos inteligentes, que cuentan con sensores para tomar imágenes, vídeos y escaneos 3D. Además de las aplicaciones de AR, cada vez se incentiva más a los usuarios a usar estos sensores con IA, como tomar una fotografía de un refrigerador y preguntarle a un chatbot qué cocinar para la cena. nuevos dispositivos, como gafas AR podría ampliar este tipo de uso, generando una bonanza de datos para el mundo físico.

Por supuesto, la recopilación de datos en línea ya es controvertida y la privacidad es un gran problema. Extender esos problemas al mundo actual no es nada ideally suited.

Después 404 Medios publicó un artículo sobre el tema.niantic añadió una nota“Esta función de escaneo es completamente opcional: las personas deben visitar una ubicación específica de acceso público y hacer clic para escanear. Esto permite a Niantic ofrecer nuevos tipos de experiencias de RA para que las personas las disfruten. Simplemente caminar jugando a nuestros juegos no entrena un modelo de IA”. Sin embargo, es posible que otras empresas no sean tan transparentes en cuanto a la recopilación y el uso de datos.

Tampoco es seguro que los nuevos algoritmos inspirados en grandes modelos de lenguaje sean sencillos. El MIT, por ejemplo, construyó recientemente una nueva arquitectura dirigida específicamente a la robótica. “En el dominio del lenguaje, los datos son solo oraciones”, dijo Lirui Wang, autor principal de un artículo que describe el trabajo. dijo TechCrunch. “En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un entrenamiento previo de manera comparable, necesitamos una arquitectura diferente”.

De todos modos, es possible que los investigadores y las empresas continúen explorar áreas donde la IA tipo LLM puede ser aplicable. Y tal vez a medida que cada nueva incorporación madure, será un poco como agregar una región del cerebro: únalas y obtendrá máquinas que piensan, hablan, escriben y se mueven por el mundo con tanta facilidad como lo hacemos nosotros.

Imagen: Kamil Switalski en desempaquetar

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles