23.2 C
Colombia
domingo, julio 6, 2025

La startup que intenta convertir la internet en una base de datos


“La Internet es una colección de datos, pero es un desastre”, cube el cofundador y director ejecutivo de Exa, Will Bryk. “Aquí hay un vídeo de Joe Rogan, un atlántico artículo de allí. No hay organización. Pero el sueño es que la Internet parezca una base de datos”.

Websets está dirigido a usuarios avanzados que necesitan buscar cosas que otros motores de búsqueda no son buenos para encontrar, como tipos de personas o empresas. Pregunte por “startups que fabrican {hardware} futurista” y obtendrá una lista de empresas específicas de cientos de largos enlaces, en lugar de impredecibles, a páginas internet que mencionan esos términos. Google no puede hacer eso, cube Bryk: “Hay muchos casos de uso valiosos para inversores o reclutadores o realmente cualquiera que quiera algún tipo de conjunto de datos de la internet”.

Las cosas han avanzado rápido desde Revisión de tecnología del MIT dio la noticia en 2021 de que los investigadores de Google estaban explorando el Uso de grandes modelos de lenguaje en un nuevo tipo de motor de búsqueda.. La thought pronto atrajo críticos feroces. Pero las empresas de tecnología hicieron poco caso. Tres años después, gigantes como Google y Microsoft compiten con una serie de recién llegados como Perplexity y OpenAI, que lanzaron ChatGPT Search en octubre, por una parte de esta nueva tendencia.

Exa no está (todavía) intentando superar a ninguna de esas empresas. En cambio, propone algo nuevo. La mayoría de las otras empresas de búsqueda incluyen grandes modelos de lenguaje en los motores de búsqueda existentes, utilizándolos para analizar la consulta de un usuario y luego resumir los resultados. Pero los propios motores de búsqueda no han cambiado mucho. Perplexity todavía dirige sus consultas a la Búsqueda de Google o Bing, por ejemplo. Piense en los motores de búsqueda de inteligencia synthetic de hoy en día como un sándwich con pan recién hecho pero relleno duro.

Más que palabras clave

Exa proporciona a los usuarios listas familiares de enlaces, pero utiliza la tecnología detrás de grandes modelos de lenguaje para reinventar la forma en que se realiza la búsqueda. Esta es la thought básica: Google funciona rastreando la internet y creando un amplio índice de palabras clave que luego se relacionan con las consultas de los usuarios. Exa rastrea la internet y codifica el contenido de las páginas internet en un formato conocido como incrustaciones, que pueden ser procesados ​​por grandes modelos de lenguaje.

Las incrustaciones convierten palabras en números de tal manera que palabras con significados similares se convierten en números con valores similares. De hecho, esto permite a Exa capturar el significado del texto en las páginas internet, no sólo las palabras clave.

Una captura de pantalla de Websets que muestra los resultados de la búsqueda: “empresas; nuevas empresas; con sede en EE. UU.; enfoque en atención médica; cofundador técnico”

Los modelos de lenguaje grandes utilizan incrustaciones para predecir las siguientes palabras de una oración. El motor de búsqueda de Exa predice el siguiente enlace. Escriba “startups que fabrican {hardware} futurista” y el modelo generará enlaces (reales) que podrían seguir a esa frase.

Sin embargo, el enfoque de Exa tiene un costo. Codificar páginas en lugar de indexar palabras clave es lento y costoso. Exa ha codificado unos mil millones de páginas internet, afirma Bryk. Eso es poco comparado con Google, que ha indexado alrededor de un billón. Pero Bryk no ve esto como un problema: “No es necesario integrar toda la internet para que sea útil”, afirma. (Dato curioso: “exa” significa un 1 seguido de 18 0 y “googol” significa un 1 seguido de 100 0).

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles