30.3 C
Colombia
sábado, julio 5, 2025

Presentamos el centro comercial para R… y Python


El comienzo

Hace unos meses, mientras trabajaba en el taller Databricks con R, me encontré con algunas de sus funciones SQL personalizadas. Estas funciones particulares tienen el prefijo “ai_” y ejecutan PNL con una easy llamada SQL:

dbplyr podemos acceder a funciones SQL en R, y fue genial verlas funcionar:

llama de meta
y motores de interacción multiplataforma como Ollamahan hecho factible la implementación de estos modelos, ofreciendo una solución prometedora para las empresas que buscan integrar LLM en sus flujos de trabajo.

el proyecto

Este proyecto comenzó como una exploración, impulsada por mi interés en aprovechar un LLM de “propósito common” para producir resultados comparables a los de las funciones de IA de Databricks. El desafío principal fue determinar cuánta configuración y preparación se requeriría para que un modelo de este tipo entregara resultados confiables y consistentes.

Sin acceso a un documento de diseño o código fuente abierto, confié únicamente en los resultados del LLM como campo de pruebas. Esto presentó varios obstáculos, incluidas las numerosas opciones disponibles para ajustar el modelo. Incluso dentro de una ingeniería rápida, las posibilidades son enormes. Para asegurarme de que el modelo no fuera demasiado especializado ni se centrara en un tema o resultado específico, necesitaba lograr un delicado equilibrio entre precisión y generalidad.

Afortunadamente, después de realizar pruebas exhaustivas, descubrí que un easy mensaje “de una sola vez” daba los mejores resultados. Por “mejor” quiero decir que las respuestas fueron precisas para una fila determinada y consistentes en varias filas. La coherencia period essential, ya que significaba proporcionar respuestas que fueran una de las opciones especificadas (positivas, negativas o neutrales), sin explicaciones adicionales.

El siguiente es un ejemplo de un mensaje que funcionó de manera confiable en Llama 3.2:

>>> You're a useful sentiment engine. Return solely one of many 
... following solutions: constructive, unfavourable, impartial. No capitalization. 
... No explanations. The reply is predicated on the next textual content: 
... I'm blissful
constructive

Como nota al margen, mis intentos de enviar varias filas a la vez no tuvieron éxito. De hecho, dediqué una cantidad significativa de tiempo a explorar diferentes enfoques, como enviar 10 o 2 filas simultáneamente y formatearlas en formatos JSON o CSV. Los resultados fueron a menudo inconsistentes y no parecían acelerar el proceso lo suficiente como para que valiera la pena el esfuerzo.

Una vez que me sentí cómodo con el enfoque, el siguiente paso fue incluir la funcionalidad dentro de un paquete R.

El enfoque

Uno de mis objetivos period hacer que el paquete del centro comercial fuera lo más “ergonómico” posible. En otras palabras, quería asegurarme de que el uso del paquete en R y Python se integra perfectamente con la forma en que los analistas de datos usan su lenguaje preferido a diario.

Para R, esto fue relativamente sencillo. Simplemente necesitaba verificar que las funciones funcionaran bien con las tuberías (%>% y |>) y podría incorporarse fácilmente en paquetes como los del tidyverse:

https://mlverse.github.io/mall/

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles