24 C
Colombia
lunes, julio 7, 2025

Weblog de Posit AI: Presentación del paquete de texto


El análisis del lenguaje basado en IA ha pasado recientemente por un “cambio de paradigma” (Bommasani et al., 2021, p. 1), gracias en parte a una nueva técnica denominada modelo de lenguaje transformador (Vaswani et al., 2017, Liu et otros, 2019). Empresas, incluidas Google, Meta y OpenAI, han lanzado modelos de este tipo, incluidos BERT, RoBERTa y GPT, que han logrado grandes mejoras sin precedentes en la mayoría de las tareas lingüísticas, como la búsqueda internet y el análisis de sentimientos. Si bien se puede acceder a estos modelos de lenguaje en Python y para tareas típicas de IA a través de AbrazosCarael paquete R textual content hace que HuggingFace y los modelos de lenguaje transformadores de última generación sean accesibles como canales de ciencias sociales en R.

Introducción

Desarrollamos el textual content paquete (Kjell, Giorgi y Schwartz, 2022) con dos objetivos en mente: Servir como una solución modular para descargar y utilizar modelos de lenguaje transformador. Esto, por ejemplo, incluye transformar texto en incrustaciones de palabras, así como acceder a tareas de modelos de lenguaje comunes, como clasificación de texto, análisis de sentimientos, generación de texto, respuesta a preguntas, traducción, and many others. Proporcionar una solución integral diseñada para análisis a nivel humano, incluidos canales para técnicas de inteligencia synthetic de última generación diseñadas para predecir características de la persona que produjo el lenguaje o obtener información sobre correlatos lingüísticos de atributos psicológicos.

Esta publicación de weblog muestra cómo instalar el textual content paquete, transforme texto en incrustaciones de palabras contextuales de última generación, utilice tareas de análisis del lenguaje y visualice palabras en el espacio de incrustación de palabras.

Instalación y configuración de un entorno Python.

El textual content El paquete está configurando un entorno Python para obtener acceso a los modelos de lenguaje HuggingFace. La primera vez después de instalar el textual content paquete que necesita para ejecutar dos funciones: textrpp_install() y textrpp_initialize().

# Set up textual content from CRAN
set up.packages("textual content")
library(textual content)

# Set up textual content required python packages in a conda atmosphere (with defaults)
textrpp_install()

# Initialize the put in conda atmosphere
# save_profile = TRUE saves the settings so that you simply should not have to run textrpp_initialize() once more after restarting R
textrpp_initialize(save_profile = TRUE)

Ver el guía de instalación extendida para más información.

Transformar texto en incrustaciones de palabras

El textEmbed() La función se utiliza para transformar texto en incrustaciones de palabras (representaciones numéricas de texto). El mannequin El argumento le permite establecer qué modelo de lenguaje usar desde HuggingFace; Si no ha utilizado el modelo antes, descargará automáticamente el modelo y los archivos necesarios.

# Rework the textual content knowledge to BERT phrase embeddings
# Word: To run sooner, strive one thing smaller: mannequin = 'distilroberta-base'.
word_embeddings <- textEmbed(texts = "Hi there, how are you doing?",
                            mannequin = 'bert-base-uncased')
word_embeddings
remark(word_embeddings)

La palabra incrustaciones ahora se puede utilizar para tareas posteriores, como modelos de entrenamiento para predecir variables numéricas relacionadas (por ejemplo, consulte la tren de texto() y predicción de texto() funciones).

(Para obtener la salida de tokens y capas individuales, consulte la textoEmbedRawLayers() función.)

Hay muchos modelos de lenguaje transformador en HuggingFace que se pueden usar para diversas tareas de modelos de lenguaje, como clasificación de texto, análisis de sentimientos, generación de texto, respuesta a preguntas, traducción, and many others. El textual content El paquete incluye funciones fáciles de usar para acceder a ellos.

classifications <- textClassify("Hi there, how are you doing?")
classifications
remark(classifications)
generated_text <- textGeneration("The which means of life is")
generated_text

Para obtener más ejemplos de tareas de modelo de lenguaje disponibles, por ejemplo, consulte suma de texto(), textoQA(), textoTraducir()y textoZeroShot() bajo Tareas de análisis del lenguaje.

Visualizar palabras en el textual content El paquete se logra en dos pasos: primero con una función para preprocesar los datos y segundo para trazar las palabras, incluido el ajuste de características visuales como el shade y el tamaño de fuente. Para demostrar estas dos funciones utilizamos datos de ejemplo incluidos en el textual content paquete: Language_based_assessment_data_3_100. Mostramos cómo crear una figura bidimensional con palabras que los individuos han utilizado para describir su armonía en la vida, trazadas de acuerdo con dos cuestionarios de bienestar diferentes: la escala de armonía en la vida y la escala de satisfacción con la vida. Entonces, el eje x muestra palabras que están relacionadas con puntuaciones de la escala de vida de armonía baja versus alta, y el eje y muestra palabras relacionadas con la satisfacción baja versus alta con las puntuaciones de la escala de vida.

word_embeddings_bert <- textEmbed(Language_based_assessment_data_3_100,
                                  aggregation_from_tokens_to_word_types = "imply",
                                  keep_token_embeddings = FALSE)

# Pre-process the information for plotting
df_for_plotting <- textProjection(Language_based_assessment_data_3_100$harmonywords, 
                                  word_embeddings_bert$textual content$harmonywords,
                                  word_embeddings_bert$word_types,
                                  Language_based_assessment_data_3_100$hilstotal, 
                                  Language_based_assessment_data_3_100$swlstotal
)

# Plot the information
plot_projection <- textProjectionPlot(
  word_data = df_for_plotting,
  y_axes = TRUE,
  p_alpha = 0.05,
  title_top = "Supervised Bicentroid Projection of Concord in life phrases",
  x_axes_label = "Low vs. Excessive HILS rating",
  y_axes_label = "Low vs. Excessive SWLS rating",
  p_adjust_method = "bonferroni",
  points_without_words_size = 0.4,
  points_without_words_alpha = 0.4
)
plot_projection$final_plot
Proyección Bicentroide Supervisada de Armonía en palabras de vida

Esta publicación demuestra cómo llevar a cabo análisis de texto de última generación en R utilizando el textual content paquete. El paquete pretende facilitar el acceso y el uso de los modelos de lenguaje Transformers de HuggingFace para analizar el lenguaje pure. Esperamos sus comentarios y contribuciones para que dichos modelos estén disponibles para aplicaciones científicas sociales y otras aplicaciones más típicas de los usuarios de R.

  • Bommasani et al. (2021). Sobre las oportunidades y riesgos de los modelos de fundación.
  • Kjell y cols. (2022). El paquete de texto: un paquete R para analizar y visualizar el lenguaje humano mediante el procesamiento del lenguaje pure y el aprendizaje profundo.
  • Liu y otros (2019). Roberta: un enfoque de preentrenamiento de bert sólidamente optimizado.
  • Vaswaniet al (2017). Atención es todo lo que necesitas. Avances en los sistemas de procesamiento de información neuronal, 5998–6008

Correcciones

Si ve errores o desea sugerir cambios, por favor crear un problema en el repositorio de origen.

Reutilizar

El texto y las figuras tienen licencia Artistic Commons Attribution. CC POR 4.0. El código fuente está disponible en https://github.com/OscarKjell/ai-bloga menos que se indique lo contrario. Las figuras que han sido reutilizadas de otras fuentes no están cubiertas por esta licencia y pueden reconocerse por una nota en su pie de foto: “Figura de…”.

Citación

Para atribución, cite este trabajo como

Kjell, et al. (2022, Oct. 4). Posit AI Weblog: Introducing the textual content bundle. Retrieved from https://blogs.rstudio.com/tensorflow/posts/2022-09-29-r-text/

Cita BibTeX

@misc{kjell2022introducing,
  writer = {Kjell, Oscar and Giorgi, Salvatore and Schwartz, H Andrew},
  title = {Posit AI Weblog: Introducing the textual content bundle},
  url = {https://blogs.rstudio.com/tensorflow/posts/2022-09-29-r-text/},
  yr = {2022}
}

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles