22.8 C
Colombia
sábado, julio 5, 2025

El aprendizaje de refuerzo descubre errores de datos silenciosos



Para chips de alto rendimiento en masivo centros de datoslas matemáticas pueden ser el enemigo. Gracias a la gran escala de los cálculos en hiperescala centros de datosoperando todo el día con millones de nodos y grandes cantidades de silicio, aparecen errores extremadamente poco comunes. Es simplemente estadística. Estos raros errores de datos “silenciosos” no aparecen durante las proyecciones de management de calidad convencionales, incluso cuando las empresas pasan horas buscandolos.

Este mes en el IEEE Simposio de física de confiabilidad internacional en Monterey, California, Intel Los ingenieros describieron una técnica que Utiliza el aprendizaje de refuerzo Para descubrir más errores de datos silenciosos más rápido. La compañía está utilizando el aprendizaje automático método para garantizar la calidad de su Xón procesadores.

Cuando ocurre un error en un centro de datos, los operadores pueden tomar un nodo hacia abajo y reemplazarlo, o usar el sistema defectuoso para la computación de menor riesgo, cube Manu Shamsaun ingeniero eléctrico en el campus de Intel’s Chandler, Arizona. Pero sería mucho mejor si se pudieran detectar errores anteriormente. Idealmente, serían atrapados antes de incorporar un chip en un sistema informático, cuando es posible hacer correcciones de diseño o fabricación para evitar que los errores sean recurrentes en el futuro.

“En una computadora portátil no notará ningún error. En los centros de datos, Con nodos realmente densos, hay grandes posibilidades de que las estrellas se alineen y ocurra un error “. —Manu Shamsa, Intel

Encontrar estos defectos no es tan fácil. Shamsa cube que los ingenieros han sido tan desconcertados por ellos que bromearon que deben deberse a una acción espeluznante a distancia, la frase de Einstein para cuántica enredo. Pero no hay nada espeluznante en ellos, y Shamsa ha pasado años caracterizándolos. En un artículo presentado en la misma conferencia el año pasado, su equipo ofrece un conjunto catalogar de las causas de estos errores. La mayoría se deben a variaciones infinitesimales en la fabricación.

Incluso si cada uno de los miles de millones de transistores En cada chip es funcional, no son completamente idénticos entre sí. Las diferencias sutiles en cómo responde un transistor dado a los cambios en la temperatura, el voltaje o la frecuencia, por ejemplo, pueden conducir a un error.

Es mucho más possible que esas sutilezas surjan en grandes centros de datos debido al ritmo de la computación y la gran cantidad de silicio involucrada. “En una computadora portátil no notará ningún error. En los centros de datos, Con nodos realmente densos, hay grandes posibilidades de que las estrellas se alineen y ocurra un error ”, cube Shamsa.

Algunos errores solo podrían surgir después de que se haya instalado un chip en un centro de datos y ha estado funcionando durante meses. Pequeñas variaciones en las propiedades de los transistores pueden hacer que se degraden con el tiempo. Uno de esos errores silenciosos que Shamsa ha encontrado está relacionado con la resistencia eléctrica. Un transistor que funciona correctamente al principio y pasa las pruebas estándar para buscar pantalones cortos, con uso, puede degradarse para que se vuelva más resistente.

“Estás pensando que todo está bien, pero debajo, un error está causando una decisión incorrecta”, cube Shamsa. Con el tiempo, gracias a una ligera debilidad en un solo transistor, “uno más uno va a tres, en silencio, hasta que vea el impacto”, cube Shamsa.

La nueva técnica se basa en un conjunto existente de métodos para detectar errores silenciosos, llamados Pruebas propias. Estas pruebas hacen que el chip haga problemas de matemáticas difíciles, repetidamente durante un período de tiempo, con la esperanza de hacer que los errores silenciosos sean evidentes. Implican operaciones en diferentes tamaños de matrices llenas de datos aleatorios.

Hay una gran cantidad de pruebas propias. Ejecutarlos todos tomaría una cantidad de tiempo poco práctica. Por lo tanto, los fabricantes de chips usan un enfoque aleatorizado para generar un conjunto manejable de ellos. Esto ahorra tiempo, pero deja errores sin detectar. “No hay principio para guiar la selección de entradas”, cube Shamsa. Quería encontrar una manera de guiar la selección para que un número relativamente pequeño de pruebas pudiera aumentar más errores.

El equipo de Intel usó aprendizaje de refuerzo desarrollar pruebas por parte de su CPU de Xeon chips que realizan multiplicación matriz Usando lo que se llaman instrucciones Fuse-Multiply-Add (FMA). Shamsa cube que eligieron la región de la FMA porque ocupa un área relativamente grande del chip, lo que lo hace más susceptible a posibles errores silenciosos: más silicio, más problemas. Además, los defectos en esta parte de un chip pueden generar campos electromagnéticos que afectan a otras partes del sistema. Y debido a que la FMA se apaga para ahorrar energía cuando no está en uso, probarla implica alimentarla repetidamente hacia arriba y hacia abajo, potencialmente activando defectos ocultos que de otro modo no aparecerían en las pruebas estándar.

Durante cada paso de su capacitación, el programa de aprendizaje de refuerzo selecciona diferentes pruebas para el chip potencialmente defectuoso. Cada error que detecta se trata como una recompensa, y con el tiempo el agente aprende a seleccionar qué pruebas maximizan las posibilidades de detectar errores. Después de aproximadamente 500 ciclos de prueba, el algoritmo aprendió qué conjunto de pruebas propias optimizó la tasa de detección de errores para la región de FMA.

Shamsa cube que esta técnica tiene cinco veces más probabilidades de detectar un defecto que las pruebas propias aleatorias. Las pruebas propias son código abiertoparte del opendcdiag para centros de datos. Por lo tanto, otros deberían poder usar el aprendizaje de refuerzo para modificar estas pruebas para sus propios sistemas, cube.

Hasta cierto punto, los defectos silenciosos y sutiles son una parte inevitable del proceso de fabricación: la perfección y la uniformidad se quedan fuera del alcance. Pero Shamsa cube que Intel está tratando de usar esta investigación para aprender a encontrar los precursores que conducen a errores de datos silenciosos más rápido. Está investigando si hay banderas rojas que podrían proporcionar una advertencia temprana de errores futuros y si es posible cambiar las recetas o diseños de chips para administrarlos.

De los artículos de su sitio

Artículos relacionados en la internet

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles