24.8 C
Colombia
lunes, julio 7, 2025

Evolución del reconocimiento de imágenes con el aprendizaje profundo geométrico


Esta es la primera de una serie de publicaciones sobre redes neuronales convolucionales de grupo equivalente (GCNN). Hoy lo mantenemos breve, de alto nivel y conceptual; A continuación se darán ejemplos e implementaciones. Al analizar las GCNN, estamos retomando un tema que primero escribió sobre en 2021: Aprendizaje profundo geométricoun enfoque basado en principios y matemáticos para el diseño de redes que, desde entonces, no ha hecho más que aumentar en alcance e impacto.

De la alquimia a la ciencia: Aprendizaje profundo geométrico en dos minutos

En pocas palabras, el aprendizaje profundo geométrico consiste en derivar la estructura de la pink a partir de dos cosas: el dominio y la tarea. Las publicaciones entrarán en muchos detalles, pero permítanme darles una vista previa rápida aquí:

  • Por dominio, me refiero al espacio físico subyacente y a la forma en que se representa en los datos de entrada. Por ejemplo, las imágenes suelen codificarse como una cuadrícula bidimensional, con valores que indican la intensidad de los píxeles.
  • La tarea es aquello para lo que estamos entrenando a la pink: clasificación, digamos, o segmentación. Las tareas pueden ser diferentes en diferentes etapas de la arquitectura. En cada etapa, la tarea en cuestión tendrá su palabra sobre cómo debe verse el diseño de capas.

Por ejemplo, tomemos MNIST. El conjunto de datos consta de imágenes de diez dígitos, del 0 al 10, todas en escala de grises. La tarea, como period de esperar, es asignar a cada imagen el dígito representado.

Primero, considere el dominio. A (7) es un (7) dondequiera que aparezca en la grilla. Por lo tanto necesitamos una operación que sea traducción-equivariante: Se adapta de manera versatile a los cambios (traducciones) en su entrada. Más concretamente, en nuestro contexto, equivariante Las operaciones pueden detectar las propiedades de algunos objetos incluso si ese objeto se ha movido, vertical y/u horizontalmente, a otra ubicación. Circunvoluciónomnipresente no solo en el aprendizaje profundo, es una operación equivalente a un cambio de este tipo.

Permítanme llamar especial atención sobre el hecho de que, en equivariación, lo esencial es esa “adaptación versatile”. Operaciones equivalentes de traducción hacer preocuparse por la nueva posición de un objeto; registran una característica no de manera abstracta, sino en la nueva posición del objeto. Para ver por qué esto es importante, consideremos la pink como un todo. Cuando componemos convoluciones, construimos una jerarquía de detectores de características. Esa jerarquía debería ser funcional sin importar en qué parte de la imagen. Además, tiene que ser coherente: la información de ubicación debe conservarse entre capas.

Por lo tanto, desde el punto de vista terminológico, es importante distinguir la equivarianza de la invariancia. Una operación invariante, en nuestro contexto, aún sería capaz de detectar una característica dondequiera que ocurra; sin embargo, felizmente olvidaría dónde se encontraba esa característica. Claramente, entonces, para construir una jerarquía de características, la traducción-invariancia no es suficiente.

Lo que hemos hecho ahora es derivar un requisito del dominio, la cuadrícula de entrada. ¿Qué pasa con la tarea? Si finalmente lo único que se supone que debemos hacer es nombrar el dígito, de repente la ubicación ya no importa. En otras palabras, una vez que existe la jerarquía, la invariancia es suficiente. En las redes neuronales, agrupación es una operación que se olvida de los detalles (espaciales). Sólo le importa la media, digamos, o el valor máximo en sí. Esto es lo que lo hace adecuado para “resumir” información sobre una región, o una imagen completa, si al closing solo nos importa devolver una etiqueta de clase.

En pocas palabras, pudimos formular una lista de deseos de diseño basada en (1) lo que nos dieron y (2) lo que se nos asignó.

Después de este boceto de alto nivel del aprendizaje profundo geométrico, nos acercamos al tema designado de esta serie de publicaciones: equivalente de grupo Redes neuronales convolucionales.

El por qué de “equivariante” no debería plantear, a estas alturas, un gran enigma. ¿Pero qué pasa con ese prefijo de “grupo”?

El “grupo” en la equivarianza grupal

Como habrás adivinado en la introducción, hablando de “principios” y “basados ​​en matemáticas”, este en realidad Se trata de grupos en el “sentido matemático”. Dependiendo de tus antecedentes, la última vez que escuchaste sobre grupos fue en la escuela, y sin siquiera una pista de por qué son importantes. Ciertamente no estoy calificado para resumir toda la riqueza de para qué sirven, pero espero que al closing de esta publicación, su importancia en el aprendizaje profundo tenga sentido intuitivo.

Grupos de simetrías

Aquí hay un cuadrado.

Un cuadrado en su posición predeterminada, alineado horizontalmente con un eje x virtual (invisible).

Ahora cierra los ojos.

Ahora mira de nuevo. ¿Le pasó algo a la plaza?

Un cuadrado en su posición predeterminada, alineado horizontalmente con un eje x virtual (invisible).

No puedes decirlo. Tal vez fue rotado; tal vez no lo fue. Por otro lado, ¿y si los vértices estuvieran numerados?

Un cuadrado en su posición predeterminada, con vértices numerados del 1 al 4, comenzando en la esquina inferior derecha y contando en el sentido contrario a las agujas del reloj.

Ahora lo sabrías.

Sin la numeración, ¿podría haber rotado el cuadrado como quisiera? Evidentemente no. Esto no pasaría desapercibido:

Un cuadrado, girado unos pocos grados en el sentido contrario a las agujas del reloj.

Hay exactamente cuatro formas en las que podría haber rotado el cuadrado sin levantar sospechas. Se puede hacer referencia a esas formas de diferentes maneras; una forma sencilla es mediante el grado de rotación: 90, 180 o 270 grados. ¿Por qué no más? Cualquier adición adicional de 90 grados daría como resultado una configuración que ya hemos visto.

Cuatro cuadrados, con vértices numerados cada uno. El primero tiene el vértice 1 en la parte inferior derecha, el segundo una rotación hacia arriba, en la parte superior derecha, y así sucesivamente.

La imagen de arriba muestra tres cuadrados, pero he enumerado tres rotaciones posibles. ¿Qué pasa con la situación de la izquierda, la que he tomado como estado inicial? Se podría alcanzar girando 360 grados (o el doble, o tres veces, o…). Pero la forma en que esto se maneja, en matemáticas, es tratándolo como una especie de “rotación nula”, de manera análoga a como (0) actúa además, (1) en multiplicación, o la matriz identidad en álgebra lineal.

En whole, tenemos así cuatro comportamiento que podría realizarse en el cuadrado (¡un cuadrado sin numerar!) que lo dejaría como está, o invariante. Estos se llaman los simetrías de la plaza. Una simetría, en matemáticas/física, es una cantidad que permanece igual sin importar lo que suceda a medida que evoluciona el tiempo. Y aquí es donde entran los grupos. Grupos – concretamente, sus elementos – efectuar acciones como la rotación.

Antes de explicar cómo, permítanme dar otro ejemplo. Toma esta esfera.

Una esfera, coloreada uniformemente.

¿Cuántas simetrías tiene una esfera? Infinitos. Esto implica que sea cual sea el grupo elegido para actuar sobre el cuadrado, no servirá de mucho para representar las simetrías de la esfera.

Ver grupos a través del acción lente

Siguiendo estos ejemplos, permítanme generalizar. Aquí hay una definición típica.

un grupo (GRAMO) es un conjunto finito o infinito de elementos junto con una operación binaria (llamada operación de grupo) que en conjunto satisfacen las cuatro propiedades fundamentales de cierre, asociatividad, propiedad de identidad y propiedad inversa. La operación con respecto a la cual se outline un grupo a menudo se denomina “operación de grupo” y se cube que un conjunto es un grupo “bajo” esta operación. Elementos (A), (B), (DO)… con operación binaria entre (A) y (B) denotado (AB) formar un grupo si

  1. Cierre: Si (A) y (B) son dos elementos en (GRAMO)entonces el producto (AB) también está en (GRAMO).

  2. Asociatividad: La multiplicación definida es asociativa, es decir, para todos (A),(B),(DO) en (GRAMO), ((AB)C=A(BC)).

  3. Identidad: Hay un elemento de identidad. (I) (también conocido como (1), (MI)o (mi)) tal que (IA=AI=A) para cada elemento (A) en (GRAMO).

  4. Inverso: debe haber un inverso (también conocido como recíproco) de cada elemento. Por lo tanto, para cada elemento (A) de (GRAMO)el conjunto contiene un elemento (B=A^{-1}) tal que (AA^{-1}=A^{-1}A=I).

En el lenguaje de acción, los elementos del grupo especifican acciones permitidas; o más precisamente, aquellos que se distinguen entre sí. Se pueden componer dos acciones; esa es la “operación binaria”. Los requisitos ahora tienen sentido intuitivo:

  1. Una combinación de dos acciones (dos rotaciones, digamos) sigue siendo una acción del mismo tipo (una rotación).
  2. Si tenemos tres de esas acciones, no importa cómo las agrupemos. (Sin embargo, su orden de aplicación debe seguir siendo el mismo).
  3. Una acción posible es siempre la “acción nula”. (Como en la vida). En cuanto a “no hacer nada”, no importa si eso sucede antes o después de un “algo”; ese “algo” es siempre el resultado closing.
  4. Cada acción debe tener un “botón deshacer”. En el ejemplo de los cuadrados, si giro 180 grados y luego 180 grados nuevamente, vuelvo al estado unique. es si lo hubiera hecho nada.

Retomando una visión más “a vista de pájaro”, lo que hemos visto ahora es la definición de un grupo por cómo sus elementos actúan entre sí. Pero para que los grupos importen “en el mundo actual”, deben actuar sobre algo externo (componentes de redes neuronales, por ejemplo). Cómo funciona esto es el tema de las siguientes publicaciones, pero aquí resumiré brevemente la intuición.

Perspectiva: CNN equivalente al grupo

Arriba, notamos que, en la clasificación de imágenes, un traducción-Se necesita una operación invariante (como convolución): A (1) es un (1) ya sea que se mueva horizontalmente, verticalmente, en ambos sentidos o no se mueva en absoluto. ¿Pero qué pasa con las rotaciones? De pie, un dedo sigue siendo lo que es. La convolución convencional no admite este tipo de acción.

Podemos agregar a nuestra lista de deseos arquitectónicos especificando un grupo de simetría. ¿Qué grupo? Si quisiéramos detectar cuadrados alineados a los ejes, un grupo adecuado sería (C_4)el grupo cíclico de orden cuatro. (Arriba vimos que necesitábamos cuatro elementos y que podíamos ciclo a través del grupo.) Si, por otro lado, no nos importa la alineación, querríamos cualquier posición para contar. En principio, deberíamos acabar en la misma situación que con la esfera. Sin embargo, las imágenes viven en cuadrículas discretas; En la práctica no habrá un número ilimitado de rotaciones.

Con aplicaciones más realistas, debemos pensar más detenidamente. Tome dígitos. Cuando es ¿Un número “igual”? Por un lado, depende del contexto. Si se tratara de una dirección escrita a mano en un sobre, ¿aceptaríamos una (7) ¿Cómo tal se había girado 90 grados? Tal vez. (Aunque podríamos preguntarnos qué haría que alguien cambiara la posición del bolígrafo por un solo dígito). ¿Qué pasa con un (7) parado sobre su cabeza? Además de consideraciones psicológicas similares, deberíamos estar seriamente inseguros sobre el mensaje deseado y, al menos, restar importancia al punto de datos si fuera parte de nuestro conjunto de entrenamiento.

Es importante destacar que también depende del dígito en sí. A (6)al revés, es un (9).

Si nos acercamos a las redes neuronales, hay espacio para una complejidad aún mayor. Sabemos que las CNN construyen una jerarquía de características, comenzando por las más simples, como bordes y esquinas. Incluso si, para capas posteriores, no queremos equivarianza de rotación, aún nos gustaría tenerla en el conjunto inicial de capas. (La capa de salida, ya lo hemos insinuado, debe considerarse por separado en cualquier caso, ya que sus requisitos resultan de las características específicas de nuestra tarea).

Eso es todo por hoy. Con suerte, he logrado iluminar un poco por qué Nos gustaría tener redes neuronales de grupos equivalentes. La pregunta sigue siendo: ¿Cómo los conseguimos? De esto se tratarán las siguientes publicaciones de la serie.

¡Hasta entonces y gracias por leer!

Foto por Ihor OINUA en desempaquetar

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles