
Apr 03, 2025
- Compañía
- Presione soltar
- I+D
Dec 25, 2023
Empresa / Nota de prensa
Osaka, Japón– Panasonic Holdings Co., Ltd. (en adelante, Panasonic HD) ha desarrollado una IA de reconocimiento de imágenes con un nuevo algoritmo de clasificación que gestiona la naturaleza multimodal de los datos derivados del sujeto y las condiciones de disparo. Experimentos han demostrado que la precisión de reconocimiento supera la de los métodos convencionales.
La IA de reconocimiento de imágenes reconoce objetos clasificándolos en categorías según su apariencia. Sin embargo, hay muchos casos en los que incluso objetos que pertenecen a la misma categoría, como "tren" o "perro", se clasifican en subcategorías como "tipo de tren" o "raza de perro", con apariencias muy diferentes. Además, hay muchos casos en los que el mismo objeto puede parecer diferente debido a las diferencias en las condiciones de disparo, como la orientación, el clima, la iluminación o el fondo. Es importante considerar la mejor manera de lidiar con tal diversidad en la apariencia. Para mejorar la precisión del reconocimiento de imágenes, hasta este punto se ha llevado a cabo investigación con el objetivo de lograr un reconocimiento de imágenes robusto que no se vea afectado por la diversidad, y se han ideado algoritmos de clasificación para encontrar similitudes dentro de las subcategorías y características comunes a los objetos en una categoría dada.
A medida que la IA se sigue implementando en diversos entornos y se gestiona una gran cantidad de imágenes diversas, se han hecho evidentes las limitaciones del enfoque de "encontrar características comunes". En particular, cuando existen subcategorías con diferentes tendencias de apariencia dentro de la misma categoría (distribución multimodal), la IA suele tener dificultades para reconocer correctamente dichos objetos como pertenecientes a la misma categoría, lo que resulta en una disminución de la precisión del reconocimiento.
Por lo tanto, nuestra empresa se ha centrado en aprovechar las diferencias de apariencia y ha desarrollado un nuevo algoritmo de clasificación que captura la diversidad de imágenes mediante una matriz ortonormal bidimensional. Utilizando un conjunto de datos de referencia *1, demostramos que es posible realizar una clasificación de imágenes con alta precisión incluso con datos con una distribución multimodal, algo difícil para la IA.
Esta tecnología es resultado de la investigación de REAL-AI *2, el programa de formación de expertos en IA del Grupo Panasonic, y fue aceptada en la Conferencia de Invierno IEEE/CVF sobre Aplicaciones de Visión Artificial (WACV 2024), una conferencia de referencia en el campo de la visión artificial. Se presentará una presentación en la conferencia plenaria en Hawái, EE. UU., del 4 al 8 de enero de 2024.
Panasonic HD promoverá la investigación y el desarrollo de tecnología de IA que acelere su implementación social y al mismo tiempo se centrará en la capacitación de los mejores expertos en IA.
Las aplicaciones de la tecnología de reconocimiento de imágenes están en aumento y se está expandiendo a situaciones donde antes no se había utilizado. A medida que sus aplicaciones se expanden más allá de áreas donde antes era más fácil, surge la necesidad de abordar objetos de la misma categoría que pueden aparecer de diversas maneras, algo con lo que la IA convencional tiene dificultades.
En el marco convencional de aprendizaje profundo, un modelo de IA básicamente aprende que los objetos que parecen similares pertenecen a las mismas categorías. Sin embargo, en los últimos años, para mejorar el rendimiento de la clasificación, se ha vuelto común aumentar significativamente la cantidad de datos y las variaciones de apariencia durante su proceso de aprendizaje. Esto permite determinar que los objetos dados pertenecen a la misma categoría, incluso si parecen completamente diferentes según factores como la orientación de la toma, la iluminación y el fondo. Por esta razón, se ha centrado la atención en cómo lograr que la IA aprenda con éxito las características esenciales comunes a los objetos objetivo sin distraerse con la variedad de apariencias contenidas en grandes cantidades de datos.
La distribución de apariencias dentro de una categoría no es uniforme. Dentro de una misma categoría, existen múltiples subcategorías con distintas tendencias de apariencia (distribución multimodal). Por ejemplo, en la categoría "Aves", que se muestra en la Figura 1, existen grupos de imágenes de la misma ave con diferentes tendencias, como "aves volando en el cielo", "aves en la pradera", "aves posadas en árboles" y "cabezas de ave". Cada una de estas imágenes contiene información valiosa sobre el objeto. Si nos centramos en las características esenciales, desperdiciamos la diversa información que contienen las imágenes. Por lo tanto, hemos desarrollado un algoritmo que utiliza activamente la información sobre las distintas formas en que aparecen los objetos para mejorar la capacidad de la IA para reconocer imágenes con distribución multimodal, algo que le resulta difícil. Para capturar continuamente la distribución de características, ampliamos el vector de pesos del modelo de clasificación, que tradicionalmente ha sido un vector unidimensional, a una matriz ortonormal bidimensional. Esto permite que cada elemento de la matriz de pesos represente una variación de la imagen (diferentes colores de fondo, orientación del objeto, etc.).
Como resultado de este experimento *1 en un conjunto de datos de referencia, este método ha demostrado que es posible identificar el borde de un grupo de características que deberían permitir que la IA clasifique el mismo objeto (la marca de estrella indica el borde de la categoría "pájaro" capturada por este método) como se muestra en la Figura 1, al introducir un clasificador que puede capturar continuamente características de imagen que se incluyen en categorías extremadamente diversas que parecen "pájaros".
Como resultado, como se muestra en la Figura 2, incluso para categorías como “autobús” y “tranvía”, que son similares en apariencia y difíciles de clasificar como separadas, nuestro algoritmo pudo encontrar imágenes que pertenecen a la misma categoría sin confundirse con otros vehículos que parecen similares.
Debido a la simplicidad del algoritmo, al incorporarlo a un modelo general de reconocimiento de imágenes basado en aprendizaje profundo (ResNet-50), el aumento de memoria es de tan solo un 0,1 % en la práctica (10 clases). Se espera que la precisión y la explicabilidad del reconocimiento mejoren con un pequeño aumento en el uso de memoria.
La Figura 1 muestra los resultados de la clasificación de imágenes con este método y la matriz de ponderaciones capaz de expresar variaciones en la imagen. Para la categoría "Aves", mostrada en verde en la figura izquierda, las imágenes similares a cada componente de la matriz de ponderaciones del modelo de IA se reconocen y se muestran en diferentes colores en la figura derecha. Comenzando desde arriba, cada fila del vector de ponderaciones representa un elemento correspondiente a un pico multimodal en la categoría: aves en vuelo, aves de pastizal, aves arbóreas y cabezas de aves. A partir de esto, se puede afirmar que el modelo de clasificación se entrenó correctamente para capturar diferentes variaciones de la misma categoría de aves. (Citado del artículo aceptado © 2024 IEEE)
La Figura 2 muestra los resultados de reconocimiento del método convencional DNC *3 (izquierda) y el método propuesto (derecha) en la tarea de consulta de imágenes de la misma categoría. La primera línea corresponde a la consulta de una imagen de autobús, la segunda a la de un tren y la tercera a la de un tranvía. Si bien el método convencional ha permitido encontrar otros vehículos de apariencia similar, el método propuesto permite encontrar imágenes de la misma categoría con una amplia variedad de apariencias. (Citado del artículo aceptado © 2024 IEEE)
Este método permite el reconocimiento de imágenes que captura con precisión las características de un mismo objeto que se presenta de diversas maneras, algo difícil de lograr para la IA convencional. Se espera que esto aporte contribuciones, especialmente en situaciones donde se requiere una comprensión avanzada de imágenes en sitios con diversas perspectivas, como los relacionados con la movilidad, la fabricación y la robótica.
Panasonic HD continuará acelerando la implementación social de la tecnología de IA y promoverá la investigación y el desarrollo de tecnología de IA que ayudará a los clientes en su vida diaria y laboral.
*1 Tarea de clasificación para el conjunto de datos de referencia de reconocimiento de imágenes CIFAR-10/100, ImageNet.
*2 Un grupo de investigación interno, organizado en todo el grupo, lidera la investigación y el desarrollo de vanguardia en IA del Grupo Panasonic, mediante la formación de profesionales altamente capacitados capaces de implementar rápidamente tecnología de vanguardia y generar valor. Bajo la dirección del profesor Tadahiro Taniguchi, profesor de la Universidad Ritsumeikan y empleado de Panasonic HD, y del profesor Takayoshi Yamashita, de la Universidad Chubu, numerosos miembros, desde jóvenes hasta expertos, asumieron el reto de competir en congresos de primer nivel, y se aceptaron numerosos artículos.
*3 Wang, W., Han, C., Zhou, T. y Liu, D.: Reconocimiento visual con centroides más cercanos profundos, La undécima conferencia internacional sobre representaciones de aprendizaje (2023).
https://openaccess.thecvf.com/content/WACV2024/html/Goto_Learning_Intra-Class_Multimodal_Distributions_With_Orthonormal_Matrices_WACV_2024_paper.html
Esta investigación es el resultado de una colaboración entre Junpei Goto, Yohei Nakata, Kiyofumi Abe y Yasunori Ishii de la División de Tecnología HD de Panasonic, y Takayoshi Yamashita, profesor de la Universidad de Chubu, y se llevó a cabo bajo la guía de expertos como parte del programa de capacitación de expertos en IA del Grupo Panasonic llamado REAL-AI.
- WACV 2024 https://wacv2024.thecvf.com/
- Sitio web de Panasonic×AI https://tech-ai.panasonic.com/en/
Acerca del Grupo Panasonic Fundado en 1918 y actualmente líder mundial en el desarrollo de tecnologías y soluciones innovadoras para una amplia gama de aplicaciones en los sectores de la electrónica de consumo, la vivienda, la automoción, la industria, las comunicaciones y la energía a nivel mundial, el Grupo Panasonic adoptó un sistema compañía operativa el 1 de abril de 2022, con Panasonic Holdings Corporation como holding y ocho empresas bajo su paraguas. El Grupo registró unas ventas netas consolidadas de 8.378,9 mil millones de yenes para el ejercicio finalizado el 31 de marzo de 2023. Para obtener más información sobre el Grupo Panasonic, visite: https://holdings.panasonic/global/ |
El contenido de este sitio web es preciso en el momento de su publicación, pero puede estar sujeto a cambios sin previo aviso.
Por lo tanto, tenga en cuenta que estos documentos pueden no contener siempre la información más actualizada.
Tenga en cuenta que las versiones en alemán, francés y chino son traducciones automáticas, por lo que la calidad y la precisión pueden variar.