
Mar 06, 2025
- Unternehmen
- Pressemitteilung
- Forschung und Entwicklung
Dec 25, 2023
Unternehmen / Pressemitteilung
Osaka, Japan– Panasonic Holdings Co., Ltd. (im Folgenden als Panasonic HD bezeichnet) hat eine Bilderkennungs-KI mit einem neuen Klassifizierungsalgorithmus entwickelt, der die multimodale Natur von Daten verarbeiten kann, die aus Motiv und Aufnahmebedingungen abgeleitet werden. Experimente haben gezeigt, dass die Erkennungsgenauigkeit die herkömmlicher Methoden übertrifft.
Bilderkennungs-KI erkennt Objekte, indem sie sie anhand ihres Aussehens in Kategorien einteilt. Es gibt jedoch viele Fälle, in denen sogar Objekte, die zur gleichen Kategorie gehören, wie zum Beispiel „Eisenbahn“ oder „Hund“, in Unterkategorien wie „Eisenbahntyp“ oder „Hunderasse“ eingeteilt werden und sehr unterschiedlich aussehen. Darüber hinaus gibt es viele Fälle, in denen dasselbe Objekt aufgrund unterschiedlicher Aufnahmebedingungen wie Ausrichtung, Wetter, Beleuchtung oder Hintergrund anders aussieht. Es ist wichtig zu überlegen, wie man mit dieser Vielfalt im Erscheinungsbild am besten umgeht. Um die Genauigkeit der Bilderkennung zu verbessern, wurden bisher Forschungsarbeiten mit dem Ziel durchgeführt, eine robuste Bilderkennung zu erreichen, die nicht durch Diversität beeinträchtigt wird, und es wurden Klassifizierungsalgorithmen entwickelt, um Ähnlichkeiten innerhalb von Unterkategorien und gemeinsamen Merkmalen von Objekten zu finden eine bestimmte Kategorie.
Da KI weiterhin in einer Vielzahl von Umgebungen eingesetzt wird und eine große Anzahl unterschiedlicher Bilder verarbeitet wird, sind die Grenzen des Ansatzes der „Suche nach gemeinsamen Merkmalen“ deutlich geworden. Insbesondere wenn es Unterkategorien mit unterschiedlichen Erscheinungstendenzen innerhalb derselben Kategorie gibt (multimodale Verteilung), hat die KI häufig Schwierigkeiten, solche Objekte erfolgreich als zur selben Kategorie gehörend zu erkennen, was zu einer Verschlechterung der Erkennungsgenauigkeit führt.
Daher hat sich unser Unternehmen darauf konzentriert, Unterschiede im Erscheinungsbild auszunutzen und einen neuen Klassifizierungsalgorithmus entwickelt, der die Vielfalt von Bildern mithilfe einer zweidimensionalen orthonormalen Matrix erfasst. Anhand eines Benchmark-Datensatzes *1 haben wir gezeigt, dass es möglich ist, eine hochpräzise Bildklassifizierung selbst bei Daten mit einer multimodalen Verteilung durchzuführen, was für KI schwierig ist.
Diese Technologie ist ein Ergebnis der Forschung von REAL-AI *2, dem KI-Expertenschulungsprogramm der Panasonic Group, und wurde zur IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2024), einer Top-Konferenz im Bereich Computer Vision, angenommen Feld. Auf der Plenarkonferenz in Hawaii, USA, die vom 4. bis 8. Januar 2024 stattfinden wird, wird ein Vortrag gehalten.
Panasonic HD wird die Forschung und Entwicklung der KI-Technologie fördern, um deren soziale Umsetzung zu beschleunigen, und sich gleichzeitig auf die Ausbildung erstklassiger KI-Experten konzentrieren.
Die Anwendungen der Bilderkennungstechnologie nehmen zu und die Technologie breitet sich in Situationen aus, in denen sie bisher noch nicht eingesetzt wurde. Da sich die Anwendungsmöglichkeiten über Bereiche hinaus erstrecken, in denen die Anwendung einfacher war, besteht die Notwendigkeit, mit Objekten derselben Kategorie umzugehen, die auf unterschiedliche Weise erscheinen können, womit herkömmliche KI Schwierigkeiten hat.
Im herkömmlichen Deep-Learning-Framework lernt ein KI-Modell grundsätzlich, dass ähnlich aussehende Dinge zu denselben Kategorien gehören. Um die Klassifizierungsleistung zu verbessern, ist es jedoch in den letzten Jahren üblich geworden, die Anzahl der Daten und Variationen im Erscheinungsbild während des Lernprozesses deutlich zu erhöhen. Dadurch lässt sich feststellen, dass die jeweiligen Objekte in die gleiche Kategorie fallen, auch wenn die Objekte abhängig von Faktoren wie Aufnahmeausrichtung, Beleuchtung und Hintergrund völlig unterschiedlich aussehen. Aus diesem Grund wurde die Aufmerksamkeit darauf gerichtet, wie die KI die wesentlichen Merkmale, die den Zielobjekten gemeinsam sind, erfolgreich erlernen kann, ohne durch die Vielfalt der in großen Datenmengen enthaltenen Erscheinungsformen abgelenkt zu werden.
Die Verteilung der Auftritte innerhalb einer Kategorie ist tatsächlich nicht einheitlich. Innerhalb derselben Kategorie gibt es mehrere Unterkategorien mit mehreren unterschiedlichen Erscheinungstrends (multimodale Verteilung). Beispielsweise gibt es in der in Abbildung 1 gezeigten Kategorie „Vögel“ Gruppen von Bildern desselben Vogels mit unterschiedlichen Tendenzen, z. B. „Vögel fliegen am Himmel“, „Vögel im Grasland“ und „Vögel sitzen auf Bäumen“. und „Vogelköpfe“. Jedes dieser Bilder enthält umfangreiche Informationen über das Objekt. Wenn wir uns auf das Wesentliche konzentrieren, verwerfen wir am Ende die vielfältigen Informationen, die die Bilder enthalten. Deshalb haben wir einen Algorithmus entwickelt, der aktiv Informationen über die verschiedenen Erscheinungsformen von Objekten nutzt, um die Fähigkeit der KI zu verbessern, Bilder mit multimodaler Verteilung zu erkennen, was für KI schwierig ist. Um die Merkmalsverteilung kontinuierlich zu erfassen, haben wir den Gewichtsvektor des Klassifizierungsmodells, der traditionell nur ein eindimensionaler Vektor war, zu einer zweidimensionalen orthonormalen Matrix erweitert. Dadurch kann jedes Element der Gewichtsmatrix eine Variation des Bildes darstellen (unterschiedliche Hintergrundfarben, Objektausrichtung usw.).
Als Ergebnis dieses Experiments *1 mit einem Benchmark-Datensatz hat diese Methode gezeigt, dass es möglich ist, den Rand einer Gruppe von Merkmalen zu identifizieren, die es der KI ermöglichen sollten, dasselbe Objekt zu klassifizieren (die Sternmarkierung zeigt den Rand des „ „Vogel“-Kategorie, die mit dieser Methode erfasst wird), wie in Abbildung 1 gezeigt, durch die Einführung eines Klassifikators, der kontinuierlich Bildmerkmale erfassen kann, die in äußerst unterschiedlichen Kategorien enthalten sind, die wie „Vögel“ aussehen.
Wie in Abbildung 2 dargestellt, konnte unser Algorithmus daher selbst für Kategorien wie „Bus“ und „Straßenbahn“, die ähnlich aussehen und schwer als getrennt zu klassifizieren sind, Bilder finden, die zur gleichen Kategorie gehören, ohne dass es zu Verwirrung kommt von anderen Fahrzeugen, die ähnlich aussehen.
Da der Algorithmus einfach ist, beträgt die Speicherzunahme beim Hinzufügen zu einem allgemeinen Deep-Learning-basierten Bilderkennungsmodell (ResNet-50) im praktischen Einsatz (10 Klassen) nur etwa 0,1 %. Es wird erwartet, dass die Erkennungsgenauigkeit und Erklärbarkeit mit nur einem geringen Anstieg der Speichernutzung verbessert werden kann.
Abbildung 1 zeigt die Ergebnisse der Bildklassifizierung mit dieser Methode und der Gewichtsmatrix, die Bildvariationen ausdrücken kann. Für die in der linken Abbildung grün dargestellte Kategorie „Vögel“ werden Bilder erkannt, die jeder Komponente der Gewichtsmatrix des KI-Modells ähneln, und in der rechten Abbildung in unterschiedlichen Farben angezeigt. Von oben beginnend stellt jede Zeile des Gewichtsvektors ein Element dar, das einem multimodalen Peak in der Kategorie entspricht: fliegende Vögel, Graslandvögel, Baumvögel und Vogelköpfe. Daraus lässt sich schließen, dass das Klassifizierungsmodell erfolgreich darauf trainiert wurde, verschiedene Variationen derselben Vogelkategorie zu erfassen. (Zitiert aus dem akzeptierten Artikel © 2024 IEEE)
Abbildung 2 zeigt die Erkennungsergebnisse der herkömmlichen Methode DNC *3 (links) und der vorgeschlagenen Methode (rechts) bei der Abfrage von Bildern aus derselben Kategorie. Die erste Zeile ist eine Abfrageaufgabe für ein Busbild, die zweite Zeile für einen Zug und die dritte Zeile für eine Straßenbahn. Während mit der herkömmlichen Methode andere Fahrzeuge mit ähnlichem Erscheinungsbild gefunden werden konnten, ist die vorgeschlagene Methode in der Lage, Bilder aus derselben Kategorie mit einer großen Vielfalt an Erscheinungsbildern zu finden. (Zitiert aus dem akzeptierten Artikel © 2024 IEEE)
Mit dieser Methode kann eine Bilderkennung durchgeführt werden, die die Eigenschaften desselben Objekts, das auf unterschiedliche Weise erscheint, reibungslos erfasst, was mit herkömmlicher KI nur schwer zu erreichen ist. Es wird erwartet, dass dies insbesondere in Situationen einen Beitrag leistet, in denen ein fortgeschrittenes Bildverständnis an Standorten mit unterschiedlichen Perspektiven erforderlich ist, beispielsweise im Zusammenhang mit Mobilität, Fertigung und Robotik.
Panasonic HD wird die soziale Umsetzung der KI-Technologie weiterhin beschleunigen und die Forschung und Entwicklung von KI-Technologie fördern, die Kunden in ihrem täglichen Leben und bei ihrer Arbeit unterstützen wird.
*1 Klassifizierungsaufgabe für den Bilderkennungs-Benchmark-Datensatz CIFAR-10/100, ImageNet.
*2 Eine interne Forschungsgruppe, die in der gesamten Gruppe organisiert ist, um die hochmoderne KI-Forschung und -Entwicklung der Panasonic-Gruppe zu leiten, indem sie Spitzenkräfte fördert, die Spitzentechnologie schnell einsetzen und Mehrwert schaffen können. Unter der Leitung von Professor Tadahiro Taniguchi, Professor an der Ritsumeikan-Universität und Mitarbeiter von Panasonic HD, und Professor Takayoshi Yamashita von der Chubu-Universität stellten sich viele Mitglieder, von jungen Menschen bis hin zu Experten, der Herausforderung, an Top-Konferenzen teilzunehmen und viele Vorträge zu halten wurden angenommen.
*3 Wang, W., Han, C., Zhou, T. und Liu, D.: Visual Recognition with Deep Nearest Centroids, The Eleventh International Conference on Learning Representations (2023).
https://openaccess.thecvf.com/content/WACV2024/html/Goto_Learning_Intra-Class_Multimodal_Distributions_With_Orthonormal_Matrices_WACV_2024_paper.html
Diese Forschung ist das Ergebnis einer Zusammenarbeit zwischen Junpei Goto, Yohei Nakata, Kiyofumi Abe und Yasunori Ishii von der Panasonic HD Technology Division und Takayoshi Yamashita, Professor an der Chubu University, und wurde unter der Leitung von Experten im Rahmen von Panasonic durchgeführt Das KI-Expertenschulungsprogramm der Gruppe heißt REAL-AI.
- WACV 2024 https://wacv2024.thecvf.com/
- Panasonic×AI-Website https://tech-ai.panasonic.com/en/
Über die Panasonic-Gruppe Die Panasonic-Gruppe wurde 1918 gegründet und ist heute weltweit führend in der Entwicklung innovativer Technologien und Lösungen für vielfältige Anwendungen in den Bereichen Unterhaltungselektronik, Wohnungsbau, Automobil, Industrie, Kommunikation und Energie. Am 1. April stellte sie auf ein Betriebsgesellschaft um , 2022 mit Panasonic Holdings Corporation als Holdinggesellschaft und acht Unternehmen unter ihrem Dach. Die Gruppe meldete für das am 31. März 2023 endende Geschäftsjahr einen konsolidierten Nettoumsatz von 8.378,9 Milliarden Yen. Um mehr über die Panasonic-Gruppe zu erfahren, besuchen Sie bitte: https://holdings.panasonic/global/ |
Der Inhalt dieser Website ist zum Zeitpunkt der Veröffentlichung korrekt, kann jedoch ohne vorherige Ankündigung geändert werden.
Bitte beachten Sie daher, dass diese Dokumente möglicherweise nicht immer die aktuellsten Informationen enthalten.
Bitte beachten Sie, dass es sich bei der deutschen, französischen und chinesischen Version um maschinelle Übersetzungen handelt, sodass Qualität und Genauigkeit variieren können.