2022年2月8日

アメリカ国立標準技術研究所（NIST）の話者認識評価（SRE21）で実証～世界最高水準の話者識別技術およびマルチモーダル認証技術を開発～音声×顔認証のマルチモーダル認証技術の精度比較評価で～

パナソニック株式会社の社内分社であるコネクティッドソリューションズ社（本社：東京都中央区、社長：樋口泰行、以下CNS社）およびテクノロジー本部（本部：大阪府門真市、本部長：伊藤伸器）は、このたびアメリカの大学研究グループと共同で研究開発を行い、世界最高水準の1）話者識別技術を開発するとともに、多くの採用実績があるCNS社の顔認証技術と組み合わせた2）マルチモーダル認証技術[1]を開発しました。

１）の話者識別技術は、CNS社独自のディープラーニング学習手法と類似度計算手法により多様な収録条件下の音声に対応することが可能となりました。
2）のマルチモーダル認証技術では、顔が隠れているような場合でも話者識別技術を組み合わせることで大幅な精度向上を実現しております。

本技術はアメリカ国立標準技術研究所（NIST）が実施している話者認識評価（SRE21[2]）にて、音声のみ、および、音声と顔画像を組み合わせたマルチモーダル認証で世界最高水準の識別性能であることが実証されました。
【開発背景】
従来の話者識別技術は、騒音や音声歪み、反響など収録環境の影響を受けると正しく識別出来ないという問題点がありました。この問題の解決に向けてCNS社イノベーションセンターとテクノロジー本部デジタル・AI技術センターは2019年度からアメリカの大学研究グループと共同で話者識別技術の性能改善に取組んできました。

例えば電話や動画など、それぞれの収録音声の特徴分析に基づき話者特徴抽出・識別を行なうディープラーニング学習手法・類似度計算手法[3]により、使用環境/言語にロバスト（堅牢）な性能を実現し、SRE21にてNISTが提示したベースラインモデルから大幅な性能改善を実現しました。

具体的にはアメリカの大学研究グループが開発した最先端ディープラーニングx-vectorシステム[4]と言語識別アルゴリズム、およびCNS社開発のTransformer[5]を含む複数の話者識別ニューラルネットワークを組み合わせることで、NISTベースラインモデルと比較して話者識別精度を3.7倍向上することに成功しました。

さらにCNS社顔認証技術と話者識別技術を組み合わせることで、顔が隠れているような場合においても精度の高い個人認証が可能なマルチモーダル認証技術を開発したものです。

【今後の展開について】
コールセンターでの本人認証のスピードアップおよび確認作業の簡略化や、既に商品化しているパナソニックシステムソリューションズジャパン製の「P-VoT（ピーボット）音声認識文字起こしサービス[6]」のさらなる利便性向上などに、話者識別技術を活用していくとともに、高度な認証が必要な用途に向けてマルチモーダル認証技術を適用、さらには指紋認証技術等を組み合わせた「非接触マルチモーダル認証ソリューション」を創出するなど、より安心・安全・便利な社会の実現に貢献していきます。

CNS社は、自身の100年にわたる製造業としての知見やノウハウを通じ、現場の人・モノ・機器の動きをデジタルデータとして可視化し、サイバー空間で分析を行います。それらの情報を経営判断につなげ、グローバルでのリードタイム短縮や在庫削減、ボトルネック解消などを通じて、お客様の経営課題の解決を目指す「現場プロセスイノベーション」を推進しています。そのための技術開発分野としてAIおよび画像センシング分野に注力しており、今後も関連の研究開発に邁進します。
https://biz.panasonic.com/jp-ja/gemba-sensing
【お問合せ先】
＜報道関係者様＞
パナソニック株式会社コネクティッドソリューションズ社（※）
エンタープライズマーケティング本部 PR部 Email : cns_pr@ml.jp.panasonic.com

＜P-VoT（ピーボット）音声認識文字起こしサービス[6]に関するお問い合わせ先＞
https://biz.panasonic.com/jp-ja/support_cs-contact
※「P-VoT（ピーボット）文字起こしサービス」を見たとお伝えください。

[1] パナソニックのマルチモーダルセンシング概要ウェブサイト
URL：https://biz.panasonic.com/jp-ja/gemba-sensing_multimodal-sensing
[2]NIST 2021 Speaker Recognition Evaluation
https://www.nist.gov/itl/iad/mig/nist-2021-speaker-recognition-evaluation-sre21
[3] 類似度計算手法：照合音声と登録音声の特徴量の類似性を計算する手法のこと
[4] x-vectorシステム：個人IDが付与された大量の音声データを用いて話者識別ができるように訓練を行った深いニューラルネットワークの中間層の出力を、話者の個人性を表す特徴量(x-vector)として抽出することで、学習データに含まれない不特定多数の話者を識別可能にするシステムのこと
[5] Transformer：機械翻訳技術として当初提案されたモデルを話者識別モデルとして応用したものであり、Recurrent Neural Network(RNN)やConvolutional Neural Network (CNN)を使用しないself-attention（自己注意）ベースのニューラルネットワークのこと
[6] P-VoT 音声認識文字起こしサービスウェブサイトURL：https://pvot.jpn.panasonic.com/

※：パナソニックグループの持株会社制への移行にともないパナソニック株式会社コネクティッドソリューションズ社は2022年4月より、「パナソニックコネクト株式会社」に変わります。