パナソニックグループの社内技術表彰の一つ、総合技術シンポジウム。革新的な技術や事業貢献を果たした優れた商品に対して、今年度も⾦‧銀賞がそれぞれ贈られました。金賞を受賞したのは、世界トップレベルの照合性能を達成した話者照合技術です。当社は話者ごとの特徴を抽出、識別する技術到達度を測るベンチマークとして2018年からアメリカ国立標準技術研究所(NIST)が主催する話者照合コンペティション(SRE)に毎年参加。入力された音声が登録者本人か否かを判定する話者照合の精度を世界各国の研究グループと競い合い、たゆまぬ性能改善を続けることで2021年遂に世界トップレベルの照合性能を実現しました。開発の中心メンバーに話を聞きました。
*ニューラルネットワーク(NN):コンピュータで用いられる数値や計算式などを使って人間の脳機能を再現して作られたもの。ニュートラルネットワークを多層にして活用することで、データの特徴をより深めて学習させることができる。
2023年05月
プロフィール
-
板倉 光佑
パナソニック ホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター
-
畠中 亮太
パナソニック ホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター
-
大毛 勝統
パナソニック ホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター
目次
PROBLEM 同一話者でも、収録環境の変化で照合性能が劣化
生体認証の中でも音声は非接触かつマイクや電話など入力に特殊な装置を必要とせず照合できることから導入コストに優れ、今後世界での市場規模拡大が見込まれています。その一方で音声は同じ話者でも電話、動画など収録環境が変わると正しく推論できないなど、照合性能では他の生体認証よりも劣ることが課題でした。そこでパナソニックはNNの大規模化による性能改善に着手し、高精度に話者ごとの特徴量を抽出できる仕組みを構築。さらに収録環境が変化しても同一話者を識別できる独自の技術を開発し、誤り率1%を切る高い識別性能を達成しました。
識別モデルを独自構築し、誤り率1%の壁を突破
話者照合技術においてNNはどのような役割を?
NNの大規模化にあたり、肝となるのが質の高い話者音声データの収集でしたが、データは有償のため、コスト面からその数には限りがあります。そこで収集データをベースにさまざまな加工を施すことで拡張し、自前でデータの増加を図りました。例えば、ベース音声に自動車の走行音などの雑音や会議室などの残響音を意図的に加えたり、話速変換*により再生スピードを変えて高音、低音にして全く別人のような音声を新たに作り出したり。高精度な話者照合に欠かせない学習データを確保しました。
*話速変換:再生速度を変えても音程を変えない信号処理技術。音楽や動画を早送りすると高音になる。
話者照合コンペティションで世界トップレベルの性能を達成できた要因とは?
当社は2018年から同コンペに毎年参加しており、性能評価の対象である電話音声で着実に順位を上げていました。2021年から新たに動画音声が評価条件に加えられ、より実際の環境に近い条件下での評価が実施されることを念頭に置き、開発チームが一丸で電話と動画の両音声の照合性能を高めてきました。コンペに先立って、一般的な話者照合データセットで誤り率1%以下の性能を達成しており、コンペ本番でも実力通りの結果を導くことができました。
衆知を集め、あらゆる手法を考え尽くす
今までを振り返り、1番のターニングポイントは?
2018年に初参加したコンペは世界トップの研究グループとは大きな隔たりがありました。話者照合の基盤となるNNは技術革新のスピードが目覚ましく、当時の上司がコンペでトップの成績を収めたアメリカの大学の研究グループに共同研究を打診しようと提案をしました。その交渉役に抜擢されたのが私と板倉さんでした。世界トップクラスの研究グループと英語でコミュニケーションすることに多少不安がありましたが、「世界でトップに立ちたい」と熱意を込めて伝え、快く了承をいただけました。
共同研究の契約を取り交わした後、私は現地で直接技術を学ぶために大学のラボを訪問。数週間の滞在で直接議論を重ねながら手ほどきを受け、急速に技術力(NNの知識や話者照合適応法など)を高めている手応えを感じました。アメリカの大学で吸収した技術と研究姿勢を生かし、2019年のコンペではトップ10入りを果たすことができました。
チームで大切にしていた考えとは?
話者照合はNNをはじめ、さまざまな要素技術を結合した技術からなります。ですから、大切なのは衆知を集めること。当時の上司が私たちに繰り返しおっしゃっていた言葉は「あらゆる手法を考えて手を打ち尽くしたか」。他部署ながらNNの高い知見を持つ畠中さんに加わってもらったのも、こうしたチーム方針の一環でした。
NNは世界的に画像認識分野で技術力が先行しており、その知見を音声に取り入れて性能向上を図りたいと請われ2021年から開発メンバーに加わっています。今回私が性能改善に貢献できた一つは、NNの多層化です。NNは層を増やせば増やすほど性能が上がるというものではなく、「過学習」つまり賢くなりすぎると不必要な特徴量まで抽出し逆に性能劣化につながってしまう。また、規模が大きくなりすぎると計算リソースのメモリ容量を超えてしまう。当社の計算リソースの範囲内で最適に処理できるよう、学習させる音声の長さを短く調節しデータ量を制御しながら、多層化を進めていきました。
他部署との連携が性能向上に結びついた?
2021年に50層くらいまで自力で増やせたものの、さらに高度なノウハウをメンバー内で持ち合わせておらず、開発の行き詰まりを感じていました。現在世界性能レベルの150層までジャンプアップできたのは畠中さんの尽力によるものです。
2021年に音声と顔画像を組み合わせて話者を照合する国際コンペに私たちのチームとパナソニック コネクト株式会社の顔認証技術チームが共同参加し、世界トップレベルの性能を実現しました。これまで当社が挑戦したことがないタスクでしたが、コネクト社のメンバーと互いの知見を共有し合うことで、急速に性能を上げることができました。
国際コンペの結果はあくまでも通過点。真のゴールは技術を実用化し、社業に貢献することです。話者照合技術の実用化に力を入れており、既に車載のドライバー認証の商品開発を進めているところです。実機搭載には解決すべき課題がいくつもありますが、多くの人を巻き込みながら、最後の最後まで手法を考え尽くす。その姿勢は変えません。
MESSAGE & YELL
国際コンペで常に世界一を目標に技術開発をしてきたおかげで、普段から考え方や視野のスケールがより大きくなり、技術者として一回りも二回りも成長できるきっかけをつかめました。今回の技術開発を通して、改めてパナソニックが保有する技術のすそ野の広さを誇りに思いました。当社にはあらゆる分野の知見を持つ優秀な人材が在籍し、自分1人ですべてをカバーする必要がない。私が今、見据えているのは話者照合の技術を使い、豊かに暮らす人々の笑顔です。世界と比べ、国内ではまだまだ話者照合の実用化が進んでいません。どのような生活シーンでこの技術が最大限に活用されるのか常に考えていきたいです。
話者照合技術は技術革新のスピードが速く、たった1年で照合エラー率が半減するなど珍しくありません。世界中の研究グループの最新動向を常に探り、他社の精度結果を分析して、技術に関連する文献をあさったり、学会での先進的な発表内容を確認したり、板倉さんや畠中さんがいち早く成果を出せるよう、衆知を集め開発環境の体制づくりなどを傍から支えてきました。今回の世界トップレベルの性能を実現した国際コンペで課題となったのはある希少言語でした。NNの導入当初から学習用にあらゆる多言語を積極的に取り入れてきたことが貢献につながったのではと思います。
NNの知見を提供するために請われて開発チームに参加したものの、最初は音声技術の基礎さえ理解できず、焦りを感じていました。専門用語が飛び交う現場で決して取り残されまいと、周囲のメンバーに素直に質問し学ぶほどに自分の言葉で技術をかみ砕けるようになり、どんどんのめり込んでいきました。専門であった画像に加え音声の知識を習得できた経験によって自分の殻を破ったと感じますし、どんな入力形式でも応用できると自信を深められました。世界の研究チームと競い合うコンペに参加でき、自部門内の研究では味わえないような達成感を得られたことも貴重な財産です。
FUTURE
現在、実用化を進めている車載用のドライバー認証は、事前登録している音声のみに反応します。例えば家族でドライブ中、子どもの声などによる誤作動の危険性がなくなり、普段通り会話を楽しみながらより安全性の高いドライブシーンを提供できると考えられます。性能も商品も世界トップレベル、両方成し遂げられるのはモノづくり企業である当社の強みです。今後もさまざまな部署と連携して互いの知見を出し合いながら、世界に誇れる商品づくりを進めていきます。
関連URL
アメリカ国立標準技術研究所(NIST)の話者認識評価(SRE21)で実証 ~世界最高水準の話者識別技術およびマルチモーダル認証技術を開発~
パナソニックホールディングス株式会社 テクノロジー本部 デジタルAV・AI技術(音声・音響領域/話者識別技術)
パナソニックの#はたらくってなんだろう 「逆境からつかんだ最高精度の技術、世界が認めた話者識別への挑戦」
受賞テーマ | 特徴量比較モデルのドメイン別適応と大規模 NNを用いた話者特徴量抽出による世界トップレベルの話者照合 |
---|---|
担当 | パナソニック ホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター 板倉 光佑 畠中 亮太 大毛 勝統 パナソニック コネクト株式会社 技術研究開発本部 福田 鉄平 宮本 正成 岡田 慎太郎 |
*所属・内容等は取材当時(2023年4月)のものです。
NNは人間の脳機能を再現したモデルであり、モデルの規模に比例して表現力が向上し、人間の聴覚では困難な微細な音声の違いも高精度で識別できるようになります。何万人もの話者音声データをNNに繰り返し学習、分析させ、個々の音声から話者を正しく推論できるように自動的に訓練させていきます。