受賞テーマ「高音質化に向けた雑音抑圧技術の発明」
製造企業活動の源泉である技術者の創造性、専門性、勤勉性向上の奨励を目的に、パナソニック全社から優れた技術開発の栄誉をたたえるパナソニック技術賞。独創的・革新的・発展的な技術に基づき、他社を凌駕する有力な知的財産権を確立した業績を上げた 個人を表彰する発明賞には高音質化に向けた雑音抑圧技術の発明をテーマに杠さんが選ばれました
走行中の車内でも快適な通話を――。現在、当たり前になっている乗用車のハンズフリー通話機能は、走行中の雑音が響く車内で人の声を聞き分ける高音質化技術の進化のたまもの。会話音声よりも大音量の雑音を取り除く、困難なミッションに挑んだのはパナソニック ホールディングス テクノロジー本部の杠慎一さん。先行研究で解き明かされていた方式は理想とかけ離れ、これまでビデオカメラや補聴器などを開発してきた音声のプロフェッショナルをもってしても、雑音の抑圧性能向上は難題。試行錯誤の末にたどり着いたのは、全く新しい音声推定モデル。リアルタイムで高精度の音声抽出、他社を圧倒的に上回る高音質化でハンズフリー通話の基礎技術を築いた杠さんに、開発までの道のりを聞きました。
2023年02月
プロフィール
-
杠 慎一
パナソニック ホールディングス株式会社
テクノロジー本部 デジタル・AI技術センター
目次
高音質化の達成が難しい車内空間
ハンズフリー通話に欠かせない雑音抑圧技術。発明に至る経緯を教えてください。
パナソニックで開発・販売しているビデオ会議システム「HDコム」の開発メンバーとして、雑音抑圧をはじめとする高音質化に取り組んでいました。2013~14年ごろから、培った高音質化技術を車内のハンズフリー通話技術に展開できないかと、雑音抑圧技術の開発がスタートしました。
高速道路を走行中の車内の雑音レベルは85dBにも達し、一般的な発話の大きさである70dBと比較すると体感的には5倍以上大きな音です。音声よりも雑音のほうが大きいため、雑音を取り除かなければ、音声が不明瞭で会話が成り立ちません。雑音抑圧技術はハンズフリー通話を実現する上では不可欠な技術です。
雑音の周波数を分析して、特定の周波数の音を抑圧するのが雑音抑圧技術の基本的な仕組みですが、過剰に抑圧の度合いを高くすると、聴きたい音声までも抑圧することになり、音質が低下し、鼻声のような声になって相手に伝達されてしまいます。一方で音質の低下をさけて、抑圧の度合いを低くすると、雑音が除去し切れず聞き取りづらくなってしまいます。雑音は抑圧する一方で音声の品質は損なわない、相反する要求をクリアせねばならない難しい開発になりました。
雑音抑圧技術の骨子は?
雑音のパワースペクトルの平均値を算出し、減算することで雑音を抑圧するのが従来の方式です。しかし、車内での雑音は一定でなく走行時の環境により変動するため、単純な平均値に収まらない瞬間があります。音量や周波数が一定でない雑音に対応するには単なる平均値にとどまらない、リアルタイムで柔軟に変化する音声モデルの算出が絶対条件。絶えずランダムに変化する音声・雑音を高い精度で推定するには、平均のみならず分散やそのほかの統計量を用いた確率モデルを構築する必要がありました。雑音抑圧の精度を上げた高音質化の達成は、いかに音声を実態に近づけてモデル化して、雑音抑圧を定式化できるかにかかっていました。
揺らぎのある雑音を取り除く計算式
どのように開発を進めましたか?
これまで使用してきた一般的な音声モデルの計算式を車内に適用すると、音質が大きく劣化していました。
これまでの音声モデルは、音声を画一的なモデルでしか表現できず、リアルタイムに変化する音声を表現できません(図1)。そのため音声が過剰に抑圧されて、音質が著しく低下していました。
「一般的に音声はこういう波形として表現される。だから、それ以外は全て雑音になる」という画一的なアプローチではなく、「今、この瞬間、音声はこの波形なのでそれに合わせると雑音はこう」という柔軟な対応性を持った計算式が必要になるのです。
最終的にはどのようにして計算式を作り上げましたか?
先行文献を読み込み、計算式の一つ一つの要素を読み解いていって、その意図を分析していきました。計算式で表現したいのは、実際の音声信号なので、そこに近づけられる方法を考え続けました。最終的には、さまざまなパターンにリアルタイムで対応できるよう、複数の確率モデルを組み合わせました。リアルタイムに音声モデルを変化させる計算式により、正確に音声の推定が可能になり、より効果的な雑音抑圧を達成。他社との比較でも性能差異が明確になり、業界トップクラスの音声品質を実現しています。
MY WORKPLACE
パナソニック ホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター ヒューマンテックソリューション部(大阪府守口市)
私が所属しているヒューマンテックソリューション部2課は、主に三つのプロジェクトを進めています。一つが雑音抑圧も含めたインテリジェント音声インターフェース。あとは会話分析システム、パーソナライズド音声対話です。
会話分析システムは、テキストを使用して話題の推移などを分析します。例えば、営業のベテランと新人では会話の進め方にどういった違いがあるのかを分析して、どう話せば営業成績向上につながるのかといった高位平準化を目指しています。
パーソナライズド音声対話は、さらに発展させたもので、リアルタイムで対話をしながら、いかにお客様から情報を引き出すか、引き出した情報からどのような商品や提案を行えばよいのかを分析するシステムを想定しています。
その根幹がインテリジェント音声インターフェースで、音声を抽出するだけでなく、誰が発言したのかまで認識します。2人が同時に話していてもきちんと区別して認識できる技術の開発を進めています。車載だけでなく、さらに雑音が大きな環境下での音声認識やロボットへの搭載、雑音の中から特定の音を認識することで製造機械の検査を行うなど、技術が活用できる範囲は広く、どんどん開発を進めていきたいと考えています。
広い視野を持ち、多彩な技術を組み合わせる
これまでを振り返り、一番の転機は?
今回の開発に関して言えば、ハンズフリー通話での高音質化には、雑音抑圧技術だけでなく、車内で反響する通話相手の声に起因するエコーの抑制技術や、複数のアレイマイクに指向性を持たせて発話者の声を拾う適応ビームフォーマ技術などが欠かせません。全ての技術が確立して初めて、総合的な音質向上につながりました。それぞれの技術が単独で存在しているわけでなく、エコー抑制が働くから、雑音がしっかりと抑圧できるようになるなど、組み合わせることによって、商品化に至りました。車載用の製品以外にも展開が進んでおり、当社全体でのブランド力向上に貢献できたと考えています。
技術者として大切にしている心構えは?
手を動かすことです。机上の検討だけで終わらせず、自分の考えたものを動く「モノ」として捉えて、実際に試してみる。試した上で結果を分析して、なぜこういう結果になったのか、関係性を常に明らかにしていきます。頭で考えた結果と実際の結果とが異なる場面はよくあって、想定していない波形が導き出されたりもします。分析して、修正して、また試す。その繰り返しです。
未来の技術者へのメッセージをお願いします。
仕事上たくさん数式を扱いますが、その意味するところ、本質を理解するのが大事だと思っています。理解していなくてもツールとして使えてしまうのですが、応用が利かず自分で修正ができません。特に実装の段階では、アルゴリズムを簡素化して処理を軽くしないと使えない場面が多いので、同じ処理結果を出すにはどこを削るのか、常に判断していく必要があります。数式に限らず、目の前の現象を分解して、求められている本質を分析し、理解してこそ突破口が見つかると思います。
研究開発を進めていると、諦めたくなる難題に直面することもあります。自分一人で仕事をしているのではなく、周りにたくさん知見を持った人がいるので、相談・連携しながら解決策を見つけていってほしいです。今はGitHub*などのプラットフォームでAIなどはどんどん公開されていて、音声の専門家でなくても活躍しやすく、開発スピードが加速しています。若い技術者は新しい開発インフラを積極的に活用するチャンネルを持っていますし、これからの時代に欠かせない資質だと思います。どんどん高い水準の技術を完成させてもらいたいと期待しています。
*GitHub:開発プロジェクトのソースコードを管理できるWEBサービス。ソフトウェア開発のプラットフォームとして世界中で活用されている。
*所属・内容等は取材当時のものです。