マイクで収音したプラレールの音で予測した画像を作成

写真拡大

 NTTは31日、NTT京阪奈ビル(京都府精華町)で最新の研究開発成果を一般公開する「オープンハウス2018」を開いた。騒がしい環境下でも声の特徴に基づいて特定の声のみを抽出する技術、マイクで収音した音から物体の種類や形状を予測する技術などNTTグループの人工知能(AI)技術群「コレボ」を用いた29件の研究成果を展示した。AIを使った新サービスにもつながりそうだ。

 「テレビの音声や子どもの泣き声に邪魔されてうまく反応しないAIスピーカー」―。現在の音声認識技術では特定人物の声に注目してその声だけを聞き取ることが難しい。だが、NTTコミュニケーション科学基礎研究所の音響処理技術「スピーカービーム」を用いれば、雑音下でも特定人物だけに反応するAIスピーカー、雑音に邪魔されずに会話を続けられるロボットを構築できる。

 同技術は特定したい人物の声だけを事前に10秒程度登録。その音声の特徴を抽出することで人間の脳を模した機械学習モデル「ニューラルネットワーク」の処理を制御し、特定人物だけの音声を取り出せる。2人の声が混ざった音声から目的の音声だけを抽出する認識率は従来技術で約20%だったが、同技術を用いれば80%超になったという。

 AIで音を分析する新技術はまだある。マイクで収音した音だけを使って、まるで画像認識したかのように「どこにどんな物体があるのか」を推定できる技術だ。収音した音の特徴から空間にある物体の種類や位置を予測する深層学習モデルを構築した。さまざまな音響の特徴を分析・統合して予測画像を生成処理できるようにした。

 同技術を用いればトイレや浴室、暗室などカメラで写したくない(写らない)空間の様子も分かりやすくリアルタイムに確認できるようになる。プライバシー性の高い空間の見守りや防犯への活用を見込む。