ケータイ、スマホの声は誰の声? いま聞いているのは本人の生声じゃない

写真拡大

ケータイやスマホから聞こえる声は、「本人の声」ではないって、話を知っているだろうか? 

じゃあいったい誰の声なのかというと、実はこれ「合成音」なのだ。

話し相手、本人の声で会話していると思っていたら大間違い。
スマホやケータイで耳にしている声は、人工的に作られた話し相手に似た音なのである。

●本物の声はデータ量が半端ない?
ケータイやスマホは、通話音声をデジタル化して、モバイル回線で送信している。

普通に音声などを忠実にデジタル化すると、アナログ音源を高音質でデジタル録音したPCM音源など、そのデータ量はとても大きくなる。

これでは、とてもモバイル通信では利用できない。

今や、ケータイやスマホで通話をするのは当たり前の時代だ。
最近は、高速化などモバイル通信は安定しているが、大災害や大事故、巨大イベントなど、一時的に大きな通信負荷が発生すれば、回線が繋がりにくくなる可能性はある。



モバイル通信では、通信速度の高速化も必要だが、送るデータ量を小さくすることも、安定した通信には大事なことだったのだ。
もちろん、通話データを大きく圧縮して小さくする方法もある。しかし、データ量を少なくし過ぎると、通話の音質も悪くなり、聞き取りにくい通話になってしまう。

そのために、音質を下げずに、データ量を小さくできる技術が求められたのである。

●人の声に合わせた符号化方式という技術
そこで米AT&TのBishnu Atal氏などが開発した「CELP」という音声をデジタル信号化するための符号化方式が使われている。
この「CELP」をベースに、NTTドコモや KDDI auなどは、を改良、発展させた技術で、小さいデータ量で高温式な通話を実現している。

大元となるCELPとは、人間が認識できる、すべて音の中から、人間の「声」だけに着目して考案された技術だ。

CELPの理屈は、簡単に言えば、
まず、音声を「声の特徴」と「音韻情報」に分ける。
そして、この「音韻情報」だけをデータ化するのだ。

一方の「声の特徴」については、コードブックという音の辞書から似たものを選び、その登録されている番号を「音韻情報」のデータと一緒に送る。

受け手側では、この情報を元に、「音韻情報」のデータと、コードブックで指定された番号の音から、相手の声を合成して再生するというわけである。

●本人の生声ではないけどわからない? 不思議とフクザツさ
合成音というと、ぱっと思い浮かぶのが、カーナビや応答メッセージなどだ。
それらは、あきらかに人工的な声なのだが、ケータイやスマホの音声は、人工的な感じはしない。そのため、多くの人が実際に相手の生声を聞いていると思っている。

しかし、今、聞いているケータイやスマホの声は、似ているけど、生の声ではない。
一種のモノマネだと思うと、なんだかちょっとフクザツだ。

とはいえ、これだけ多くの人が、ケータイやスマホを利用しているのに、ほとんどの人が合成された声だと気づかれない技術というのは、すごいことだ。