iPhoneのSiriやGoogleの音声検索など、コンピュータに話しかけたり、逆にコンピュータが音声で回答したりする仕組みが増えてきましたね。でも、コンピュータの声っていったいどんなふうに作られているのかしら。
今朝はコンピュータと会話型のやりとりをするための『音声合成』と『音声認識』について解説してみましょう。
コンピュータの声をつくる「音声合成」
まず、コンピュータが音声を発する仕組みが『音声合成』です。音声合成の仕組みには何通りかありますが、大きく分けると2通り。
人間が話した言葉を録音しておいて、それを単語ごとや音、文節で区切って合成する『波形接続型音声合成』
→鉄道の駅アナウンス(駅自動放送)などでよく使われています
まったく人間の声を使わずに電子音で音声をつくる『フォルマント合成(合成音声)』
→どうしても「ロボット風」に聞こえることが多いとされていますが、録音された音声のデータがいらないので、プログラムのデータ量を小さくできます
ユーザー側ではあまり意識しなくてもOKですが、iPhoneのSiriや、初音ミクに代表されるボーカロイドなどの音声は、こうして人間に理解できる発声になっているんですね。
「音声合成」と「音声認識」で会話っぽくなっている
一方で、コンピュータが人間の話し言葉を理解する仕組みのことを『音声認識』といいます。はっきりと発音しないとうまく認識してくれないこともありますが、「Siri」や「Google音声検索(OK Google)」では認識精度がかなり上がってきていますね。
コンピュータとの音声でのやりとりには、コンピュータが発声する「音声合成」と、人間の言葉を理解する「音声認識」の両方が必要ということなのですね。
今朝のまとめ
今朝の話題をまとめると、
・コンピュータの声には、録音した人間の声をもとにしたものと、完全に電子音からつくるものがある
・コンピュータの声「音声合成」と、人間の言葉を理解する「音声認識」で、会話のようにやりとりをすることができる
ということなのですね。きっと将来的には、より自然に話しかけるような感覚でスマホやいろんな機器を操作するようになりそうです。
それでは今日も一日、スマートに! いってらっしゃい!
ナビゲーター: 片瀬成美(notall)[公式プロフィール/Twitter]
Photo by Thinkstock/Getty Images