【IoT用語集】音声合成とは?

【IoT用語集】音声合成とは? – 記事

はじめに

音声合成(英 Speech Synthesis)は、音声を人工的に合成することです。テキスト自動読み上げシステム・音声アシスタントに使われる技術です。
一方、コンピューターやシステムで、音声合成の実行ができる機器のことをSpeech Synthesizer(スピーチシンセサイザー)と呼びます。

音声合成の歴史

音声合成の歴史は下記のように4つの時代に分けることができます。

1.音声合成の方法 アナログ合成の時代
音声合成は歴史をさかのぼると、物理的にふいご原理を使い、音声に似た音を出すことを始めたのが起源とされています。歴史上確認されている最初の音声合成は、10世紀までさかのぼることができます。
また、楽器の歴史においては、古代の西アフリカ地域のパーカッションの中に人の声を再現するためのものが見られるとのことです。
人の母音の発出から子音も発出できるようにされたのが18世紀です。その後、西欧のリード楽器と同様の仕組みである振動を利用した機械式の音声合成機は、20世紀になるまでの長きにわたり利用されました。

2.音声合成の方法 大型コンピューターによる音声合成の登場
コンピューター式音声合成が発明されたのは1950年代です。ベル研究所は、かねてから機械式の音声合成の研究を行っていました。1930年代から、コンピューターによる音声合成の研究に着手したといわれています。音声合成の成功には長い時間を要し、やっと、1962年になって、IBM704を利用した音声合成を成し遂げました。
1965年に制作(封切りは1968年)された2001年宇宙の旅では、HAL9000が歌を歌うクライマックスシーンがありますが、これは、原作者アーサー・C・クラークIBM704の歌う「デイジー・ベル」に着想を得たとされています。

3.音声合成 PCの登場とオペレーティングシステムの機能としての音声合成
メインフレームからPCを中心とするオープンシステムにコンピューターの主流が移っていくに従い、音声合成はOSの機能として採用されるようになりました。例えば、アップルコンピュータでは、1984年にMackintoshの機能として音声合成を追加しています。また、これらの機能は、視覚障がい者向けサポートプログラムに発展し、例えば、PlainTalk(アップル)SAPI(マイクロソフト)によるサポート機能がOSの一部として提供されました。

4.AI登場後の音声合成
AIは、発声を人間からディープラーニングで学び、より自然な発話に近い音声を再現することに成功しています。たとえばDeepMindの音声生成モデルWindNetがその例で、Googleのクラウドテキスト読み上げAPI Cloud Text-to Speechは。DeepMindおよびWindNet と連携しています(英語版)。

音声合成の技術

音声合成の技術は主要な2種の合成方法とその他の方法に分かれています。

1.波形接続型音声合成
音声を音節・単語・分野別の用語などに区切り、これをつなげることにより、音声を合成する方法です。人間の音声を録音し、再生することが基本的な仕組みになっています。現在まで、各言語で単語等のユニットごとに音を対応させる形の音声合成が実施されています。
波形接続型音声合成は、人間の音声により近い音声合成技術であるとの評価がなされている一方で、ユニットごとの「区切り」=音の欠損を克服して、音声の空白を埋めることが技術的課題とされています。Text-to-Speechは、文字情報と音声の対応関係を再現する仕組みですので、波形接続型音声合成技術が向いているといえます。

2.フォルマント合成
フォルマント合成は、人間の音声の録音データに依存しない形の音声合成です。音声が占める周波数や音階を分析したデータから、人間の声らしい音声を合成します。波形接続型音声合成ほどに人間の声に近くはありませんが、音の欠損がない点で優れています。実用例であるゲーム音声や、ボーカロイドの人工音声は、このように音の欠損がない点を活かしています。

3.その他の音声合成
波形接続型音声合成と、フォルマント合成のハイブリッド合成技術の研究も進められています。また、人間の発声構造そのものに着目しての研究成果を利用したgnuspeechのような音声APIも登場しています。

音声合成の用途・応用例

  • 視覚障がい者のための音声アシスタント
    PCのオペレーティングシステムには、視覚障がい者用の読み上げシステムが標準装備されていること、前述の通りです。
  • コミュニケーションロボット Pepperなど
    コミュニケーションロボットが発する音声は、音声合成技術によるものです。接客・案内に関して、利用例が多くなっています。東京オリンピックに対応する多言語コミュニケーションロボットの普及が待たれているところです。
  • 交通機関アナウンス
    バス、電車の案内音声も、音声合成ソフトウエアの普及で人間の声を使わないものが登場してきています。
  • IVR自動音声ガイダンス
    コールセンター・サポートセンターではすでに音声合成により作られた音声によるガイダンスが普及しています。宅配便・郵便の再配達などでもおなじみです。こちらも多言語対応が現在の課題となっています。

まとめ

音声合成の技術は、デジタル化以前を含めて考えると非常に長い歴史があります。音声を機械に出させる技術の本質は、2類型におおむね集約できますが、新しい技術の可能性も模索され、よりクオリティの高い音声合成が実施できるようにしていくことも課題です。

少子高齢化による人手不足・障がい者の働く場におけるインクルージョンなど、社会的課題に対して有効な手立てであることから、今後の発展が注目される技術分野です。