【IoT用語集】音声認識とは?

IoT用語集】音声認識

はじめに

音声認識とは、人間の声をPCに認識させ、音声を文字に変換する機能のことです。キーボード・マウスなどの入力に代わる、文字入力方法の一つです。

iPhoneのSiri、Amazonのアレクサ、Google Nowなどは、音声認識を利用したアプリやサービスで厳密には音声認識そのものではありません。主な音声認識ソフトは、NUANCE(ニュアンス)のドラゴンスピーチ、アドバンスト・メディアのAmiVoiceなどがあります。

音声認識の仕組み

音声認識の仕組みは、以下の手順を経て音声から文字へ変換されます。

  1. 音声を入力する
  2. 音声から音素を特定する
  3. 音素をあらかじめ登録されている単語の辞書と比較を行う
  4. 辞書からマッチングした単語を、文字に変換して出力

音素とは、音の最小構成単位です。日本語の場合は「あいうえお」の母音と、母音以外の子音が音素となります。

例えば、「こんにちは」という音声の音素は、「k、o、n、n、i、c、h、i、w、a」が音素になります。この音素のパターンとあらかじめ登録されている辞書の単語と比較し、マッチした単語が文字として出力されます。

音声認識の歴史

音声認識の歴史は、1971年にアメリカ国防高等研究計画局(DARPA)が音声認識プロジェクトとして取り掛かったのが最初だと言われています。

70〜80年代には、まだ音声認識は研究段階でしたが、1990年代に徐々に音声認識のソフトが登場し始めました。1994年にNUANCEのドラゴンスピーチ、IBM のViaVoiceが誕生し、音声認識が大衆化し始めたのは2011年にiPhoneがSiriを搭載したのがきっかけです。

スマホの大衆化と音声認識の精度が飛躍的に上がったおかげでスマホにて普通にキーボードで文字を入力するよりも、音声入力で文字を入力するほうが速く入力できるようになってきました。

音声認識の精度はどうなのか?

1990年代までは音声認識の精度が良くなく、正しく発音しないと認識しないことも多く、とてもキーボードでの入力代わりにはなりませんでしたが、2010年代の近年では飛躍的に音声認識の精度が上がっています。

特にMicrosoftとGoogleが音声認識の認識率向上に力を入れており、Microsoftの音声認識精度は人と同等レベルと言われ、Googleの音声認識は単語を読み取れなかったエラー率が4.9%までに減っています。人間のエラー率が5.9%と言われ、Googleの音声認識の精度は人間よりも高いと言えそうです。

ただ、音声認識の精度は上がりましたが、辞書に登録されていない固有名詞、専門用語などの単語は、認識されないことが多いです。

その対策のため辞書登録などの機能を備え、固有名詞の認識率を上げている音声認識ソフトもあります。

音声認識を利用して開発するには?

音声認識の技術は、ただアプリで利用するだけではなく、自分が開発しているアプリなどに組み込むことができます。

音声認識を利用したアプリを開発するには、音声認識API(Application Programming Interface)を使用する必要があります。

音声認識APIは、いくつかの企業が提供しており、以下にいくつかの音声認識APIを紹介します。

〇 NUANCE Developers
https://developer.nuance.com/public/index.php?task=home

ドラゴンスピーチを開発しているNUANCEが提供している音声認識APIです。Webアプリ、iOS、Android向けに、日本語を含む35言語の音声認識機能を組み込むことができます。

〇 CLOUD SPEECH API – Google Cloud
https://cloud.google.com/speech/

Googleが提供している音声認識APIです。110以上の言語に対応しており、スマホ、タブレット、PCなど幅広い端末向けの開発に利用できます。

〇 Bing Speech API – Microsoft Azure
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech/

Microsoftが提供している音声認識APIです。Windows、Webアプリ、iOS、Android向けに音声認識機能を組み込むことができます。音声からテキストに変換できるとはもちろん、テキストから音声に逆に変換することもできます。

音声認識の今後

スマートフォン、スマート家電の大衆化、AIの進歩などによって音声認識の技術はますます重要になっています。特にAIの進歩が、音声認識の認識率向上に重要になってきます。

Microsoft、Google、Amazon、IBM中国の百度(バイドゥ)などの企業が、音声認識システムの開発に力を入れています。

音声認識は先で述べた通り、専門用語や固有名詞は辞書に登録されていないため認識されないという問題がありました。

しかし、GoogleやAmazonは携帯端末などの膨大な会話の中から、AIが言語を学習できるようになっていると述べています。AIが言語を学習していけるようになれば、音声認識の認識率が飛躍的に上がり、将来は人間に口頭で指示をするように機械に指示を出すことができるだろうと予測されています。

まとめ

音声認識とは、人間の声を文字に変換する技術です。以前は、音声認識の認識率が低く、音声認識の機能は大衆化していなかったのですが、2010年代のiPhone Siriの誕生以来、スマホで音声認識の大衆化が急速に進みました。

AI技術の発展が、音声認識技術の発展も促し、未来はキーボード、マウスに代わる、文字入力方法になる可能性があります。