NTTドコモの中高年向け携帯電話「らくらくホンIV」に、今年8月、音声による検索機能が加わった。音声認識技術は今後どう利用され、どのようなビジネスを可能にするのか。アドバンスト・メディア社長の鈴木清幸氏に聞いた。
駅名を話すだけで、経路や時間を表示鈴木 携帯電話に音声認識システムが搭載されたというのは、非常に意味があります。機械本位から、人間本位の姿に近づいたからです。
パソコンで路線検索をするには、キーボードとマウスの使い方を学習し、習得する必要があります。でも、携帯電話のような小さい端末には、もっと簡単な操作が向いている。音声による自然なコミュニケーションで動作させる技術が必要だと思いました。今回採用された認識システムでなら、電話のマイクに向かって駅名を話すだけで、画面に経路や所要時間などが表示されます。
鈴木 実は、音声認識には40年もの歴史があります。しかし、ずっと人間本位ではない姿が続いていました。しゃべるスピードは一定にしなくてはならないし、抑揚も事前に機械に登録し実際もその通りに話さなくてはならない。歴史があっても、どの国でもビジネスにならなかったのは、このためです。
我々の開発した「AmiVoice(アミボイス)」の特徴は、しゃべった言葉を機械の側で受け止めて動作するところ。話し手のアクセントやスピードが変わっても、秋田弁でも、小声でも、しゃべった言葉を機械の側で分析します。現在、医師の使う電子カルテや市議会の議事録作成システムなどに利用されています。たとえば、カルテに「気管支拡張症が疑われます」と記入したければ、そう話せばよいだけです。
鈴木 電子カルテなら、医師の使う言葉に領域を特化する、という具合に専用の「辞書」を用意したからです。これで認識の精度がぐっと上がりました。
いろいろな領域で、その領域に特化した「辞書」を作り、機械側が正しく分析し受け止められるシステムがあれば、話し手がだれであろうと、音声が認識されます。辞書は自分で作ってもいいし、業者が作ってもいい。あるいは外国のだれかがどこかで作ってもよい。こういうところに雇用も生まれてくるのではないでしょうか。そうなれば、携帯翻訳機のように、言葉の違う同士でもコミュニケーションができるようになると思います。