音声ユーザーインターフェースの理想と現実

音声ユーザーインターフェースの理想と現実

サイネージの話がつづいたので、今回はUI (ユーザーインターフェース) ・UXについて書きます。

弊社では、サイネージだけでなくNUI (Natural User Interface:ナチュラルユーザーインターフェース) を使ったインタラクションデザインの開発を得意としています。NUI とは、人間ににより自然で直感的なインターフェースで、身近なところだとタッチパネルの操作などがあげられます。近年では、Microsoft の Kinect に代表されるセンサによってジェスチャ操作や Apple iPhone に搭載されている Siri のような音声認識に代表される音声UIなどもNUIの一つです。

ユーザーインターフェースの歴史では、かつでコマンドレベルで命令していたCUI(キャラクターユーザーインターフェース)からマウスなどをつかって直接オブジェクトを操作するGUI(グラフィカルインターフェース)、そして続くのがNUIです。

IMG_2557
さて今回はNUIの中に属する音声UIについて取り上げます。
かなり昔から音声UIの開発は行われており、その要となる技術は音声認識です。音声UIは割と身近で体験できます。カーナビや Google 検索です。最近のカーナビは「自宅」というと帰路をルート検索してくれます。

iPhone には、有名な音声アシスト機能(エージェント)「Siri」が搭載されています。電話をかけたり「9時に会議を設定」というようなスケジュール登録を音声で行う事が出来ます。また最近は、家電も声で反応するエージェント家電といわれるものも増えてきました。Google Now や Microsoft のロボット Pepper なども音声認識によるエージェント(支援)機能が搭載されていますね。

 

このようにSF映画の世界のような未来体験(UX)ができる音声UIですが…ちょっとまった!!実際はそんな夢のような世界ではありませんよ。

音声認識エンジンは日々進化しています。まだまだ我々が想像する以上に認識率は低いのが現状です。例えば、「4月8日に美容院」と話しかけてみてください。Siri でも Google 音声検索でも構いません。「7月8日病院」「4月4日美容院」などなかなか一発で正しく認識できない事が多いです。Google や Siri に「イタ飯」というと「伊丹市」と訳されることがおおいのはなぜでしょうか?

方言や流行語など知らないと同じ日本人ですら理解できないのですから音声会話認識というのは非常に難しいのです。

音声UIは、非常に多くの技術の集約で成り立っています。
まずは集音技術。マイクの性能ももちろんですが、雑音下でノイズを除去して必要な音声だけを抜き出す技術。どこから音声なのか、どこまで音声なのかを適切に判断が必要です。音声は人によって大きさもまちまちですから、それを補正する技術。途中から別の声が入って来た場合に分離も必要です。こうした処理を経てようやく音声認識エンジンに音声波形を入力してはじめてそれがどんな言葉だったかが推測します。書き始めるとキリがないのでこの辺でやめときます…

さて話を戻すと、現状の音声認識エンジンの精度は残念ながら100%ではありません。ある程度言葉を限定しても認識100%は現状難しいのです。周りが静かで適切な音量で滑舌良くしっかり発話しても9割、一般的な利用環境を考えるとぐんと悪化します。スマートフォンやヘッドセットなどマイクと口が非常に近い場合は、非常に認識率は向上します。しかし、口とマイクの距離が離れている場合、たとえば 1mとか、急激に精度は下がります。非近接環境下での音声認識は非常に難しいのです。

メーカー、ビジネスオーナーやエンジニアとしては、この音声UIに対して

  • 音声エージェント搭載したので「簡単」「楽しく」「スマート」に操作できます
  • タッチ/ジェスチャ操作の次は「音声だけで」が次世代です
  • ロボットと会話できますよ、ほら話しかけて!何か言って!

という理想/妄想をついつい描いてしまいますが、実際は、音声UI怒り

  • 「なんで認識しないんだよ」(# ゚Д゚)凸
  • 「何言っていいかわからねーよ」
  • 「機械に話すのってきもい」
  • 「声だすほうが面倒」
  • 「返事が変」「楽しくない」

など不満が多くて使われないのです。「SiriやGoogle Nowをつかっていますか?」というアンケートで9割が使っていないという結果もでています。

150831-0002

音声は古代太古の時代から人間が利用してきた高次元なインターフェースです。それゆえ期待が大きく、認識ミスは非常に落胆します。「朝9時に起して」という言葉を2度3度言っても誤認識で入力できなかったことを考えてみてください。恐らく次からは確実なタッチパッドで入力します。その方が簡単で確実だからです。これでは本末転倒です。

音声UIは、タッチやジェスチャ以上に文化や人に依存するコミュニケーションツールであることを忘れてはいけません。
そして、音声UIを利用するのであれば、インタラクションデザインやUXデザインをしっかり考えないと「使えない」「不便」というレッテルを貼られてしまいます。

じゃあどうしたらいいのか。

UXを考えて適材適所、音声のほうが便利なところとそうでないところをちゃんと考えるべきです。音声コミュニケーションとは一体何か、から考える必要があります。今までのGUIやタッチパッドの延長で考えてはいけません。

弊社ではまだまだ未完成な音声UIをいかに有効に使うかを日々研究しております。音声認識エンジンの開発は自社でできなくても、音声インタラクションデザインや音声UXはどうあるべきかを考え、いくつかはクライアント様に提案/提供してきました。

大事なのは人間とのやりとりの部分。このタッチポイントをどう設計(デザイン)するかが、インタラクションデザインです。音声インタラクションデザインについて専門的にやっているところはほとんどありません。前職(S社)では、唯一私のチームが音声インタラクションデザインを研究開発していました。

もし、音声UI/UXをつかった製品/サービスなどをお考えの方はご相談ください。デジタルサイネージ、スマートフォンアプリ、家電などなど。お役に立てるはずです。