マルチメディア推進フォーラムでの音声UI/UXに関する発表と質疑応答補足

マルチメディア推進フォーラムでの音声UI/UXに関する発表と質疑応答補足

マルチメディア推進フォーラム(PART770)「スマートスピーカーが牽引するか?『スマートホーム』最新事情」~その日本での普及の可能性とビジネスチャンスを探る~ に登壇しました。

私(河野)の発表内容は、

「音声インターフェースに未来はあるのか?」 ~ 音声UIの真実を解き明かす~

スマートホームに関する話が中心ではありますが、スマートスピーカー、そしてそのスマートスピーカーに必須の音声UI(VoiceUI)とAI(エージェント)との対話ついてを、UXデザインの観点から語りました。音声UIのメリットやデメリット、そこに隠された体験的な「不自然」と人間の対話の「自然さ」などから、『なぜ音声UXデザインが必要なのか?』をメッセージとして込めて発表しましたが、聴いて頂いた方、分かりましたでしょうか?

基本的には、7月に発売した拙書「音声に未来はあるか?」の中からポイントをざっくり抜き出しつつ、ケーススタディを交えて説明しました。

せっかくなので、ここでは当日に出た質疑応答とその補足を致します。

ウェイクワード(マジックワード)は無くすことはできないか?

ウェイクワード、やはり面倒なお作法ではあるので色々な手法で無くそうという努力はされています。

音声認識だけではなく他のセンシング技術など組み合わせた方法(センサフュージョン)などが可能性として考えられます。人は対話のきっかけや割り込みのチャンスを色々な方法で伺い、予兆を出しています。これをターンテイキング(話者交替)といいますが、様々な解析と推測方法の研究が行われています。例えば、人が話しを始める時や声かける時には、その人の方を向いて話し始める傾向があります。この場合は、顔の向きや視線なんかをカメラで認識していきます。

NTTでは、誰がいつ発話するかの推測(ターンテイキングの推測)の技術研究の発表を近年行っていますが、深呼吸なども視線に加えて推測要素にいれていて非常に興味深い内容でした。

Google は音声話者識別にカメラを使って同時に話しをしてもちゃんと話者と内容を区別できる発表(Audio-Visual Speech Separation)を2018年4月に行いましたが、これもカメラを使って顔や話者を識別、口の動きなども使っています。

これら以外に単純に指や手によるジェスチャで「これから話をしますよ!」と合図してもよいでしょう。最近は手の認識などもわりとリーズナブルにできる時代です。ただしこの方法は、システムと対峙してなくても(システムのほうを向いてなくても、場合によってはシステムが見えない位置からでも)使えるというメリットを殺してしまうことにはなります。それでもウェイクワードを都度いうのは面倒というのであれば使える方法です。

最後に邪道といわれるかもしれませんが、素直に「音声入力開始ボタン」をつくって押すことです。車やテレビの音声UIなどはまさにこの方法です。実は PlayStation4 の音声UI も『PlayStation!』とウェイクワードを発話しなくてもボタンで音声UIを起動できます(探してみてください)。

このように色々な手法でマジックワードなしで音声を認識する技術は模索されていますが、確実に、かつ、リーズナブルに実現できるマジックワードとボタンは今後もしばらくは利用されるのではないかと思っています。

コンテキストの保持はどうしてできないのか?

DOCOMOの雑談対話API(Repl-AI) では、”context” フラグがあり、これを ON にしておけばコンテキストの保持をした雑談が可能になっています。各社対話エンジンの中である程度の関係性保持をしながら、次発話の生成をする技術は研究開発を行っているので、Google Home にしろアレクサにしろバージョンアップで対応してくる可能性は多いにあると思います。やり方はそれぞれ色んな手法が提案されているので、「コンテキストの保持は既にできるようになってきた」が回答になります。

寧ろ私が懸念しているのは、

「では、いつまで、どう、コンテキストをひっぱるべきか?」

です。

実際にRepl-AIにしろ最近流行りの対話bot(雑談bot) でテストするといつまでもコンテキストをひっぱってしまって、ユーザーが違う話題をふっても引きずる現象が見られます。実際、人間同士でもその会話内容に一端のっかりつつも、また元にもどそうとする時もあれば、その流れでどんどん話が伸びて発散していく(コンテキストは一度リセットされる)場合もあります。どちらが良いかは、人によって、内容によって、シチュエーションによって、話のスタイルによっても異なります。

今まではコンテキスト保持ができなかったので技術評価として「コンテキストがちゃんと保持できる」が正しい進化と捉えられていますが、これからは「いつまで、どう保持するか、いつ再セットするか」といったことまで踏み込む必要がありますが、これを評価するには、そもそも「対話ができる」「雑談できる」とは何か、その評価軸の定義までも考えないといけません。

フィラー(言い淀み)やあいづちはどういれていくべきか?

日本語のあいづち(ああ、なるほど、へぇ、すごい!等)にしろ、間埋めの言葉(あー、なんか、えーと、あと、んー等)にしろ、それぞれ利用用途なり分類がされています。もちろん諸説あり細かい分類みていくと違いは分析者によって若干異なりますが、それでも、ある程度の前後の意味意図で選ばれている事には間違いないようです。

ユーザー:『明日の予定は?』

エージェント:『なるほど!明日の予定は一件あります!』

ユーザー:『明日の予定は?』

エージェント:『ふんふん!へぇ...明日の予定は一件あります!』

これは極端な例ではありますが、『なるほど』は語彙的応答の相槌といわれますし、『へぇ』は感情表出型の感動詞ですが、上記のセリフに違和感を感じませんか?ランダムにプログラムで挿入したフィラーや相槌は、人間っぽくなると思われがちですが、意外と人は不自然さには敏感に反応し違和感を感じてしまいます。特に、エージェント(ロボット)側の声が自然な声になればなるほど、その不自然さに敏感に感じるのです(音声合成の精度向上による新たな問題なのですが、これは別の機会に説明します)。

つまり、人の自然な対話に登場する「フィラー(言い淀み)」「あいづち」などを単純に機械的に挿入するとむしろ不自然になってしまいがちで、ちゃんと意図した状況で選択していれないと寧ろ逆効果になってしまう可能性があると個人的には感じています。これは、間(ま)も同じです。

まとめ

今回、発表させて頂き、その後何人かの方から感想を頂きましたが、非常に多種多様な業界の方々がスマートスピーカーやAIとの音声対話について期待と不安を感じている事が分かりました。

もし、発表を残念ながら聞けなかったという方や企業様いましたら、訪問講演などもしておりますのでご相談のりますのでお気軽にお問い合わせください。