var _gaq = _gaq || []; _gaq.push(['_setAccount', 'UA-3502947-1']); _gaq.push(['_trackPageview']); (function() { var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true; ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s); })();

へ戻 る


凄い(゚ O゚)最近の音声認識




 概要



本ホームページの別項 【音声を認 識させてみよう】 で音声認識について説明しましたが、記述が若干古くなりましたので改めて最近の事情について書いてみました。

最近の音声認識の技 術の進歩は目覚しいものがあります。
とくに iPhone の 【 siri 】 と ドコモの 【 しゃべってコンシェル 】  が激しくしのぎを削っています。2つのアプリを搭載したスマートフォンを2台並べて同時にしゃべり、その答えがどうなるかテスト した動画がいくつか YouTube に投稿されています。

また、iPad では 【 Dragon Dictation 】 は認識率がよいとの評判。
さらに、ブラウザ上しか使えませんが Google Chrome の音声認識を使って入力する拡張機能 も高い認識率を誇っています。
これらは全てインターネット回線に接続した環境下でしか使えま せん。

しかしオフラインの環境で、 PC 単体で使える音声認識ソフトも進化し、性能も機能も進歩した音声認識ソフトが出てきました。
例 えば Windows Vista や Windows 7 には Microsoft の 【 Windows 音声認識 】 が標準で搭載されていてかなりの認識率を持っています。
また 【 AmiVoice 】 や 【 Dragon Natural Speaking 】  などで、エンロールといわれる前準備なしで利用でき、使えば使うほど認識率画上がっていきます。
また、変換速度も向上してきました。


 オンライン型


上 で述べたように、最近特にオンライン型の音声認 識を利用したアプリが激しい進化を遂げ、いろいろなものが出てきました。
音声認識してただ単に音声を文字化するだけでなく、さらにそれを 使って検索、翻訳す るものが沢山出てきました。その中のいくつかについて 見てみたいと思い ます。
オンライン型は音声認識、検索、翻訳、音声合成して読上げなどは サーバーで実行され ているため当然 Wi-Fi などを介したインターネット接続の環境下でしか動作しません。

 Google音声検索 (PC上での Google Chrome 拡張機能)


Google Chrome では
Chromeウエブストアから Speak to Search ま たは Voice Search をダウンロードしインストールすると検索文字入力ボックスにマイクのマークが 現れます。このマイクをクリックして「お話ください」というメッセージがでたら、マイクに向かってしゃべると検索文字入力ボックスに認識された文 字列が表 示されます。
認識できなかったときは「やり直し」というメッセージが表示されます。間違えたときは「キャンセル」をクリックします。
ここでの音声 認識 能力はかなりのもので、日本語はもちろん、英語までも認識します。

speak2searchs_1_r
【図 をクリックすると拡大できます。縮小するには右 下の閉じるボタンか外側をクリックすると元の大 きさになります。】

 Fakesiri (PC上での Google Chrome 拡張機能)


まず 【 Fakesiri 】 をみてみましょう。【 Siri 】 は Phone4S で一躍有名になったアプリ。

 【 Fakesiri 】 はそれをもじったもので、「Siri のふりをする」 あるいは 「似非(えせ)Siri 」 または 「擬似 Siri 」 あるいは 「 siri まがい (紛い /擬い) 」 とでも訳すのでしょうか。要するに 【 Siri 】 に似た動作をします。
Chromeウエブストア の Fakesiri からダウンロードしインストールするとツールバーにアイコンができます。
Chrome のツールバーのアイコンをクリックして起動すると新しいウインドウが表示されます。
右下にあるマイクをクリックし、「お話しください」というメッセージが現れたらマイクに向かってしゃべります。

fakesiri_2

右側にいましゃべった音声が吹き出しのなかに文字となって表示されます。
すると左側の吹き出しのなかに返答の英文メッセジが表示され読上げられます。検索の結果がしばらくしてその下に表示されます。

試しにテレビコマーシャルにあるような質問してみました。

fakesiri_1_r fakesiri_3_r

文字列をクリックすると右のように内容が表示されます。

【図をクリックすると拡大できます。
縮小するには右下の閉じるボタンか
外側をクリックすると元の大きさになります。】

【 Siri 】では答えは音声で返しますが、【 Fakesiri 】 では調べた結果を文章で表示します。
音声認識の精度かなり のもので、結果も大体適切なページに誘導してくれます。

 Dragon Dictation (iPhone,iPad  アプリ)


iPhone、 iPad 専用のアプリに 【 Dragon Dictation 】 というアプリがありますが、これがなかなか凄い。しかも無料なのだ。
操作もボタンをタップしたら、しゃべればいい。
音声認識の能力も他のものに比べて遜色はありません。
ここで書き取った文章はすぐにメールとして送信することができます。
ただ、タップ動作が必要なこと、長文を連続的に認識できないのが短所かもしれません。

 Google 翻訳 (PC上での Google Chrome アプリ)


Google Chrome 上で動作するアプリで、「Google翻訳」で検索すれば下のようなウインドウが表示されます。
英語を元の言語に選択するとマイクのアイコンが左下隅に現れ、クリックしてからマイクに向かってしゃべればいい。
翻訳する言語を選択しておけば自動的に翻訳してくれます。
ただし、残念なことに音声認識できるのは英語のみで、日本語入力には対応していません。

google_traqnslate_r
【図をクリックすると拡大できま す。縮 小するには右下の閉じるボタンか外側をクリック すると元の大きさになります。】

 音声認識入力アプリ (iPhone、iPad アプリ)


iPhone、iPad用の音声 翻訳アプリは数多くあります。
--- 音声翻訳---
☆  VoiceTra 翻訳結果を発声
☆  Vocre Free Translator
☆  Speech Recognizer
★  iTranslate 有料
★  iLingo 翻訳ツール 有料
★  Translator 50 有料
--- 音声メール---
☆ 音 声認識メール
--- 音声検索----
☆ 音声検索
などなど。

 オフライン型


上で説明したオンライン型の音声認識はいずれもインターネット回線に接続されている時だけ動作します。
またインターネット回線でデーターがやり取りされるため回線の速度に左右されます。
また応答速度も回線速度によって影響を受けます。認識結果が出るまでに若干待たされることがあります。
いかで説明するオフライン型の音声認識は回線速度の影響を受けず、ただCPUの処理速度だけに依存します。
従いましてオフライン型のアプリはかなりの高速で連続的な音声認識が可能で、オンライン型にくらべて作業効率が高くなりま す。
そのため、大量の文章の入力に向いています。
一方、オンライン型のものではメール送信など比較的短い文章の入力には適していると思われます。

 Windows 7 音声認識 (PC上でのアプリ)


Windows Vistaya Windows 7 にはスタートメニューから 【アクセサリ】 → 【コンピュータの簡単操作】 → 【Windows 音声認識 】 で起動できます。
これで、メモ帳、メール、Wordなどに音声認識機能を使ってで文章を書き込んでいくことができます。
しかも、音声認識能力もかなり高く実用に耐えるものとなっています。変換効率もよく連続的にしゃべっても追従するようです。
また、ウインドウの開く、閉じる、ツールバーの選択、などウインドウの操作が できます。

 Ami Voice / Dragon Natural Speaking (PC上での有料アプリ)


有料の音声認識ソフトウエアとして代表的なものに (1) Ami Voice と (2)  Dragon Natural Speaking がありま す。
昔、昔 IBM の Voice Type Dictation から Via Voice までいくつものバージョンを使ってきましたが、いまや隔世の感があります。
Windows Vista や Windows 7 になって Microsoft Windows 音声認識がほぼ利用できるようになりました。
いまではこれらのアプリケーションが、ほとんど連続的に音声入力してもかなりの速度で、かつ正確に認識変換してくれるようになりました。
これらのアプリケーションはインターネット回線とは無関係でオフラインで使えるため遅い回線に影響されず、高速な認識能力が得られます。
上記2つのソフトはユーザー評価をみると甲乙つけがたいようです。ユーザーの評価はここに詳し く書いてあります。

 MMDAgent (PC上でのフリーソフト)


MMD とは MikuMikuDane を省略したもので、いま大人気の初音ミクなどのキャラクターのダンス動画を生成するアプリケーションです。
Agent はそれらのキャラクターを使って動きながら、音声に対して反応する仮想的な人物のこと。
MMDAgent は音声をインターフェースとして音声入出力をインターラクティブに関連付けるツール群のことです。
一言でいえば音声対話システム構築ツールです。
このシステムは名古屋工業大学国際音声技術研究所で開発されたものです。
このシステムでは音声認識はJulius 、音声合成は Open JTalk、動きは MikuMikuDance を利用し対話システムを構成しています。

mei_r 左がデフォルトの メイちゃん【絵をクリックすると拡大できます】メ イちゃん を初音ミクなどに変更することもできます。
いろいろな質問を問いかければ動作しながら、返答が返ってきます。
例えば、「こんにちは!」と言えば、お辞儀をしながら「こんにちは!」と答えます。
「あなた、誰?」と問いかければ、【私の名前はメイと言います。よろしくおねがいします。」と答えます。
「綺麗!、可愛い」と褒めてあげると、頬を染めながら、「恥ずかしい」、「有難う」と答えます。
メイちゃんは名古屋工業大学の受付嬢ですから、「図書館は?」と尋ねると、地図を出してきて教えてくれます。
「有難う」とお礼をいうと、「どういたしまして。いつでも、話しかけてくださいね。」と答えます。
「ホームページーを開いて!」と頼めば、「MMDAgentのホームページを開きます」と答え、ホームページを開いてく れます。

この MMDAgent をベースとして派生したものに HAS があり、もっと多くの問いかけにも答えてくれます。キャラクターも初音ミクとなります。
例えば、「今日何日?」、「明後日何曜日?」、「明日の天気は?」などの質問にも答えてくれます。また、「踊って」と頼 むとダンスを披露してくれます。

この使い方について簡単に説明します。詳しくは 竹倉蔵本-MMDAgent などを参照して下さい。
(1)  MMDAgent から2つのファイル
MMDAgent version 1.2 (December 25.2011) の Binary Package (for 32-bit Windows)
MMDAgent "Sample Script" version 1.1 (August 3.2011) の Binary Package
を ダウンロードします。
(2) ダウンロードしたファイルを解凍します。2つのフォルダーができます。
(3) MMDAgent_win31-1.2 フォルダーの中の MMDAgemt.mdf を削除します。
(4) MMDagent_Example-1.1 フォルダーの中の4つのファイル名を次にようにリネイムします。 
MMDAgent_Example.dic  →  MMDAgent.dic
MMDAgent_Example.fst  →  MMDagent.fst
MMDAgent_Example.mdf  MMDAgent.mdf
MMDAgent_Example.ojt  →  MMDAgent.ojt
(5)  MMDagent_Example-1.1 フォルダーのすべてを MMDAgent_win31-1.2 フォルダーにコピーします。
(6) MMDAgent_win31-1.2 フォルダーの中の MMDAgent.exe をダブルクリックして起動すると メ イちゃん が現れます。
(7) マウスやキービードで向きを変えたり、音量インジケーターを消したりすることもできます。
(8) キャラクターが現れたら、マイクに向かってしゃべれば答えてくれます。

対話内容は MMDAgent.fst を開いてみればわかります。ファイル名を右クリックし、【編集】を選べば内容が表示されます。
その記述文法は先頭数十行に説明してあります。その規則に従ってテキストを変更、あるいは追加すれば自分なりの対話シス テムを作ることができます。
例えば下の赤字の部分を追加して上書き保存すれば、
「久しぶり!」といったとき、軽く会釈しながら「お久しぶりですね。お元気そ うですね」と明るく答えてくれます。

# 0101-0110 Browsing
1     101  RECOG_EVENT_STOP|ホームページ      EXECUTE|http://www.mmdagent.jp/
1     101  RECOG_EVENT_STOP|MMDAgent       EXECUTE|http://www.mmdagent.jp/
101  102  <eps>                                              SYNTH_START|mei|mei_voice_normal|MMDAgentの、ホームページを表示します。
102  2    SYNTH_EVENT_STOP|mei                    <eps>

# 0111-0120 Screen
1     111  RECOG_EVENT_STOP|フルスクリーン    KEY_POST|MMDAgent|F|OFF
111  112  <eps>                                              SYNTH_START|mei|mei_voice_normal|スクリーンの設定を、変更しました。
112  2    SYNTH_EVENT_STOP|mei                    <eps>

# 0121-0130 Salute
1     121   RECOG_EVENT_STOP| 久しぶり、ね    SYNTH_START|mei|mei_voice_happy|お久しぶりですね。お元気そうです ね。
121  122  <eps>                                              MOTION_ADD|mei|expression|Expression\mei_happiness\mei_happiness.vmd|PART|ONCE

122  2                                                          SYNTH_EVENT_STOP|mei                  <eps>

参 考URL
【MMDAgent】初音ミクとおしゃべりできるソフトをつくってみた - YouTube
初音ミクとも簡単に対話できる「MMDAgent」、その詳細を聞いてき た - ITmedia ニュース
音声を認識 し対話を行うロボット「ダイくん」-YouTube
MMDAgent バージョン1.2で初音ミクを登場させるのだ

 最 後に



最近の音声合成技術の進歩は誠に素晴らしいものがあります 。
そのうちの主なものについて説明しましたが、その能力についてはこれもほぼ実用できるレベルに達していると思います。
ただオンライン型のアプリはインターネット回線を利用するためどうしても応答速度が遅くなり、認識開始や認識終了の ボタン操作が必要で大量処理には問題が 残ります。したがって手軽で、即応性を重視するならばこれでもいいのですが、大量処理には向いていません。せいぜい メール入力くらいかと考えます。

一方、オフライン型ではインターネット回線を使用しないので応答速度がはやく、ボタン操作もなく、連続的に大量処理 に適しています。
使用目的に応じて選択することになるでしょう。

また、MMDAgent のような技術は現在は音声対話型なので、音声で返ってきますが、将来ロボットなどにおいて音声に反応して適切な動作 するメカニズムに適用すれば大いに発展 していくものと思われます。

*****  このページ 終わり *****