へ戻 る




凄い (゚ O゚) 最近の音声認識




 概要



最近の音声認識の技 術の進歩は目覚しいものがあります。
とくに iPhone の 【 siri 】 と ドコモの 【 しゃべってコンシェル 】  が激しくしのぎを削っています。2つのアプリを搭載したスマートフォンを2台並べて同時にしゃべり、その答えがどうなるかテスト した動画がいくつか YouTube に投稿されています。

また、iPad では 【 Dragon Dictation 】 は認識率がよいとの評判。
さらに、ブラウザ上しか使えませんが Google Chrome の音声認識を使って入力する拡張機能 も高い認識率を誇っています。
これらは全てインターネット回線に接続した環境下でしか使えま せん。

しかしオフラインの環境で、 PC 単体で使える音声認識ソフトも進化し、性能も機能も進歩した音声認識ソフトが出てきました。
例 えば Windows Vista や Windows 7 には Microsoft の 【 Windows 音声認識 】 が標準で搭載されていてかなりの認識率を持っています。
また 【 AmiVoice 】 や 【 Dragon Natural Speaking 】  などで、エンロールといわれる前準備なしで利用でき、使えば使うほど認識率画上がっていきます。
また、変換速度も向上してきました。


 オンライン型


上で述べたように、最近特にオンライン型の音声認識を利用したアプリが激しい進化を遂げ、いろいろなものが出てきました。
認識してただ単に音声を文字化するだけでなく、さらにそれを使って検索、翻訳するものが沢山出てきました。その中のいくつかについたいと思い ます。

オンライン型は音声認識、検索、翻訳、音声合成して読上げなどはサーバーで実行されているため当然 Wi-Fi などを介したインターネット接続の環境下でしか動作しません。

 Fakesiri (PC上での Google Chrome 拡張機能)


まず 【 Fakesiri 】 をみてみましょう。【 Siri 】 は Phone4S で一躍有名になったアプリ。

  【 Fakesiri 】 はそれをもじったもので、「Siri のふりをする」 あるいは 「似非(えせ)Siri 」 または 「擬似Siri 」 あるいは 「 siri まがい (紛い /擬い) 」 とでも訳すのでしょうか。要するに 【 Siri 】 に似た動作をします。
Chromeウエブストア の Fakesiri からダウンロードしインストールするとツールバーにアイコンができます。
Chrome のツールバーのアイコンをクリックして起動すると新しいウインドウが表示されます。
右下にあるマイクをクリックし、「お話しください」というメッセージが現れたらマイクに向かってしゃべります。

fakesiri_2

右側にいましゃべった音声が吹き出しのなかに文字となって表示されます。
すると左側の吹き出しのなかに返答の英文メッセジが表示され読上げられます。検索の結果がしばらくしてその下に表示されます。

試しにテレビコマーシャルにあるような質問してみました。

fakesiri_1_r fakesiri_3_r

文字列をクリックすると右のように内容が表示されます。

【 Siri 】では答えは音声で返しますが、【 Fakesiri 】 では調べた結果を文章で表示します。
音声認識の精度かなりのもので、結果も大体適切なページに誘導してくれます。

 Dragon Dictation (iPhone,iPad  アプリ)


iPhone、 iPad 専用のアプリに 【 Dragon Dictation 】 というアプリがありますが、これがなかなか凄い。しかも無料なのだ。
操作もボタンをタップしたら、しゃべればいい。
音声認識の能力も他のものに比べて遜色はありません。
ここで書き取った文章はすぐにメールとして送信することができます。
ただ、タップ動作が必要なこと、長文を連続的に認識できないのが短所かもしれません。

 Google 翻訳 (PC上での Google Chrome アプリ)


Google Chrome 上で、
Google翻訳 のページにアクセスすると下のようなウインドウが表示されます。
左側に認識させたい元の言語を指定し、右側に翻訳させたい言語を指定しておきます。
左側のボックスの左下にあるマイクのアイコンをクリックして【お話しください】 という表示が出て、音声認識が有効になったらマイクに向かってしゃべると音声が認識され文字化されて表示されます。同時に右のボックスには翻訳された訳文 が表示されます。
指定した言語が音声認識に対応していないときはマイクのアイコンが表示されず音声入力ができません。
また指定した言語が恩師合成に対応していないときはスピーカーのアイコンが表示されず読上げができません。

google_translate_1

元の言語、訳語の言語は74種の言語が使えます。ただし音声認識できる言語はすべてではなく限定されます。
また、左下のスピーカーのアイコンをクリックすると翻訳され原文も、訳文も指定された言語で音声合成され読上げられます。
この言語の種類の多さには驚かされます。
もちろん左のボックスに直接キーボード入力、あるいはコピー&ペーストで入力、あるいは手書きで入力しても構いません。

 音声認識入力アプリ


最近はPC用よりも、スマートホン用として IOS、アンドロイド ともにこの種のアプリが激増し、枚挙に暇がありません。
 Google Translate
 Yahoo!音声アシスト
 Assistant
 VoiceTra
  Vocre 翻訳
  Speech Recognizer
などなど。

 オフライン型

 

上で説明したオンライン型の音声認識はいずれもインターネット回線に接続されている時だけ動作します。
またインターネット回線でデーターがやり取りされるため回線の速度に左右されます。
また応答速度も回線速度によって影響を受けます。認識結果が出るまでに若干待たされることがあります。
いかで説明するオフライン型の音声認識は回線速度の影響を受けず、ただCPUの処理速度だけに依存します。
従ってオフライン型のアプリはかなりの高速で連続的な音声認識が可能で、オンライン型にくらべて作業効率が高くなります。
そのため、大量の文章の入力に向いています。

 Windows 10 音声認識 (PC上でのアプリ)


Windows Vista や Windows 7 にはスタートメニューから 【アクセサリ】 → 【コンピュータの簡単操作】 → 【Windows 音声認識 】 で起動できます。
Windows 10 では 【スタート】
【コントロール パネル】【音声認識】 で下のようなウインドウが表示されます。

win10_1

このウインドウの中の 【音声認識の開始(S)】をクリックすると下のように大きなアイコンが現れ音声認識ができるようになります。
win10_2

例えばメモ帳に入力したいときは 【メモ帳を開く】 とマイクに言えば、すぐにメモ帳が開きます。
続けて入力したい文章をマイクに向かってしゃべると音声を認識して文字に変換しメモ帳に入力していきます。
変換がおわるのを待たず、続けて文章をしゃべっても順次入力され行きます。ただし文節ごとに 区切ってしゃべる   、はっきり発音するなどしゃべり方のテクニックや慣れが必要です。
またメモ帳をとじるときは 【メモ帳を閉じる】 など規定のコマンドを使って操作します。
複数の選択が必要なときは一覧で表示されるので、【当該項目の番号】 と 【OK】 といえば入力されます。      

このように、メモ帳、メール、Wordなどに音声認識機能を使ってで文章を書き込んでいくことができます。
しかも、音声認識能力もかなり高く実用に耐えるものとなっています。変換効率もよく連続的にしゃべっても追従するようです。
また、ウインドウの開く、閉じる、ツールバーの選択、などウインドウの操作が できます。
ただ、操作コマンドを覚えておかなければならないし、発声に対してのレスポンスに若干の遅れがあり、キーボード入力には到底かないません。

 Ami Voice / ドラゴンスピーチ11  など (PC上での有料アプリ)


有料の音声認識ソフトウエアとして代表的なものに (1) Ami Voice  と (2) ドラゴンスピー11 があります。
昔、昔 IBM の Voice Type Dictation から Via Voice までいくつものバージョンを使ってきましたが、いまや隔世の感があります。
Windows Vista や Windows 7 以降 Microsoft Windows 音声認識がほぼ利用できるようになりました。
いまではこれらのアプリケーションが、ほとんど連続的に音声入力してもかなりの速度で、かつ正確に認識変換してくれるようになりました。
これらのアプリケーションはインターネット回線とは無関係でオフラインで使えるため遅い回線に影響されず、高速な認識能力が得られます。
上記2つのソフトはユーザー評価をみると甲乙つけがたいようです。ユーザーの評価はここに詳しく書いてあります。

 MMDAgent (PC上でのフリーソフト)


MMD とは MikuMikuDane を省略したもので、いま大人気の初音ミクなどのキャラクターのダンス動画を生成するアプリケーションです。
Agent はそれらのキャラクターを使って動きながら、音声に対して反応する仮想的な人物のこと。
MMDAgent は音声をインターフェースとして音声入出力をインターラクティブに関連付けるツール群のことです。
一言でいえば音声対話システム構築ツールです。
このシステムは名古屋工業大学国際音声技術研究所で開発されたものです。
このシステムでは音声認識はJulius 、音声合成は Open JTalk、動きは MikuMikuDance を利用し対話システムを構成しています。

mei_r 左がデフォルトの メイちゃん【絵をクリックすると拡大できます】メ イちゃん を初音ミクなどに変更することもできます。
いろいろな質問を問いかければ動作しながら、返答が返ってきます。
例えば、「こんにちは!」と言えば、お辞儀をしながら「こんにちは!」と答えます。
「あなた、誰?」と問いかければ、【私の名前はメイと言います。よろしくおねがいします。」と答えます。
「綺麗!、可愛い」と褒めてあげると、頬を染めながら、「恥ずかしい」、「有難う」と答えます。
メイちゃんは名古屋工業大学の受付嬢ですから、「図書館は?」と尋ねると、地図を出してきて教えてくれます。
「有難う」とお礼をいうと、「どういたしまして。いつでも、話しかけてくださいね。」と答えます。
「ホームページーを開いて!」と頼めば、「MMDAgentのホームページを開きます」と答え、ホームページを開いてくれます。

この使い方について簡単に説明します。詳しくは 竹倉蔵本-MMDAgent などを参照して下さい。
(1)  MMDAgent から2つのファイル
MMDAgent version 1.2 (December 25.2011) の Binary Package (for 32-bit Windows)
MMDAgent "Sample Script" version 1.1 (August 3.2011) の Binary Package
を ダウンロードします。
(2) ダウンロードしたファイルを解凍します。2つのフォルダーができます。
(3) MMDAgent_win31-1.2 フォルダーの中の MMDAgemt.mdf を削除します。
(4) MMDagent_Example-1.1 フォルダーの中の4つのファイル名を次にようにリネイムします。 
MMDAgent_Example.dic  →  MMDAgent.dic
MMDAgent_Example.fst  →  MMDagent.fst
MMDAgent_Example.mdf  MMDAgent.mdf
MMDAgent_Example.ojt  →  MMDAgent.ojt
(5)  MMDagent_Example-1.1 フォルダーのすべてを MMDAgent_win31-1.2 フォルダーにコピーします。
(6) MMDAgent_win31-1.2 フォルダーの中の MMDAgent.exe をダブルクリックして起動すると メ イちゃん が現れます。
(7) マウスやキービードで向きを変えたり、音量インジケーターを消したりすることもできます。
(8) キャラクターが現れたら、マイクに向かってしゃべれば答えてくれます。

対話内容は MMDAgent.fst を開いてみればわかります。ファイル名を右クリックし、【編集】を選べば内容が表示されます。
その記述文法は先頭数十行に説明してあります。その規則に従ってテキストを変更、あるいは追加すれば自分なりの対話システムを作ることができます。
例えば下の赤字の部分を追加して上書き保存すれば、
「久しぶり!」といったとき、軽く会釈しながら「お久しぶりですね。お元気そうですね」と明るく答えてくれます。

# 0101-0110 Browsing
1     101  RECOG_EVENT_STOP|ホームページ      EXECUTE|http://www.mmdagent.jp/
1     101  RECOG_EVENT_STOP|MMDAgent       EXECUTE|http://www.mmdagent.jp/
101  102  <eps>                                              SYNTH_START|mei|mei_voice_normal|MMDAgentの、ホームページを表示します。
102  2    SYNTH_EVENT_STOP|mei                    <eps>

# 0111-0120 Screen
1     111  RECOG_EVENT_STOP|フルスクリーン    KEY_POST|MMDAgent|F|OFF
111  112  <eps>                                              SYNTH_START|mei|mei_voice_normal|スクリーンの設定を、変更しました。
112  2    SYNTH_EVENT_STOP|mei                    <eps>

# 0121-0130 Salute
1     121   RECOG_EVENT_STOP| 久しぶり、ね    SYNTH_START|mei|mei_voice_happy|お久しぶりですね。お元気そうです ね。
121  122  <eps>                                              MOTION_ADD|mei|expression|Expression\mei_happiness\mei_happiness.vmd|PART|ONCE

122  2                                                          SYNTH_EVENT_STOP|mei                  <eps>

参 考URL
【MMDAgent】初音ミクとおしゃべりできるソフトをつくってみた - YouTube
初音ミクとも簡単に対話できる「MMDAgent」、その詳細を聞いてき た - ITmedia ニュース
音声を認識し対話を行うロボット「ダイくん」-YouTube

 最 後に



最近の音声合成技術の進歩は誠に素晴らしいものがあります 。
そのうちの主なものについて説明しましたが、その能力についてはこれもほぼ実用できるレベルに達していると思います。

ただオンライン型のアプリはインターネット回線を利用するためどうしても応答速度が遅くなります。
一方、オフライン型ではインターネット回線を使用しないので応答速度がはやく、連続的に大量処理 に適しています。
使用目的に応じて選択することになるでしょう。
ただし、近年では通信環境も激変、高速回線が利用できるようになったのでその差は少くなりました。

また、MMDAgent のような技術は現在は音声対話型なので音声で返ってきますが、将来ロボットなどにおいて音声に反応して適切な動作するメカニズムに適用すれば大いに発展 していくものと思われます。

*****  このページ 終わり *****