へ戻る   
パソコンにしゃべらせてみよう

【注意】 ホームページの冒頭でも書いておきましたが、以下の説明は Windows XP の環境下のみ適応でき、Windows Vista では対応していないようです。
理由はMicrosoft サポートオンラインのページ 
http://support.microsoft.com/kb/942400/ja のページをご覧ください。
[Windows Vista で、 マイクロソフトの音声ベースのアプリケーションを実行しようとすると、エラーメッセージが発生します]の表題で書いてあります。
しかし、「おしゃべりテキスト」 や 「EasySpeech」 などは Windows Vista でも正常に動作しました。

      
      
 音声合成について
 
1968年に始まったFM最長寿番組に「JAL提供FM番組」 JET STREAM という番組がありました。そして夜午前零時に始まりました。
オープニング、曲と曲の間、そしてエンディングで、BGMにのせて語られるナレーションがこの番組の雰囲気を
盛り上げていました
その番組を映像化したものを YouTube で見ることができます。 (当時はJALのマークは赤い鶴のマークでした。)
         
JET STREAM  (3分7秒)
         
ジェットストリーム(夜間飛行)城達也 (2分34秒) 
いまではほとんどお目にかかることがないカセットテープに毎晩放送を録音して楽しんだものでした。その後この番組はCD化やDVD化され発売されました。
この番組のなかで聞かれるナレーションは当時 城 達也 が担当しました。このナレーションを自分で作ってみたいと思い、いろいろと試してみました。
本来なら自分の声で語り録音すればよいのですが、自分の声に自信がないので、音声合成という技術を使ってみることにしました。

音声合成というのは、コンピュータ上で、書かれた文章を自動的に読み上げ、声を生成する技術です。
この "音声合成" は "テキスト読み上げ" ともいわれます。
この音声合成技術を、Microsoft では 「Text-to-Speech」 略して TTS
 と呼んでいます。
そして音声合成技術の基本部分である 「Text-to-Speech ENGINE」 を 「フリー」 で提供しています。

私はMicrosoftではなくて当初、IBM 「Voice Type」 IBM 「Via Voice GOLD」にグレードアップして使っていました。
IBM 「Via Voice GOLD」MicrosoftENGINEを併用し、日本語はもちろん、英語、米語、ドイツ語、イタリア語、スペイン語、フランス語、ロシア語、オランダ語、ポルトガル語・・・・・など、ほとんどの言語を発声することができていたのが、
「Via Voice GOLD」 がさらにバージョンアップして、「Via Voice V.8」 になったあたりから、日本語しか発声することができなくなりました。
それでやむをえず、古いバージョンの「Via Voice GOLD」を使っていました。

ところが最近になって調べてみると、日本で制作され、しかもフリーソフトで使いやすいものがいくつか見受けられるようになりました。

例えば、
フリーソフトでは (アルファベット順)  

名称

作者
(敬称略させていただきました)

ソフト種類

対応言語など

SAPI (4/5)
AquesTalk
MSSP
eSpeak

Adobe Reader 8 読み上げ機能 Adobe systems Inc. 付属機能フリーソフト 日本語/多国語

4/5

akJ Speechtools akj オープンソース 日本語/英語

独自

ALTAIR 日本障害リハビリ
テーション協会
フリーソフト 日本語/多国語

4/5

AquesTalk 株式会社アクエスト フリーソフトミドルウエア 日本語のみ・サンプルアプリケーションあり

A

EasySpeech EasySpeech.jp フリーソフト 日本語/多国語

4

eSpeak (TTSAppで) eSpeak Sourceforge.net フリーソフト 日本語/多国語

4/5/A/e

ESPTAP 山野敏夫 フリーソフト エスペラント語/その他

4

Fire Fox 拡張機能
Fire Vox
Charles L. Chen 拡張機能フリーソフト 日本語/多国語

4/5

Fire Fox 拡張機能 Click,Speak Charles L. Chen 拡張機能フリーソフト 日本語/多国語
4/5
Free NaturalReader 9.0 NaturalSoft フリーソフト 日本語/多国語 高機能有料版もあり

5/e

GalateaTalk Source
Forge.jp
オープンソース 日本語

独自

      GalateaTalk Demo のページで試聴できます。サンプルは音声合成エンジン GalateaTalk を試してみる 
Google翻訳
 (ブラウザのサイト上で対応)
Google フリーソフト 日本語/多国語(数十か国語)

e

       音質、対応言語の多様性では優れている。音声の速度、高さ、抑揚などの変更ができない。
MOSpeech Labor
Economics.org
フリーソフト 日本語/英語 クリップボード読上げのみ

5e

NVDA(日本語版) 注1:SR
Windows 7 64bit 版ではMSSP
の音声がすべて使えない。
フリーソフト 日本語

4/5/M

Opera Voice機能 Opera
Software
付属機能フリーソフト 英語のみ

独自

        ”Opera Speak” とマイクに呼びかけると読み上げを開始しますが”オーパラ スピーク”と英語式の発音をしないと反応しません。   
Parole SIGEYOSI フリーソフト 日本語/多国語

4

proEdit Tea & Eyes フリーソフト 日本語のみ(ProTALKER必要

4

ReadPlease 2003 ReadPlease Corporation フリーソフト 多国語(日本語不可)

4/5

reporter 村田組 フリーソフト 日本語/英語(MS Agent必要)

5

SofTalk CNCC フリーソフト 日本語/多国語

A/e/M

SofTal WEB  CNCC フリーソフト 日本語のみ WEBサイト読上げ可

A/e/M

spcbght.bat 電脳太助 フリーソフト  日本語/多国語

M

SpchW Milord Club フリーソフト 日本語/多国語

4/e

        SpchW は本文/コ メント行/行番号/EOF通知などで声の切り替えの指定ができます。    
SpeechApp FREE WING フリーソフト 日本語/多国語

 5/A/e

Text To Wav v6.1  Noah フリーソフト 日本語/多国語日英読み分け機能あり

4/5/e/M

Text-to-Speech Controller まろ 公開終了 日本語/英語など

独自

TTSAPP/SimpleTTS (DHTML) Microsoft フリーソフト 日本語/多国語

4/5/A/e

        デフォルトでスタートメニューMicrosoft Speech SDK5.1Visual Basic Samples/Tools/Web Samplesにあります。
       SpeechSDK51.exe SpeechSDK51LangPack.exe 再インストールで使用できるようになります。
   
Windowsスクリーン・リーダー 注1:SR 音楽研究所 フリーソフト 日本語

4/5

おしゃべりテキスト V.2 くろだんご 転載自由フリーソフト 日本語/多国語

4/5/A

おしゃべりテキスト V.3 くろだんご 転載自由フリーソフト 日本語/多国語

4/5/A/e

おしゃべりプレイヤー マーチン フリーソフト 日本語/多国語

M

簡読★Text  SoftFarm.net フリーソフト 日本語/多国語 D&D/クリップボード読上

4

ドキュメントトーカーPlusV2.1
Free版
クリエートシステム開発株式会社 フリーソフト 日本語/英語 AquestTalk付属

A

        「ドキュメントトーカ Plus 2.1 Free版はフリーソフトでエンジンは AquesTalk が付属。
        日本語音声合成エンジンを導入すると相当高品位の読み上げが期待できます。
        「Win版 歌声合成 面白替え歌 Ver1.1」はフリーソフトで、歌を歌うことができます。
        「Win版 歌声合成 ミディで替え歌 Ver1.1」
はフリーソフトで、MIDIファイルより音階を取りだし、入力され た歌詞を音声合成で歌うこと
        ができるもの。 ※注2
バイハート Tokunaga Yoshito(kobo) 転載禁止フリーソフト 日本語/多国語(MS Agent必要)

4

ボイトレ先生 楓ソフトウエア研究所 フリーソフト 日本語

4

棒読みちゃん みちあき フリーソフト 日本語

A/M

読み上げTool 西村誠一 フリーソフト 英語のみ?(WindowsXP?)

4

読み上げくん まぁさ フリーソフト 日本語/英語(MS Agent必要)

4

楽SpeechS Free's フリーソフト 日本語/多国語

4

和太鼓 (MS WORD のみ対応) 情報支援のお道具箱 フリーソフト 日本語

M

注:上に挙げたソフトのなかには Microsoft Text-to-Speech の SAPI4・SAPI5対応の各種言語 Engine を使うことができる
   ものがあり、インストールした Engine により対応言語も変わります。
注: MS Agent については別ページ
MS Agent を動かそう を参照。

注: SAPI については下記
【SAPI 4 と SAPI 5 について】 を参照。
注: MSSPについては下記 【MSSP について】 を参照。
注意:   MSSP はWindows Vista 以降の OS でのみ保証
 

        ※注1:SR   スクリーンリーダー。
        ※注2       音声合成で歌うことのできるソフトについては別ページ 「 PC に歌わせてみよう 」で詳しく解説してあります。

 
有料ソフト
では

名称

         作者

サンプル

対応言語

SAPI 

Inspirium 音声合成ライブラリ 富士通ソフトウエアテクノロジーズ サンプル音声 日本語

独自

FineSpeech 株式会社アニモ 自由文音声合成デモ 日本語

独自

FocusTalk Ver2.0 Skyfish Inc. 体験版 日本語

Future Voice/Hyper Voice/Fine Voice NTT IT 製品デモ 日本語

独自

HearItPlus  注1:SR harm_house シェアウエア  

4/5

ProTALKER 97 IBM 営業活動終了 日本語

---

SMARTTALK  沖電気 販売終了 日本語

---

TextAloud NextUp.com Sample Voice 日本語/多国語

4/5

TextSpeech Pro  Digital Future Sample Voice 日本語/多国語

4/5

       上の2件、TextAloud とTextSpeech Pro は数種類の SAPI4・SAPI5 対応の Speech Engineを使うことがで きます。
       これらの Speech Engine は SAPI4・ SAPI5 対応となっていますから上に書いた各ソフトでも使えるものと思われます。

       そのなかでも AT&T Natural Voices は 明瞭度、自然な発声などで最高品位。デモページあります。   
       声の種類も、American English, UK English,Indian Accent English,Spanish,German,French,Canadian, French それぞれ男声、女声、
       約18種類と多様。
       ただ残念なことに AT&T Natural Voices には日本語がありません。 1ボイス35.00ドル とかなり高価。
       また、NeoSpeech Voices は US English,Manderian Chines,Korean,Japanese に対応。 
       Nuance RealSpeak Voices は  US English,British English,Australian English,Chinese,DanishDutch,French,German,Greek,Italian, 
       Norwagian,Japanese,Polish,Portuguese,Russian,Spanish,Swedish ,Koreanと多彩。    
       Acapela Voices は US English,British English,Arabic,Dutch,French,German,Italian,Norwegian, Spanish,Swedish 等々。
       Cepstral Voices は Premium Voice,Character Voice,Additional Voice の各種。
       日本語もこれらのなかにありますが品質はあまりよくありません。
       これらのサンプルボイスはNextUp.com のSAPI4 and SAPI5 Voices のページで試聴することができます。
  
TxtReader PPCSOFT 10日間フリー・シェアウエア 日本語・英語     5
Voice Text HOYAサービス株式会社 製品デモ  日本語、英語、
 中国語)韓国語 

独自

声の職人 株式会社エーアイ 製品デモ 日本語

独自

電子かたりべプレーヤー  電子かたりべ.com サンプル音声なし Voice Textか? 日本語

独自

       プレーヤーはフリーソフト。コンテンツは有料。
       プレーヤーを登録しない場合一定期間を過ぎると
高品質音声合成サービスが利用できなくなり、Microsoft社の
       Text-to- Speech Engine か使えません。
       ここでいう高品質音声合成サービスは
今時の音声合成ソフトウエア によると、HOYAサービス株式会社 Voice Text を使用している模様。
ボイスソムリエ 日立ビジネスソリューション サンプル音声(公開終了)  日本語

独自

各ソフトは音質など甲乙付けがたいようですが、Voice Text は極めて流暢な発音で不自然なところが少なくレベル が高いと思われる。
価格的に、パーソナルユースには不向きかも。このエンジンを使ったと思われる株式会社ナレッジクリエーション 
xpNavo は26,040円  と比較的安価。
一方 FocusTalk ver 2.0 は 39,000円と若干高め。
Voice Text については 
今時の音声合成ソフトウエア に詳細な報告が載っています。
声の職人、FineSpeech、ボイスソムリエはGUI画面を使って好みのアクセントやイントネーションを作り出せ、また特有のアクセントなども変更することができ、機能的に充実しているものと思われますが、かなり高価。 
  

        ※注1:SR   スクリーンリーダー

有料ソフトで、もともとは音声認識ソフトですが、音声合成もできるものに
       SmartVoice  NEC
       VIA VOICE  IBM
       LaLa Voice   東芝



などがありましたが、いずれも生産を終了しています。
また、スクリーンリーダーと呼ばれる視覚障害者向けの画面を音声で読み上げるものがあります。
フリーのもの2本、有料のもの1本を上のリストに載せておきました。検索してみると数多くのスクリーンリーダーが提供されていますがほとんどが有料となっています。

 外国語のサンプルを聞いてみる


日本語で書いた文章を、オンライン翻訳サイトなどで翻訳させ、翻訳された文章を貼り付ければネイティヴな外国語をしゃべるようになります。
ここで、外国語をどのようにしゃべるか、サンプルをお聞きください。アンダーラインのところをクリックすると聞くことができます。
 英語  (男性)
 英語  (女性)
 英語  (ささやくこともできます)
 ドイツ語  (男性)
 フランス語  (女性)
 イタリア語  (男性)
 スペイン語  (男性)
 ロシア語  (男性)
 中国語  (男性)
 ロボット  (?)










各国語は "
My PC can speak XXXXX fluently like this." という英文を翻訳サイトでオンライン翻訳させた結果で、正しいかどうかは保証のかぎりではありません。また、こんなこともできます。

 英語  (機長アナウンス)
 ドイツ語  (Johan Wolfgang von Goethe 1749-1833) の詩 「野ばら」 を朗読します )




このほかの外国語も対応した各外国語の ENGINE をインストールすれば、
ロシア語、ポルトガル語、中国語、韓国語などもしゃべるようになります。

 SAPI 4 と SAPI 5 について


いままでの説明の中に SAPI 4 SAPI 5 という言葉がでてきましたが、SAPIは Microsoft の Speech Application Program Interface を略したもの。音声合成や音声認識などの音声処理に関する命令語、関数、手続きを定めた規約などの集合で、音声処理に関しては、プログラムからこの専用の処理機能を呼び出してそれに任せるというものです。の数字はバージョンを表しています。
詳しい解説が  Milord Clubにあります。

Microsoft Agent core components コアとなる部分( WindowsXP/2000/Meではインストール不要)
text-to-speech engine  各国語対応 音声合成エンジン (必要に応じて選択しインストール)
Microsoft Agent character エージェント キャラクタ (音声合成だけなら不要)
SAPI 4 runtime binaries SAPI 4 ランタイムサポート
Speech Recognition Engine 音声認識エンジン(英語のみ) (音声合成だけなら不要)

     などをインストールすると構成されます。SAPI 5 に比べて音声合成で利用できる各国言語は
     日本語、英語、フランス語、ドイツ語、イタリア語、スペイン語、 ロシア語、ポルトガル語、ノールウェイ語、フィンランド語、ポルトガル語、韓国語、中国語など
     29か国語 に対応し、また音声の種類も男性、女性、老人、若者の声など非常に豊富です。

  • 一方、SAPI 5WindowsXP では標準で(デフォルトで)インストールされています。
    また
    Microsoft Speech SDK 5.1 を導入すれば  SAPI 5 が使用できるようになります。

    Speech SDK 5.1 SpeechSDK51.exe (68.0MB) 音声合成だけならこれをインストールします
    5.1 Language Pack SpeechSDK51LangPack.exe(81.5MB) 音声認識の機能も使いたい場合はこれをインストール
    Documentation sapi.chm (2.3MB) 使用説明書 

    ただし、音声合成ではデフォルトで日本語がなく、Microsoft Mike (英語)/ Microsoft Mary (英語) / Microsoft Sam (英語) / Microsoft Simplified Chin ese (中国語) /  Sample TTS Voice (英語) のみで、 Microsoft OfficeXP をインストールすれば LH Kenji (日本語)/ LH Naoko (日本語) の2つが追加されます。
    もちろん、SAPI 5 対応の Speech Engine 例えば 「
    ドキュメントトーカ日本語音声合成エンジン 」 などをインストールすれば日本語の 「たかし」 「けいこ」 「太郎」 「花子」 「小太郎」 「はなちゃん」 「ロボ太郎」 「ロボ子」 などが使えるようになります。
    しかし、SAPI 4 に比べると対応する各国言語の数、音声の種類が、とくにフリーのものがほとんどなく、選択の幅が狭くなります。
    また、音声認識では日本語、英語、中国語などに対応しています。
    Julius for SAPI を導入すれば優れた音声認識システムを構築することができます。
 MSSP (Microsoft Speech Platform) について


2010年後半ごろから Microsoft が 新しい音声合成に関する規約を発表しました。それが MSSP (Microsoft Speech Platform ) です。
動作環境の OS としては Windows Vista 以降のみ対応となっています。
詳細は 無料の音声合成エンジン 「Microsoft Server Speech」

      Microsoft Speech Platform の日本語音声合成エンジン あるいは 
           Mcrosoft Speech Platform
のページをご覧ください。
日本語や多数の言語が用意されています。ただし日本語は Haruka という女性の声のみが用意されていて、男性の声はありません。
MSSP の導入の方法は簡単で
(1)  Microsoft Speech Platform - Server Runtime (Version 10.2)   にアクセスし、以下のファイルをダウンロードし、ダブルクリックしてインストールします。
     64bit ファイル  x64\SpeechPlatformRuntime.msi
     32bit ファイル  x86\SpeechPlatformRuntime.msi
どちらをインストールするかは諸説あり、@ MSSPを適用するアプリケーションによって決める A 環境OS によって決める B 両方ともインストールする などあります。
いろいろ試した結果 Windows 7 Proffessinal 64bit では、両方ともインストールしところ MSSP 対応アプリケーションはすべて MSSP を認識して正常に動作しました。 
(2)  Microsoft Speech Platform - Server Runtime Languages (Version 10.2)   にアクセスし、必要な言語ファイルをダウンロードし、ダブルクリックしてインストールします。
ファイル名 MSSpeech_TTS_cc-PP_NNNNNN.msi TTS が音声合成のファイルであることを、cc-PP が言語名を、NNNNNNが人の名前を示しています。
     日本語なら  MSSpeech_TTS_ja-JP_Haruka.msi
     英語(英国)なら MSSpeech_TTS_en-GB_Hazel.msi  英語には5種類があります
     ドイツ語なら MSSpeech_TTS_de-DE_Hedda.ms
     フランス語なら MSSpeech_TTS_fr-FR_Hortense.msi など

Microsoft Speech Platform に対応しているアプリケーションは、現時点では
     NVDA(Windows 7 64bit OS では未対応)、SofTalk、SofTalk WEB、 pcbght.bat、Text To Wav、おしゃべりプレイヤー、棒読みちゃん、和太鼓 
の8本に限られていますガ、今後対応アプリケーションが増えることが予想されます。
なお、MS WORD 2010 に適用すると、MSSP が WORD 上で読み上げができるようになります。

 おしゃべりテキストを使ってみる

音声合成のソフトはそれぞれに特徴があって用途により適切なものを選択すればよいでしょう。
なかでもお勧めは使いやすさでは 【おしゃべりテキスト】、 【ReadPlease】などでしょう。
また MSSP にも対応している点では 【SofTalk】 がいいのではないでしょうか。
また、対応言語種類の数の多いこと、2つの言語を自動的に切り替え読み分ける機能がある 【Text To Wav】 などお勧めでしょう。

ここでは、使いやすく、Windows 7 にも対応している【おしゃべりテキスト」
を取り上げてみました。残念ながらいまのところ Microsoft Speech Platform には対応していません。
【おしゃべりテキスト】  のセットアップと使い方については、ソフトに同梱のヘルプファイルで非常に詳しく懇切丁寧に解説されています。
ここでは簡単に説明いたします。
  1. core componennts のダウンロードとインストール

    注:−この手順は WindowsXP、Windows2000、WindowsMe では必要ありません。次の手順に進んでください。

    【おしゃべりテキスト】 では Microsift からフリーソフトとしてリリースされている 「SAPI 4」 や 「Text-to-Speech Engine」 を利用しますので、あらかじめこれをインターネットからダウンロードして、インストールする必要があります。
    まずインターネット上で
     
    http://www.microsoft.com/msagent/downloads/user.aspx  (上記のリンクは目的と違うページにリンクされています。目的のページは別ページの方法で閲覧できます。別ページ 【リンク切れのページを閲覧】 参照
    にアクセスすると、「Microsoft Agent and localization support:」という項目がありますから Download the Microsoft Agent core components (395 KB exe) の行をクリックしてダウンロードし、ダウンロードしたファイルをダブルクリックしてインストールします。
  2. Text-to-speech engines のダウンロード(各国言語)とインストール

    同じページのなかに下の図のような [Text-to-speech engines:] という項目があります。
    図に示したように、 【Select a text-to-speech(TTS) engine】
     の右端にある▼矢印をクリックするとリストが表示されます。
    その中から 【Lernout & Hauspie(p):TTS3000 TTS engine - Japanese(3MB exe】の項目を選択します。
    【Download selected engine】をクリックするとダウンロードできます。
    他にも使ってみたい言語があれば同時にダウンロードしておくとよいでしょう。

    ダウンロードされたファイル ( lhttsjpj.exe )
    をダブルクリックして、実行させます。自動的にインストールされる途中で許諾を求められたら 「はい」 を選択します。インストール画面が消えるまで待ちます。

    なお、MS Agent などで利用することもあるので、
    「Lernout & Hauspie(R) TrueVoice TTS - American English engine (1MB exe)」
    も同じようにダウンロードしたファイル ( tv_enua.exe
    ) ダブルクリックしてインストールしておいてください。


  3. SAPI4 runtime binaries のダウンロードとインストール

    つぎに「SAPI4 runtime」をインストールします。
    前述と同じページのなかに下記のような [SAPI 4.0 runtime support:] という項目があります。

    【Download the Microsoft SAPI 4.0a runtime binaries (824KB exe)】 をクリックするとダウンロードが始まります。 

    ダウンロードされたファイル  spchapi.exe ) をダブルクリックして、実行させると自動的にインストールされます。

  4. SAPI 5 の機能が必要ならば、 Microsoft Speech SDK 5.1 をダウンロードしインストールします。
  5. おしゃべりテキストのダウンロードとインストール

    つぎにVector
    から ( 「おしゃべりテキスト」 OsyaTx302.zip )  というファイルをダウンロードします。
    このファイルを解凍すると OsyaTx302 
    というフォルダーができます。このフォルダーを適当な位置におきます。

    なお、AquesTalk を組み込むと音声の種類が増えるのでヘルプファイルを参照し Plugin フォルダーを新規に作成し組み込んでください。

  6. このフォルダーの中にある  ( osyaberiText.exe )を起動させると下図のように表示されます。             

  7. ここで SAPI 4 を使う場合は [SpeechAPIVersion4] にチェックをして、[設定]⇒[音声の選択」 をクリックます。
    SAPI 5 を使う場合は [SpeechAPIVersion5] にチェックをして、[設定]⇒[音声の選択」 をクリックます。

    AquestTalk を使う場合は [AquesTalk] にチェックをして、[設定]⇒[音声の選択」 をクリックます。
  8. 下図のような 「声選択」 の窓で使用したい音声を選択します。
    上記 (2) の手順で 
    Lernout & Hauspie(p):TTS3000 TTS engine - Japanese.exe のみインストールした ときは、Adult Male #1 Japanese (L&H) と Adult Female #1 Japanese (L&H) の2項目しかリスト に表示されません。

    各国語のText-to-Speech engine のインストールすれば、各国語に対応した男声、女声などが選択できます。  

    あるいはもっと簡単に 「音声エンジン」 のツールバーの SAPI4、SAPI5、AquesTalk のボタンをチェックしてから、すぐ右にある窓で使用する音声を選択することもできます。               

  9. 読み上げさせたいテキストを メニューの「ファイル」⇒「開く」か、あるいはメモ帳などで開いたテキストをコピーし、テキスト領域に貼り付ける。 テキスト領域では、メモ帳のように自由に編集できます。
  10. メニューの「再生」⇒「再生」か、F5キー、または 「コントロールパネル」の右向き矢印をクリックすると、読み上げが始まります。
  11. 読み上げる速度をかえることもできます。Speed ボタンの右側にあるスライダーで変更できます。
    さらに、声の音程を上げたり、下げたり、読み上げる速度をかえることもできます。
    そのようなときは メニューの「設定」⇒「一般設定」を選択すると、下図のようなコントロール窓が表示されますので、 声の高さ、速さなど変更できます。
    この[コントロール]の内容は選択した各言語engine によって違いますが、基本的には同じです。   
      

以上、《おしゃべりテキスト》 のインストールと使い方を簡単にご紹介しました。
あとは付属のヘルプ・ファイルを参考に、音声合成の面白さをお楽しみください。

そのほかのアプリケーションもソフト名をクリックすればそれぞれのホームページにアクセスできますから、ダウンロードしてトライしてみてください。 

 音声合成エンジンに関する参考事項

  • Speech Engine の多くは、各ボイスごとに音量・ピッチ・速度を変更できますが、アクセントや抑揚の変更はできません。
    しかし、なかには ProTALKER のように抑揚を変更できるものや、ボイスソムリエのようにアクセントの調整や韻律の調整のできるものがあり、このような Speech Engine では不自然な発音を修正したり、話し方を変えることにより雰囲気や印象を変えることができます。(次ページ「感情音声合成に関する考察と提案」参照)
  • (読み上げるときの抑揚など不自然なところがありますが句読点やスペースを適当に入れると直ることがあります。
  • 日本語の発声はアクセントなど不自然なところがありますが外国語はかなりNATIVE な発音だとされています。
  • 外国語テキストをテキスト領域に書き込んだとき、WindowsXPでは正常に表示されないようです。たとえばドイツ語の"ウムラウト"など。しかし発声は正常なようです。
    この問題はWindows98上では発生しないようで、文字も正常に表示され、発声も正常です。
  • MS Text-to-Speech Engine は一旦インストールすると、通常の方法では削除(アンインストール)できません。
    「システムの復元」 しか元に戻すことことができないと説明されています。
  • 読み上げソフトのなかにはEasySpeech やreporter などは、「クリップボード読み上げ機能」 を持っているものがあります。
    「クリップボード読み上げ機能」
     というのは、読み上げソフトを立ち上げておけば、Internet Explorerや、Outlook Express や、メモ帳のテキストの一部を(ドラッグ反転、右クリック、コピーで)クリップボードにコピーしただけで読み上げてくれる機能です。
  • Speech Engine によっては、疑問文・感嘆文などは平叙文とイントネーションを変えて発声することができるものがあります。平叙文に ? マーク、あるいは ! マークを付け加えただけで発声が変わります。
    たとえば TrueVoice Engine の Adult Male American English では 
    (各行をクリックして聞いてみて下さい。)
          
    This is a pen.
           This is a pen?
           This is a pen!
    上の各文章でそれぞれ発声が変わります。Engine のなかには 疑問文だけ発声を変えるものもあります。
    AT&T Natural Voices は対応していないみたい。 
    日本語では Voice Text は ? マークのついた疑問文などには対応しているようです。
  • 音声合成ソフトの選択について私見ですが  
    • パーソナルユースで全部フリーですませたいなら、設定が簡単でわかりやすく、SAPI 4 と SAPI 5 にも対応している「おしゃべりテキスト」がお勧めでしょう。
      Speech Engine をフリーの 
      Mictosoft Text-to-Speech 、True Voice、L&H (Lernout & Hauspie TTS3000) などをインストールしておけば、ほとんどの言語で使えます。 
    • 少し懐に余裕のある方は 「ドキュメントトーカ Plus Free版 Vista対応済み」に、有料の日本語音声合成エンジンを導入すれば、音質もよく、「歌うアプリケーション」 もついてきてお得でしょう。
      あるいは、少し価格は張りますが音質のよい Voice Text
      がお勧めでしょう。  
    • 価格を気にしない方は、ボイスソムリエなどは音声のカスタマイズに便利は機能がついていて、いいのではないでしょうか。
      外国語なら、TextAloud に 高品位の音声が期待できる AT&T Natural Voices などはいかがでしょうか。

 まとめ

Speech Engine はフロントエンドとバックエンドから構成されていて、フロントエンドにアプリケーションから入力された文章を発音記号に変換した配列を出力し、バックエンドはフロントエンドから出力された発音記号配列を音声波形に変換します。

もう少し詳しく言うならば、フロントエンドでは文章を解析し、単語、熟語、文節などに分別し、単語、熟語は辞書により【発音記号;ピッチ;持続時間】の組み合わせに変換し、文節に対しては韻律(イントネーション)の規則にしたがって、【発音記号;ピッチ;持続時間】の組み合わせを時系列に並べた一連の配列に変換します。

たとえば、入力された漢字混じり文章を、かりに
    「昔々、ある所にお爺さんとお婆さんが住んでいました。」
とすると、フロントエンドからは
    「ムカ’シムカ’シ、ア’ルトコロニ/オジイ’サント/オバア’サンガ/スン’デ/イマシタ。」
のような記号化された配列を出力します。
この例では、カタカナが発音記号を表し、【’】はアクセントを、句読点や【/】はイントネーションを決める文節の境界を示しています。
この配列を元に【発音記号;ピッチ;持続時間】の要素を時系列的に並べた配列をバックエンドに渡せば、バックエンドは、その配列を音声波形に合成してアプリケーションに渡し、アプリケーションがスピーカーを通して音声を発生させます。
音声合成のメカニズムは以上のようなものです。

上に列挙した各種の音声合成ソフト、または読み上げソフトなどのアプリケーションは、実はいわゆるヒューマンインターフェースであって、その中身は Speech Engine です。
したがってアプリケーション別の分類ではなくて Speech Engine の種類別の説明をすべきであったかもしれません。
文章の読み上げそのものの品質はアプリケーションではなくて、内蔵された Speech Engine に依存します。
Speech Engine によっては疑問文や感嘆文を区別して発声するものがあることは上に書きました。
また、音色は Speech Engine の合成メカニズムに依存し、音声から受ける印象を左右するアクセントは Speech Engine の登録辞書に依存し、イントネーションは Speech Engine の韻律性能に依存します。イントネーションに影響をもたらすものとして、音声の速度、ピッチ、抑揚などがありますが、それらを制御できるもの、速度しか制御できないものなどいろいろあります。

また、最近は音声に感情を持たせようと試みる感情音声合成も、大企業、ベンチャー企業、大学、研究所など様々な所で研究、開発Xされています。(以下参照)

  アニモ    アニモ 日本初の感情表現が可能な音声合成ソフトウエア
  沖     コーパスベース音声合成とその応用
  日立    情感のある肉声への挑戦 高品位知的音声合成技術
  富士通     “アニメ声”で自然にしゃべる音声合成技術、富士通が新開発
  富士通     音声合成 先端技術 : 富士通研究所
  慶應義塾大学安村研究室    A Study on Corpus-based Speech Synthesiswith Emotion
  慶應義塾大学大学院   感情を含んだ声を作る! −韻律の部分空間を用いた感情音声の合成−
  東京大学大学院新領域創成科学研究科    音声合成のための文節単位での感情の程度を考慮した統計的韻律制御
  東京工大小林隆夫研究室    Kobayashi Lab
  岩見洋平氏
    
声質変換法を用いた感情音声合成手法
  国際電気通信基礎技術研究所    ニック キャンベル 「表現豊かな発話音声のコンピュータ処理システム」

そのほか、枚挙に暇がないほど多数の報告がインターネット上で見ることができます。

          感情音声合成に関する考察と提案は
  次のページへ

***** このページ 終わり *****