モバイルテキスト読み上げエンジンのレビュー

画像 母国語が英語ではなく、iPhone専用のアプリケーションを作成していない場合、いわゆる開発のための適切なツールを見つけたい場合は難しいでしょう モバイル音声対応アプリケーション。

このレビューは分類を提供し、種類のモバイルTTSエンジンの中で最も価値のあるものについて説明します。

私は、視覚障害のある人向けのモバイルデバイスインターフェイスの設計に関する研究を行っています。 私のプロジェクトの1つを実装するには、多言語サポート(少なくとも2つの言語-英語とロシア語)を備えた音声生成エンジンが必要でした。 これが、音声合成装置を探す理由でした。

便宜上、TTSエンジンを3つのクラスに分割します。

商用エンジン


SVOXモバイルTTS
SVOXロゴ
価格:n / a
言語:26、ロシア語を含む
音質の主観評価:
モバイルOS:Android、Symbian、Windows CE / Windows Mobile、BREW
商用製品を開発する機会:はい

SVOX Companyには、最も「技術的に美味しい」製品であるSVOX Mobile TTSがあります。 しかし、会社は主にB2Bセグメントで運営されているため、価格を尋ねる私の2つの手紙には決して答えませんでした。

アカペラTTS
アカペラのロゴ
価格:2800€と、いわゆるランタイムライセンス。これには、一般的なアプリケーションごとに49€を支払う必要があります。
言語:ロシア語を含む23
音質の主観評価:
モバイルOS:Symbian、Windows CE / Windows Mobile、組み込みLinux、iOS
商用製品を開発する機会:はい

Acapela Groupの従業員ははるかに社交的であることが判明し、 この申請書を記入してから 30分後に文字通り答えました。

ヘッダーに示されている価格は、Windows MobileやSymbianなどのオペレーティングシステムを指しますが、アカペラのビジネスモデルは、選択したOSによって異なります。 たとえば、iOSの方向性を最も強く促進し、そのために別のサイトが作成されます。 そこで、エンジンの評価版を無料で登録して入手できます。 以前のiPhone OSのベアSDKの価格は250ユーロです。 また、App Storeで販売するすべてのアプリケーションについて、かなりの割合が削除されます。

Acapelaは「クラウド」音声合成を提供し、SDKを任意のプラットフォームに移植することに注意してください。

Loquendo Embedded TTS
Loquendoロゴ
価格:3,000ユーロに加えて、販売する各モバイルアプリケーションへの関心。
言語:26、ロシア語を含む
音質の主観評価:
モバイルOS:Android、Symbian、Windows CE / Windows Mobile、組み込みLinux、iOS、Maemo、Moblin、MeeGo、PalmOS
商用製品を開発する機会:はい

Loquendoエンジンには、咳や笑い声などのそれほど「スピーチ」されないチップを混ぜて、スピーチをより自然にできる特別なタグがあります。

彼らのエンジンは、W3Cが推奨するSSML 1.0仕様を満たしています。

サクラメントTTS
サクラメントのロゴ
価格:1つのOSで1500€、2つの言語のパッケージを一度に購入すると、25%の割引が提供されます。これは2250€です
言語:ロシア語、英語
音質の主観評価: 平均
モバイルOS:Symbian、Windows Mobile
商用製品を開発する機会:はい

Sakrament TTS音声合成の品質は、電話番号やアプリケーション名などの短いフレーズを発声するのに十分です。 SDKのすべてのバージョンの説明はこちらにあります

無料のエンジン


フライト
価格:いいえ
言語:英語とFestVox言語をコンパイルする機能
音質の主観評価:
モバイルOS:Android、Windows CE / Windows Mobile、iOS、PalmOS
商用製品を開発する能力:はい( CMUライセンス

Festival Speech Synthesizerは、デスクトップの世界ではよく知られています。 モバイルデバイスと組み込みシステム用のFliteというポートがあり、独自のX11ライクライセンスで配布されます。これにより、このソフトウェアを誰にでも自由に配布できるほか、商用アプリケーションと無料アプリケーションの両方を構築できます。 Windows CE / Windows Mobile 、PalmOS、 Android、およびiOS用のポートがあります。

eSpeak
eSpeakロゴ
価格:いいえ
言語:ロシア語を含む39
音質の主観評価: 平均
モバイルOS:Android、Windows CE / Windows Mobile
商用製品開発機能:なし( GNU GPL

WM用のエンジンをコンパイルする手順はディストリビューションに含まれていますが、このプラットフォームではeSpeakには1つの重要な制限があります-音声生成はWAVファイルでのみ可能です。 Windows Mobile用のコンパイル済みTTSエンジンは、 ここから入手できます

eSpeakはAndroidに移植されています 。 最も簡単な方法は、AndroidマーケットからTTS Service Extendedアプリケーションをインストールすることです。これにより、組み込みエンジンとeSpeakを切り替えることができます。 このTTSエンジンは、GNU GPLの条件の下で配布されます。

組み込みソリューション


組み込みソリューションは、SymbianおよびAndroidにのみ存在します。 何らかの不明な理由により、MicrosoftはモバイルOSから適切なソフトウェアインターフェイス(MS SAPI)を削除しました。

Symbian
Symbianロゴ
価格:いいえ
言語:英語
音質の主観評価: 非常に低い
商用製品を開発する機会:はい

Symbian Foundationの組み込みTTSはCMdaAudioPlayerUtilityクラスに隠されています。 彼のドキュメンテーションはこれについて何も述べていませんが、それでも音声合成することができます。 残念ながら、ロシア語はサポートされていません。 英語の音声生成の品質は非常に低いです。 準備がなければ、彼が言ったことを理解することは非常に困難です。

追加の言語パックはここからダウンロードできますが、サポートされる電話のリストは非常に少ないです。 Symbain OS S60 5thを実行しているデバイスにロシア語のパッケージをインストールしても、期待どおりの結果が得られず、組み込みのTTSはロシア語を話しませんでした。

NSS TTS Utility APIと呼ばれるAPIの非常に便利な拡張機能があることに注意してください。その説明はここにあります

Android
Androidロボット
価格:いいえ
言語:英語、フランス語、ドイツ語、イタリア語、スペイン語
音質の主観評価: 平均
商用製品を開発する機会:はい

Androidの組み込みの音声合成機能は、バージョン1.6から利用可能です。 このトピックの優れた紹介は、開発者のブログにあります。 Android TTS APIは、残念ながらサポートされていないロシア語のSVOX Picoのラッパーに過ぎません。

おわりに


開発中の製品の要件に応じて、誰もが結論を出す必要があります。 商用ソリューションでは、音声合成の品質が非常に重要であるため、Acapela TTSとLoquendo Embedded TTSの2つのエンジンから選択する必要があります。 オープンソースプロジェクトのエンジンを選択するとき、ターゲットOSのリストは非常に重要な役割を果たします。

個人的には、eSpeakを選んだのは、私のプロジェクトが学術的であり、GNU GPLの下でライセンスされた製品を使用する余裕があるためです。

Source: https://habr.com/ru/post/J102199/


All Articles