ROSでの音声認識にpocketsphinxを使用することについてはすでに説明しました。 この記事では、音声認識にgspeechを使用することについて説明します。 gspeechは、Google Speech API
wiki.ros.org/gspeechを使用するROSパッケージです。
Google APIキーの取得
それでは始めましょう。 まず、Google APIキーが必要です。 取得するには、まずGoogleアカウントを持っている必要があります。 次に、chromium-dev @ chromium.orgにサブスクライブする必要があります(
ここにサブスクライブする必要があり
ます )。
これで、Google APIキーを取得できます。 これを行うには、Google開発者コンソール
cloud.google.com/consoleにアクセスします。 ここで、プロジェクトを作成する必要があります。 プロジェクトを作成したら、左側のメニューの[APIと認証]の下にある[API]セクションでSpeech APIを有効にする必要があります。 注意してください:私に起こったように、このアイテムはリストにないかもしれません。 Speech APIが表示されない場合は、chromium-devにサインアップしていることと、chromium-devにサインアップしたときに使用したメールアドレスを持つGoogleアカウントで現在ログインしていることを確認してください。
Google APIキーは、同じアイテムAPIと認証の下の認証情報セクションで取得できます。 ここで、パブリックAPIアクセスセクションの[新しいキーの作成]ボタンをクリックしてキーを作成する必要があります。
gspeechをインストールする
残っているのはgspeechパッケージをインストールすることだけです。 これを行うには、Githubページ(github.com/kusha/gspeech)から
gspeechを複製します。 Gspeechが動作するにはsoxが必要です。
sudo apt-get install sox
また、次の行のgspeech.pyスクリプトにGoogle APIキーを挿入する必要があります。
api_key = ""
Gspeechの起動
すべての準備が整ったので、gspeech ROSノードを開始できます。
rosrun gspeech gspeech.py
音声認識
認識プロセス中に、gspeechは、認識されたフレーズを件名/音声で文字列形式で公開し、件名での認識の「信頼度」/ Int8形式で信頼度を公開します。
gspeechがGoogleのサーバーにリクエストを送信するため、フレーズ認識プロセスには時間がかかる場合があります。 それにもかかわらず、gspeechはかなり高い認識精度を持ち、gspeechはpocketsphinxパッケージよりもはるかに優れたフレーズを認識します。 テストでは、gspeechは70〜80の「自信」を持つフレーズを認識しました。 場合によっては、94までの「確実性」で認識されます。
Google Speech APIによる音声認識の成功をお祈りします。