音声は未来です。 グローバルテクノロジーの巨人は重要な市場シェアを要求しており、ComScoreは「すべての検索の最大50%が2020年までに音声で実行される」と予測しています。
しかし、私たちをこの瞬間に導いた歴史的な前例は、驚くほど重要です。 このレポートでは、現在の状況の包括的な概要を提供し、すべてのマーケティング担当者が将来に備えるために考慮する必要があるアドバイスを提供する前に、音声認識技術の歴史の旅に出発しました。
音声認識技術の歴史
音声認識技術は比較的最近になって一般の関心を集めており、世界をリードするハイテクの巨人による素晴らしい発売イベントが行われています。
私たちの憧れは本能的です。私たちは私たちを理解できる機械に魅了されています。
人類学的な観点から、私たちは話された言葉をその書かれた相手よりもずっと前に開発し、平均的な人が60秒で書くことができるわずかな40語と比較して、1分あたり150語を話すことができます。
実際、音声を使用した技術デバイスとの通信は非常に人気があり、自然になっているため、なぜ世界の最も裕福な企業がこれらのサービスを提供し始めたのか不思議に思っています。
開発のペースがこのトピックへの関心のレベルに必ずしも対応していなかったとしても、技術の歴史から、音声認識は新しい懸念からほど遠いことが示されています。 後で見るように、18世紀にまで遡る大きなブレークスルーは、デジタルアシスタントのプラットフォームを提供しました。
音声認識の初期の進歩は、会話者からの音素(音声の構成要素)の解釈も学習できるシステムの基礎として母音を作成することに主に焦点を当てていました。
これらの発明者たちは、自由に話せる機械を作成するための基本的な手段だけで、彼らが住んでいた技術的背景によって妨げられました。 しかし、彼らはその後のイノベーションの重要な先駆者となりました。
19世紀の終わりにトーマスエジソンによって最初に作成されたボイスレコーダーは、スピーチを録音することができ、毎日多数の録音を行う医師や秘書の間で人気を博しました。
しかし、この一連の研究が本物の音声認識につながったのは1950年代まででした。 これまでのところ、スピーチを作成して録音しようとする試みがありますが、まだ解釈はされていません。
Bell Labsによって作成されたマシンであるAudreyは、0〜9の数値を90%の精度で計算できました。 興味深いことに、このレベルの精度は、発明者が話したときにのみ記録されました。 しかし、他の人がオードリーに話しかけたときは、70%から80%しかありませんでした。
これは、音声認識の現在進行中の問題のいくつかを示しています。 それぞれの人が自分の声を持っているので、話されている言語は非常に矛盾している可能性があります。 標準化のレベルがはるかに高いテキストとは異なり、話し言葉は地域の方言、速度、強調、さらには社会階級や性別によって大きく異なります。 したがって、音声認識システムのスケーリングは常に大きな障害でした。
Harpyで働いていたAlexander Weibelは、カーネギーメロン大学でこの原理に基づいて作成された1,000語以上を理解できるマシンを開発しました。
「それで、あなたは「不自由」のようなものを持っています。それは「治療されている間」かもしれません。 または、「厄介なもの」と言うと、「私は異なるものをもたらす」と理解できます。
1990年代まで、最先端のシステムでさえパターンマッチングに基づいていました。音波は一連の数値に変換され、保存されていました。 その後、同じ音がデバイスで聞こえるとトリガーされます。 もちろん、これは、音を認識する良い機会を得るために、非常にはっきりと、ゆっくりと、背景雑音のない状況で話すことが必要であることを意味しました。
1980年代半ばにリリースされ、アルバートタンゴールにちなんで名付けられたIBMタンゴラは、世界最速のタイピストとなり、話者の声に適応することができました。 これには依然としてゆっくりとした明瞭な音声と背景ノイズの欠如が必要でしたが、隠れマルコフモデルの使用により、データをクラスタリングし、以前のパターンに基づいて将来の音素を予測することにより柔軟性が向上しました。
各ユーザーは20分間のトレーニング(録音されたスピーチの形式)を受けましたが、タンゴラは最大20,000の英単語といくつかの完全な文章を認識できました。
播種された音声認識技術の種は、この分野で最も重要かつ重要なイベントの1つでした。 音声認識は、各人の独自のコミュニケーション方法に適応することによってのみ達成できると考えられていましたが、このブレークスルーを達成することは容易ではありませんでした。
1997年になって初めて、世界初の「連続音声認識」(つまり、各単語間で一時停止する必要がなくなりました)がDragonのNaturallySpeakingソフトウェアの形式でリリースされました。 1分間に100語を理解できますが、現在も使用されており(更新された形式ではありますが)、医師からの需要があります。
科学的発見の多くの分野と同様に、機械学習は、今世紀の音声認識に最も大きな進歩をもたらしました。 Googleは最新のテクノロジーとクラウドコンピューティングのパワーを組み合わせて、データを交換し、機械学習アルゴリズムの精度を向上させました。
これにより、2008年にGoogle Voice Search iPhoneアプリが発売されました。
膨大な量のトレーニングデータのおかげで、音声検索は以前の音声認識技術よりも大幅に精度が向上しました。 Googleは音声検索結果にパーソナライズ要素を導入し、このデータを使用してHummingbirdアルゴリズムを開発し、使用されている言語のより微妙な理解を得ました。 これらのスレッドは、すべてのスマートフォンのほぼ50%を占めるGoogleアシスタントで接続されていました。
Appleが音声認識市場で発売したのはSiriであり、最初に大衆の想像力をつかんだ。 長年の研究の結果、このAIを搭載したデジタルアシスタントは、人類を音声認識の世界に導きました。
Siriの後、MicrosoftはCortanaを、AmazonはAlexaを、そしてギアは動き始めました。 最先端の音声認識プラットフォームを求めて、ハイテクの巨人の間で覇権をめぐる戦いがあります。
実際、私たちは車を学習するために何百年も費やし、平均的な人がほんの数年かかる旅を完了しました。 音素から始めて個々の単語、フレーズ、そして最後に文章を作成することで、機械は100%の精度で音声を理解できるようになりました。
これらの飛躍を前進させるために使用される方法は、人間の脳のスキームに基づいて原理を自由に要約する程度まで、より洗練されています。 クラウドコンピューティングコンピューターは何百万もの家に侵入し、音声で制御することができ、幅広いリクエストにインタラクティブな回答を提供することさえできます。
この旅はまだ不完全ですが、1950年代以来、私たちは部屋の大きさのコンピューターからはかなり離れています。
今日の音声認識
スマートフォンはもともと、SiriやCortanaなどのデジタルアシスタントの唯一の生息地でしたが、この概念は過去数年にわたって分散化されてきました。
現在、主に音声でアクティブ化されるホームアプリケーションに焦点が当てられていますが、これは本質的にトロイの木馬戦略です。 これらのシステムは、消費者の家の主要な場所をキャプチャし、「モノのインターネット」という広い概念の下で分類できるスマート(追跡)デバイスの流通のゲートです。 Google HomeまたはAmazon Echoを使用して、さまざまなインターネット対応デバイスをすでに管理できます.2020年までに、さらに多くの発明がリストに追加されます:スマート冷蔵庫、ヘッドフォン、ミラー、消防システム、さらに急速に増加する副作用イノベーションのリスト。
最近のGoogleの調査によると、ユーザーの50%以上がリビングルームで音声起動システムをサポートしており、かなりの数のユーザーが寝室やキッチンにシステムがあると報告しています。
実際、これが本質です。 Google(および競合他社)は、これらのホームデバイスを複数購入することを望んでいます。 そして、それらがより便利であるほど、より多くの人々がそれらを使い続けます。
彼らの野望は、この技術が今や日常業務に本当に役立つという事実によって大きく支援されています。 Alexa、Siri、Cortana、またはGoogleに明日の天気がどうなるかを尋ねると、完全にわかりやすい言葉によるレポートが提供されます。 このデバイスはまだ不完全ですが、音声認識は現在、ほとんどの人にとって許容できる精度レベルに達し、すべての主要なプラットフォームでエラー率が5%未満であると報告されています。
その結果、これらの企業はできるだけ早く家に「旗を掲げ」ようとします。 ハードウェアは、たとえばホームスピーカーシステムの形で、ほとんどの人がよく買うものではありません。 たとえば、消費者がGoogleHomeを購入した場合、競合企業から購入して屋根の下に無関係なデジタルエコシステムを作成する代わりに、Googleをサポートするデバイスで補完する可能性があります。 安定性と利便性を提供するデバイスを探すのははるかに簡単です。
この単純な理由から、AmazonがEcho Dotをたった29.99ドルで販売するのは理にかなっています。 これは、販売されたすべてのデバイスでのAmazonの短期的な経済的損失に相当しますが、長期的な利益はこれを補う以上のものです。
今日の推定によると、約3,300万台のスマートデバイスが既にインストールされており(Voice Labsレポート2017)、若い世代と古い世代の両方がこのテクノロジーを急速に採用しています。
Tech Crunchによると、
実際、「スーパーユーザー」アシスタントの人口統計は、毎月パーソナルアシスタントと2倍の時間を費やしている人々です。 これは平均して、月に1.5時間オンラインヘルパーを使用する52歳の女性です。
おそらく、大規模なテクノロジー企業にとって最も重要なことは、消費者がデバイスで買い物をするときに音声通信をより積極的に使用するように強制することです。
Googleは、ユーザーの62%が来月に音声を使用して購入する予定であり、58%がそれを使用して毎週の買い物リストを作成する予定であると報告しています
特に、AmazonとGoogleの既存のビジネス戦略に関する短期的な結論は、比較的透明です。 パイオニアの利点はこの分野でのブレークスルーのようです。特に音声認識は、快適なショッピングにつながるコミュニケーションインタラクションに進化し続けているためです。
ハイテクの巨人のための音声検索戦略の2つの焦点についてはすでに書いています:テクノロジーはユビキタスでスムーズでなければなりません。 音声はすでにマルチプラットフォームのエコシステムですが、私たちは音声が追求する遍在性からまだ少し離れています。
現在の競争で起こりそうな結果を知るためには、欧米市場の4つの主要プレーヤーであるAmazon、Google、Apple、Microsoftの長所と短所を評価する価値があります。
アマゾン
初期装備:エコー、エコードット、エコーショー、Fire TV Stick、Kindle。
デジタルアシスタント:Alexa
使用統計:
2017年のホリデーシーズン中に世界中で販売された「数千万台のAlexa対応デバイス」(Amazon)これまでに販売されたすべてのスマートデバイスの75%はAmazonデバイス(Tech Republic)
Echo Dotは休暇中にAmazonで一番売れたデバイスであり、AlexaはFire TV Stickの2位に含まれています。 (Amazon)
平均的なAlexaユーザーは、Google Home(Gartner)の5分と比較して、デバイスとの対話に1か月あたり18分を費やしています
Alexa(Amazon)には現在25,000を超えるスキルがあります。
レビュー:円筒形のデバイスEchoと彼の弟であるEcho Dotは、スマートデバイスの自由な突破口でした。 システムを多くの人気のあるサードパーティサービスに接続することにより、AmazonはEchoを何百万もの世帯に追加しました。
アマゾンの広報担当デイブ・リンプが最近言ったように、「個人的には負担が少ないが、より広範なタスクを解決するシステムアクセスを提供する重要なコンピューティングと考えています。」
ユビキタスは、販売指標に基づく本当の機会のようです。
祝祭シーズンの後、Echo Dotが全世界でAmazonで最も人気のある製品になったとき、AlexaアプリはライバルのGoogle製品に先んじて、App Storeでトップの位置を取りました。
オンラインストアとしてのAmazonのレガシーは、テクノロジーの収益化に関しては、組み込みのエッジを提供します。 Whole Foodsの買収は、他の企業がjeするようにオフラインとオンラインの世界を統合する機能により、これにさらなる重みを加えます。
さらに、アマゾンは、株価の高騰を維持するために広告に依存したことがありません。 それどころか、実際には。 その結果、短期的なプレッシャーが少なくなり、この面でイニシアチブをつかみ、スマートアプリケーションの分野をリードすることができます。
GoogleやFacebookに代わる真のオンラインの選択肢を探している広告主にとって、Amazonは実際の大文字との素晴らしい関係にあります。 しかし、ここのバランスはあまりにも脆弱であり、ここにとどまるのは巨人の努力の価値があります。 Amazonは、消費者の信頼と評判の点で最も失っているので、Alexaの広告に慎重に切り替えます。
同社はこれを行う計画があることを否定しているが、最近調査した会社L2 Incが報告したように、AmazonはAmazonのチョイスにお金を払うかどうかを尋ねて、特定のカテゴリーで最高の製品を指定する大手ブランドに頼った。
Amazonは、検索結果に有料広告以外の何かを提供する試みがさらに増えると予想されます。 音声には新しい広告ソリューションが必要であり、Amazonはまず少し後退して、Alexaの権利を侵害しないようにします。 また、最近発表された出版大手のハーストとのパートナーシップは、将来のサプライズの兆候です。
アレックスの成功の鍵は、Amazonが独自の資産を統合することと、すでに25,000を超えるイノベーションにつながっているサードパーティのサポートにあります。 新しいヘッドフォン、時計、冷蔵庫などのサポートが発表されたことで、Amazonは今後しばらくの間、音声認識技術を先取りしているようです。
グーグル
オリジナル機器:Google Home、Google Home Mini、Google Home Max、Pixelbook、Pixelスマートフォン、Pixel Buds、Chromecast、Nestスマートホーム製品。
デジタルアシスタント:Googleアシスタント
使用統計:
Google Homeは、米国のスマートフォン市場(eMarketer)で24%の市場シェアを獲得しています
Google Home(Google)には1000以上のアクティビティがあります
Google Assistantは、225を超えるホームコントロールブランドと1,500を超えるデバイスで利用できます(Google)
最も人気のあるGoogle Assistantアプリは、ゲームに続いてホームコントロールアプリ(Voicebot.ai)です。
レビュー:Google Assistantは、世界最大の検索エンジンに直接結び付けられており、ユーザーがこれまでに知らなかった最大のデータベースに直接アクセスできます。 これは、特にGoogleが音声認識プログラムの改善を続けているため、デジタルアシスタントと連携するための悪いリポジトリではありません。
Stone Temple Consultingが5,000件のクエリについて行った最近の調査では、Googleが非常に長い距離にわたって最も正確なソリューションを提供していることが示されています。
Googleフォト、Googleマップ、YouTube、および他の多くの効果的なサービスと組み合わせて、Googleアシスタントには統合機能が欠けていません。
おそらく、Googleは過去に製品の温かい歓迎を受けた後、ハードウェア市場に再び参入する予定はなかったのでしょう。 しかし、この新しい市場により、検索大手は非常に深刻な行動を取るようになりました。 現時点ではエラーの余地はないため、Pixelスマートフォン、Chromecast、そしてもちろんホームスマートデバイスの助けを借りて、Googleが問題を解決しました。
Home Miniは非常に人気があり、GoogleはHome Maxをコレクションに追加しました。これはApple HomePodよりも高価です。 すべての拠点に優れたカバレッジが提供されます。
Googleは、ゲームデバイスが長期的なソリューションではないことを認識しています。 これは今のところ必要な戦略ですが、Googleは他の機器メーカーにAndroidスマートフォン用のソフトウェアと同様にアシスタントを統合するよう説得したいと考えています。 これにより、コストのかかる生産コストは排除されますが、重要な通貨である消費者の注意は維持されます。
この計画はすでに開始されており、いくつかのスマートディスプレイのサポートも発表されています。
この革新により、消費者がスマートデバイスと対話するための新鮮な視覚要素が追加され、Googleフォト、ハングアウト、YouTubeを使用できるようになります。
また、GoogleはAIアシスタントに「より人間的なタッチ」を加えたいと考えており、コメディアン、ビデオゲームデザイナー、共感の専門家のチームを雇って、製品に個性を加えています。
結局のところ、Googleは広告会社なので、次のプロジェクトは間違いなくこの技術を収益化するでしょう。 現時点での主な目標は、競争よりも優れた、より人間的な体験を提供し、より多くの世帯で実質的な領域を獲得することです。 検索大手は間違いなくこの状況からお金を稼ぐための新しい方法を見つけるでしょう。
アマゾンよりも低速でしたが、Googleの新しい広告と製品の範囲の拡大は、短期的および長期的には依然として深刻な競争相手であることを意味しています。
りんご
ハードウェア:Apple HomePod(2018年に349ドルで発売予定)、iPhone、MacBooks、AirPods
デジタルアシスタント:Siri
使用統計:
スマートフォンの42.5%がApple Siriデジタルアシスタントを搭載(視認性が向上)
2017年7月現在、米国のアクティブユーザー数は4,140万人で、前年より15%減少しています(Verto Analytics)
iPhoneユーザーの19%が少なくとも毎日Siriとやり取りしています(HubSpot)
レビュー:Appleは、スマートフォンおよびラップトップ市場でうらやましい地位を維持しており、SiriをOSと統合することで、他社が単純に複製できないようにしています。 スマートフォンはAndroid上で動作し、その結果、ユーザーの注意を引くためにGoogle Assistantと競合する必要があるため、Bixbyアシスタントを備えたSamsungでさえ、このレベルの相乗効果を誇ることはできません。
ただし、統計によると、消費者のスマートホームで機器を使用する場合はわずかに遅れています。 HomePodは、ほぼ確実に、価格が350ドルのEcho DotやGoogle Home Miniよりもはるかに優れたサウンドを提供します。 環境を評価し、それに応じて音質を調整する機能など、多くの印象的な機能が含まれます。
HomePodの発売は遅れており、業界関係者はその理由はSiriであると述べた。 Apple保護はユーザーに特定の利点を提供しますが、音声認識などの技術に関してはいくつかの欠点があります。 Googleはクラウドで処理する大量の情報にアクセスし、それを使用してすべてのユーザーのアシスタントの作業を改善します。 Appleにはそのような貴重なリソースはなく、同じ量しかありません。これは、Siriが市場に導入されて以来、Siriの開発を遅らせています。
それにもかかわらず、これらはおそらく短期的な問題であると思われます。
Appleは、中核となるビジネス戦略から遠ざかり、これまでのところ、非常にうまくいきます。 HomePodは、市場のプレミアムエンドに位置し、Appleの設計の伝統に基づいて、優れたサウンドの提供に注力します。 Apple Musicのサポートのみで開始されるため、Appleがサードパーティへの門戸を開かない限り、熱心なファンにのみ残ることができます。 Appleにとって幸いなことに、彼らは製品を踏み台にするのに十分です。 見てみましょう。
マイクロソフト
ハードウェア:Harman / kardon Invoke、Windowsスマートフォン、Microsoftラップトップ
デジタルアシスタント:Cortana
使用統計:
5.1%のスマートフォンにCortana Assistantがインストールされています。
Cortanaの月間ユーザー数は1億3,300万人(Tech Radar)
Bingリクエストの25%-音声による(Microsoft)
レビュー:マイクロソフトは音声認識の面では比較的安定していましたが、その切り札には、音声認識製品の成功に必要な多くのコンポーネントが含まれています。
非常に大きな市場シェア、Officeスイートのサービス、およびSkypeやLinkedInなどの一般的な製品を使用して、Microsoftを廃棄することはできません。
AppleがアシスタントのSiriでBingをGoogleに失敗させたという決定は、Microsoftの野望に打撃を与えましたが、この分野ではMicrosoftにとってBingは依然として競争上の優位性です。 Bingは貴重なデータのソースであり、Cortanaをより効果的な音声認識ツールに変換するのに役立ちました。
Harman / kardonとCortanaによって開発され、製品に統合されたInvokeスピーカーも、より手頃な99.95ドルに削減されました。
サーモスタットなどのスマートホーム製品だけでなく、Cortanaをサポートする新しいスピーカーも開発中です。 これは、需要の増加に私たちを驚かせるかもしれませんが、Microsoftはこのパーティーに少し遅れているかもしれないという鋭い感覚があります。
Microsoftが非常に真剣に競争できるのは、これがオフィス環境であり、これもAmazonの中心的な要因になっています。 マイクロソフトは、この市場で足場を築くために別の道を歩む用意がありますが、それでも非常に収益性の高いセグメントになる可能性があります。
音声認識技術の未来
音声認識技術の真の可能性を実現するにはまだまだ遠い。 問題は、テクノロジー自体の洗練と私たちの生活への統合の両方に関係しています。 現在のデジタルアシスタントは音声を非常にうまく解釈できますが、テクノロジープロバイダーが期待するインタラクティブなインターフェイスではありません。 さらに、音声認識は、完成品が少なくないため、依然として制限されています。
音声認識の初期の発見と比較して、進歩のペースは実際には非常に驚異的です。
そして、これに基づいて、近い将来に目を向け、周囲の世界と対話する方法の変化を予測できます。 Amazonの「アンビエントコンピューティング」の概念は、ここでは非常に適切なようです。
スマートデバイス市場には成長の大きな余地があり、米国の住宅の75%が2020年末までに少なくとも1つを持つと予測されています。
現在、ユーザーがデバイスとの会話で最初のぎこちなさを克服し始めたとき、Alexaにケトルを沸かすかエスプレッソを作るように頼むという考えはそれほどワイルドではありません。
音声は独自のインターフェイスになり、スマートフォンを超えて自宅に、そしてすぐに他の多くの情報コンテキストにまで広がります。
テクノロジーの進歩に伴い、より複雑なI / O関係が見られると予想されます。今のところ、音声通信は応答の可能性をある程度制限しますが、Amazon Echo ShowやGoogleのスマートディスプレイのサポートなどの革新により、多くの新しい対話の機会が開かれます。AppleとGoogleは、消費者の食欲が必要なレベルに達したときに、ARおよびVRアプリケーションも含めます。ただし、マイナーな問題はまだ残っています。まず、音声検索プロバイダーは、短い回答に最適なメディアを介して選択肢を提供する方法を見つける必要があります。それ以外の場合、ソリューションの予算が最も高い回答ではなく、ユーザーがリクエストに対して最適な応答を受け取るようにするにはどうすればよいでしょうか?, .
, Google, , , - . , .
, .
, . , , . , , - , . « » .
Amazon , , . Amazon's Choice .
Google . , Google Assistant Alexa mazon .
, . , , , , .
, , — . , , , .