約30年前、人工知能に関する多くの本は、将来、人間とコンピューターの通信は自然言語で行われ、他のすべてのインターフェイスは過去のものになると主張しました。 同じ絵が、さまざまなSF映画でよく見られます。 しかし、音声インターフェイスは本当に効率的ですか? 私たちの経験では、組織のプロジェクト管理システムを音声インターフェイスを備えたチャットボットに置き換えて、何が起こるかを確認します。
小さな余談:
私は、しばらくの間、Habréが「管理」と「開発」に分かれているという事実に常に困惑しています。 そして、記事が管理システムの開発に関するものである場合はどうでしょうか? 正直に言って、「管理」セクションに何も書いたことはありませんが、ロジックは、現在の資料がここに来る可能性が高いことを示唆しています。
しかし、物語の話題から逸脱してすみません、さあ、戻りましょう。
ステージ1.開始
すべてが小さく始まった。 当社は従来、タスクの分散と結果の制御に問題がありました...より正確には、1.5人がそこで働いていたのに何もありませんでした。 そして、スタッフが8人に急増したとき、彼らは始まりました-メモ帳とメッセンジャーは、仕事を整理するための非効率的な手段になりました。 その後、TrelloとAsanaを使用してみましたが、ある程度は問題が解決しました。 しかし、ある晴れた日、音声インターフェイスを接続して何が起こるかを確認する「素晴らしい」アイデアが訪れました。 問題は小さいように見えます-「必要なのは」音声またはチャットでタスクを作成し、どのタスクを実行する必要があるかを見つけることができるということです。
このアイデアが実践された時点では、類似物はありませんでした(Microsoft DynamicsのCortanaは英語チームのみを理解していました)。
プロトタイプを組み立てるのに数週間かかりました。 当初、彼らは機械学習に煩わされず、コマンドの意味をテンプレートで認識することを決めました。 多くのテンプレートを作成できるという事実に基づいており、主要なコマンドセットは小さく、誰もがすぐに覚えられると想定しています。 音声認識については、GoogleのAPIを接続しただけです(経験上、最適に機能することがわかっています)。
最初の結果は上の図のようになりました。 ウィンドウ、入力行、チャット。
実践のみが真実の基準であるため、より便利なものを比較できるように、従業員の半数に対して示された結果を実装することにしました。
ステージ2。使用することはできません。
このフレーズは、テストに関係するすべての人が言いました。 典型的な操作を実行するのに必要な時間を測定することにより、速度が低下することがわかりました。 たとえば、タスクを作成するのに1分以上かかりました(「コントロールグループ」では27〜40秒)。 時間を測定するために、最初はストップウォッチを使用しました。
多くの理由がありました。 第1に、音声認識は理論上(そしておそらく英語のみ)でのみ「人間よりも優れています」。 単純な「Dmitry Ivanovichが満たす」でさえ、簡単に「Dmitry Ivan HIV悪臭」に変わります。 そして、エラーのない長いフレーズを言うのは完全に難しいです。 そのため、すべての投票でコマンドがテキストで作成されました。 わいせつであると同時に、プログラムの仕事をさらに複雑にしました。
チームの記憶も簡単ではありませんでした。 誰かが記憶し、誰かがそれがどのように思い浮かぶかを書き続けた。 「私が持っているタスク」と「私が持っているタスク」の微妙な違いは、必ずしも人によって捕らえられるわけではないことが判明しました。 また、タスクを作成するときに必要な情報がすべて1つに収まらない場合は、長い間buttonする必要があります。「サイトにボタンを配置するタスクの期限を9月15日に割り当てる」
最後に、グラフィカルインターフェイスで5秒以内にドラッグアンドドロップすることで解決されることで、チャットボットは「機能しないプログラムのエラーを修正し、その他のセクションをエラー修正セクションに転送するタスク」に変わります。 要するに、音声制御を備えたコマンドラインはGUIを置き換えません
ステージ3.バグに取り組む
良い場合は、ステージ2で停止する価値があるでしょう。 しかし、
ロバの男は頑固な生き物です。 私たちは状況を分析し、なぜチャットボットではなく、音声で他の人に速く説明するのかという質問を自問しました。 主な調査結果は次のとおりです。
- 人々は、対話者によるタスクのコンテキストと理解に依存しています。 すなわち 「そこにこのがらくたを取り、それにそのようなゴミを付けてください」-はるかに短い。
- 人々は何かを説明するために紙とペンを使用します。
- 人々は言われていない指示を理解しています。 同じフレーズの意味は、コンテキストに基づいて変化します。
- 人々は短い名前を使い、時にはニックネームを使います。
これに基づいて、新しい機能が実装されました。
- コンテキストコマンドを使用する機能-最後に作成または言及された1つ以上のタスク。
- タスク名、類似の名前などのスニペットに言及する機能
- 従業員をリストし、リストで最も類似した名前を検索します。
- タスクを表示するための最小限のGUI
- テンプレートのオプションのリストを拡張し、数十の新しいチームを追加しました。
- システム苦情登録機能
さらに、彼らは時間を測定する方法を改善しました。 現在、時間は4つの典型的なユースケースのセットで測定されています(新しいタスクを設定し、何をすべきかを見つけ、タスクが完了したことに注意し、作業結果を確認します)。 それぞれの場合で、5つの例が追加され、平均時間が計算されました。 新しいテストでは、チャットボットと通常のシステムの有効性がほぼ同等であることが示されました。 苦情の数は主観的に幾分減少しました(人々はそれに慣れていますか?)、それにもかかわらず、多くの不満が残っています。
チャットボットの小さな(主観的な)利点を見つけることもできました。
- 一部の人々は、チャットウィンドウのボタンとラベルが少ないため、「ブレインロード」が少ないと主張しました。
- 電話で作業する場合、キーボードが典型的なコマンドを学習した後、テキストを使用してコマンドを入力すること(そしてほとんどの人はまだ音声入力を使用しないことを覚えています)。 これは、インターフェイスボタンを押すよりも高速であると主張されています。
ご覧のとおり、プラスはまだ非常に不安定です。 苦情の分析は次のことを示しました。
- 据え置き型コンピューターでは、一般的なタスクを実行するためのボタンはまだ非常に少ない
- たくさんのチームがいて、一生懸命に覚えて、長い間書いていました
- 十分な馴染みのない機能
ステージ4.機能、インテリジェンス、インターフェイス
現実には、人間のプログラマーは上司に「私が持っているタスクは何ですか」と尋ねることはなく、すべてのタスクがリストされるのを待たずに、「今、私はそのようなタスクを実行します」と言います(はい、ばかげています。実際に動作します)。
問題について考えた後、エグゼキュータコマンドのセットを「タスクを与える」、「タスクの準備ができている」、「問題がある」、「別のを与える」に減らしました。
言うのは簡単ですが。 実際には、「タスクを与える」は、タスクの優先順位、期限、複雑さ、実行者の作業負荷を分析し、次のタスクを自動的に選択する複雑な知的チームになりました。
演奏者にとっては、その瞬間に幸せが訪れました。 考える必要はありません! 何も押す必要はありません! タスクを取り、それを実行し、次のタスクを取ります。 まとめて言うと、新しいシステムが最もクールです! もう欲しくありません
しかし、私たちは自然言語のインターフェースの意味の重要なポイントを理解しました-長く複雑に包まれた文章を理解することではありません。 実際、チャットボットは、対象領域を理解するインテリジェンスを持っている場合にのみ効果的です。 人は自分のスピーチを理解するプログラムに目を向けると、システムがスマートになり、問題のいくつかを解決できるようになるまで無意識に待ちます。 少なくとも何をすべきかを説明します。 そして、おそらく彼女自身がエグゼキューターを任命し、病気の従業員のタスクを分配するでしょう。 しかし、実際には、チャットボットは、せいぜい犬の知性を持っています-「立つ、うそをつく、座る」。 したがって、プログラムに「何をすべきかを決定するためのより多くの権利」があるときにオプションを試したところ、興味深い結果が得られました。
実際、すべてがそれほど単純ではありません。 このような自動選択を備えたシステムでは、実際の状況に対処できないという多くの懸念がありました。 さらに、リーダーに大きな負荷がかかるため、リーダーはシステムに必要な情報を提供し、適切に優先順位を付ける必要があります(このバージョンでは、システムはまだ何をどのように決定するのではなく、計画を実行しようとします)。 プラクティスは多少の調整を行いましたが、全体として、驚くべきことに、新しい手法はよりシンプルで効率的であることが判明しました。
ただし、実行者の観点からは、チャットボットは基本的に不要になりました。 上記の名前を持つ4つのボタンで十分です。
2番目の重要な革新は、チームを理解するための自己学習モジュールでした。 テンプレートによるコマンドの認識は今のところ残しましたが、ケース分析に基づいて新しいテンプレートを自動的に作成する機能を追加しました。 その結果、多くのテンプレートが迅速に作成され、すべての発音オプションが調査され(「悪臭」など)、音声コマンドが通常どおり使用できるようになりました(特定の人に合わせて調整されました)。
最後に、生産性の向上がありました-「標準」と比較して、システムでの作業が(一般的なタスクのテストセットにより)平均で45%速くなりました。
さらに、いくつかの主観的な利点に気付きました。
- 情報を取得したり、タスクを設定したり、コンピューターの隣を行ったり来たりすることができます(そう考える方が簡単な場合もあります)
- 夕方や外出先では、電話からタスクを作成する方がはるかに高速で簡単です。 したがって、失われ忘れられるタスクが少なくなりました。
- あなたは電話で人のようにプログラムに話すことができます
「伝統的な」システムに戻りたいとは思いません。 それどころか、キーボードとマウスを使用してタスクを入力する必要があるという考えは恐ろしいものです。 しかし、多くの人がいるオフィスでは、プログラムに何かを口述することは心理的に不快です。
また、プログラムインターフェイスも開発しました。 これは彼がどのように見え始めたかです:
機能は他のプロジェクト管理システムにあるものに近づきました。 日付、タスク間の依存関係、セクションとサブセクション、通知、レポート。
おわりに
その結果、効率が向上しました。 ある意味で判明しましたが、theの混乱-「ax」(チャットボット)に多くの機能を追加する必要がありましたが、それなしでは役に立たなかったのです。 言語処理システムの作成ですでにかなりの経験があるため、レーキを何度も踏んで、システムが実際のメリットをもたらし始める前に6か月以上を費やしました。
そして、もちろん、この記事で伝えられたのは、氷山の一角に過ぎません-遭遇した最も基本的な瞬間です。
PS
プログラムとのコミュニケーションがどのように見えるかについての短いビデオを見ることができます