いいえ、それは画像認識アルゴリズムに関するものではありません-特にAIを作成する際の使用の制限に関するものです。
私の意見では、人とコンピューターシステムによる視覚画像の認識は非常に異なっており、あまり一般的ではありません。 人が「見える」と言うとき、彼は実際に自分が見る以上に考えます。これは、画像認識のための機器を備えたコンピュータシステムについては言えません。
私はそのアイデアが新しいものではないことを知っていますが、知性を持つと主張するロボットの例によってそれが真実であることを確認するためにもう一度提案します。 テストの質問は次のとおりです。完全に人間のようになるためには、周囲の世界はどのようなロボットを見るべきでしょうか?
もちろん、ロボットはオブジェクトを認識しなければなりません。 そうそう、アルゴリズムはこれに対処します-私が理解しているように、元のサンプルのトレーニングを通して。 しかし、これは壊滅的に小さいです!
私。まず、周囲の世界の各オブジェクトは多くのオブジェクトで構成されており、他のオブジェクトのサブセットです。 このプロパティをネストと呼びます。 しかし、単にオブジェクトに名前がないため、アルゴリズムがトレーニングされる初期サンプルのベースにない場合はどうでしょうか?この場合、ロボットは何を認識する必要がありますか?
私が現在ウィンドウで観察しているクラウドには、名前付きのパーツはありませんが、明らかにエッジとミドルで構成されています。 ただし、雲の端と中央には特別な用語はなく、造語されていません。 名前のないオブジェクトを示すために、画像認識アルゴリズムの機能に含まれていない言葉遣い(「クラウド」-オブジェクトの種類、「クラウドエッジ」-言葉遣い)を使用しました。
論理ブロックのないアルゴリズムはほとんど役に立ちません。 アルゴリズムがオブジェクト全体の一部を検出した場合、それが常に把握できるわけではありません-したがって、ロボットはそれが何であるかを知ることができません。
II。第二に、世界を構成するオブジェクトのリストは閉じられていません。常に更新されています。
人は現実のオブジェクトを構築し、新しい発見されたオブジェクト、たとえば動物種に名前を割り当てることができます。 彼は人間の頭と胴体を持つ馬をケンタウロスと呼びますが、このために、彼は最初にそのクリーチャーが人間の頭と胴体を持ち、それ以外はすべて馬であることに気づき、それによって新しいものとして見られる物体を認識します。 これが人間の脳が行うことです。 そして、入力データがない場合のアルゴリズムは、そのようなクリーチャーを人または馬のいずれかとして決定します。タイプの特性を操作せずに、それらの組み合わせを確立することはできません。
ロボットが人間のようになるためには、ロボットの新しいタイプのオブジェクトを識別し、これらのタイプに名前を割り当てることができる必要があります。 新しいタイプの説明には、既知のタイプの特性を含める必要があります。 そして、ロボットがどうやってそれを知らないのか、なぜ地球上でそれが必要なのか、そんなに美しいのか?
偵察ロボットを火星に送ったとしましょう。 ロボットは異常なものを認識しますが、知られている地上の用語でのみオブジェクトを識別することができます。 これは、ロボットからの言葉によるメッセージを聞く人々に何を与えますか? もちろん、何かを与えることもあります(地球オブジェクトが火星で見つかった場合)、そして他の場合には、何も与えません(火星のオブジェクトが地球オブジェクトに似ていない場合)。
画像は別の問題です。人自身がすべてを確認し、正しく評価して名前を付けることができます。 事前に訓練された画像認識アルゴリズムではなく、より巧妙に構築された人間の脳を介してのみ。
III。第三に、オブジェクトの個別化には問題があります。
周囲の世界は特定のオブジェクトで構成されています。 実際には、特定のオブジェクトのみを表示できます。 ただし、場合によっては、口頭で個別化する必要があり、個人名を使用する(「Vasya Petrov」)か、発音または暗示する特定のオブジェクトの単純な表示(「この表」)を使用します。 私がオブジェクトのタイプ(「人」、「テーブル」)と呼ぶものは、特定の共通の特性を持つオブジェクトの集合的な名前です。
画像認識アルゴリズムは、元のサンプルでトレーニングされていれば、個別化されたオブジェクトと個別化されていないオブジェクトの両方を認識できます。これは良いことです。 混雑した場所での顔認識など。 悪いことは、そのようなアルゴリズムは、どのオブジェクトが個性を持っていると認識されるべきか、どのオブジェクトが絶対に価値がないかを理解しないことです。
AIの所有者であるロボットは、次のようなメッセージを突然表示することがあります。
-ああ、私は一週間前にこの老婦人を見ました!しかし、特にそのようなタスクを実行するためのコンピューティングパワーの妥当性について十分な根拠のある懸念があるため、草のブレードに関するそのようなレプリカを悪用することは価値がありません。
個人化された老婦人と、無数の草の野草との間に細い線が引かれている場所は明確ではありません。それは、老婦人以上によって個人化されていますが、個人化の観点からは人の興味を引くものではありません。 この意味で認識される画像とは何ですか? ほとんど何もありません-周囲の現実の困難から痛みを伴う認識の始まり。
IV。第四に、相互の空間的配置によって決定されるオブジェクトのダイナミクス。 これは、私が言うには、何かです!
私は暖炉の前の深い肘掛け椅子に座って、今起きようとしています。
「ロボットは何を見ているの?」私たちの日常の観点から見ると、ロボットは私が椅子から立ち上がっているのを見ます。 彼は何に答えるべきですか? おそらく関連する答えは次のとおりです。
「椅子から立ち上がっているのが見えます。」これを行うには、ロボットは私が誰であるか、椅子が何であるか、上昇することの意味を知る必要があります...
適切な設定後の画像認識アルゴリズムは、私と椅子を認識することができます。フレームを比較することで、椅子から私が相互に離れたという事実を判断できますが、「上昇」とはどういう意味ですか? 物理的現実において「隆起」はどのように起こりますか?
私がすでに起きて立ち去った場合、すべてが非常に簡単です。 私が椅子から離れた後、オフィスのすべてのオブジェクトは、元々椅子にいて、しばらくして椅子から離れていた私を除いて、互いに対する空間的位置を変更しませんでした。 私が椅子を去ったと結論付けることは許されます。
私がまだ椅子から立ち上がる過程にいる場合、すべてがやや複雑です。 私はいまだに椅子の隣にいますが、私の体の部分の相対的な空間的位置は変わりました:
- 最初は、脛骨と体幹は直立位置にあり、太ももは水平位置にありました(私は座っていました)、
- 次の瞬間、体のすべての部分が直立した状態になりました(私は立ち上がりました)。
人としての私の行動を観察してください、彼は私が椅子から立ち上がっていると即座に結論付けます。 人にとって、これは視覚的な認識ほど論理的な結論ではありません。実際、私の体の部分の相対的な位置の変化が見られますが、彼は文字通り椅子から立ち上がるのを見るでしょう。 しかし、実際には、誰かがロボットに説明しなければならないという論理的な結論になるか、ロボットがこの論理的な結論を自分で解決しなければなりません。
両方とも同様に困難です。
- 立ち上がることは、身体の特定の部分の相互の空間的位置の連続的な変化であるという初期知識ベース情報を入力することは、どういうわけか刺激を与えません。
- ロボットが、人工思考の生き物として、上記の身体の特定の部分の相対的な空間的位置の変化が立ち上がりと呼ばれるとすぐに推測することを期待するのは愚かです。 人間では、このプロセスには何年もかかりますが、ロボットにはどれくらいかかりますか?
そして、画像認識アルゴリズムはそれと何の関係がありますか? 彼らは、私が椅子から立ち上がっていると判断することはできません。
V.「立ち上がる」とは抽象的な概念であり、物質的なオブジェクトの特性の変化、この場合は相互の空間的位置の変化によって決定されます。 一般的な場合、抽象概念自体は物質世界には存在しないが、物質オブジェクトに完全に依存しているため、これはあらゆる抽象概念に当てはまります。 私たちはしばしば個人的に観察されるようにそれらを知覚しますが。
口を開かずに顎を右または左に動かします-このアクションは何と呼ばれますか? しかし、まさか。 間違いなく、そのような動きは一般的に人にとって特徴的ではないという理由からです。 議論されたアルゴリズムを使用して、ロボットは何かを見るでしょうが、ポイントは何ですか? 初期サンプルのベースでは、目的の名前は存在せず、ロボットの記録されたアクションに名前を付けることは困難です。 また、名前のないアクションや他の抽象的な概念に詳細な言葉の定式化を与えるために、画像認識アルゴリズムは訓練されていません。
実際、オブジェクトに関するだけでなく、抽象的な概念に関しても、最初の段落の複製があります。 ただし、前の段落と次の段落の残りの部分は、抽象概念にリンクすることもできます。抽象化を使用するときは、複雑さのレベルを上げることに注意を払っています。
VI。第六に、因果関係。
道路から飛び出し、フェンスを取り壊すピックアップトラックを見ていると想像してください。 フェンスが取り壊される理由はピックアップの動きであり、ピックアップの動きはフェンスの破壊につながります。
-自分の目で見ました!これは質問への答えです、あなたはそれが何が起こったのか考えましたか? そして、実際に何を見ましたか?
このダイナミックのいくつかのアイテム:
- ピックアップトラックが道路を運転した
- ピックアップがフェンスの近くに来た、
- フェンスの形状と場所が変更されました。
視覚的な認識に基づいて、ロボットは通常の場合、フェンスの形状と位置が変わらないことを認識しなければなりません。ここでは、ピックアップとの接触の結果として発生しました。 サブジェクト原因とサブジェクト効果は互いに接触している必要があります。そうでなければ、それらの関係には因果関係がありません。
ここでは、論理的トラップに陥りますが、これは他のオブジェクトがサブジェクトの理由だけでなく、サブジェクトの効果と接触できるためです。
ピックアップの時点で、フェンスのジャックドーに当たったとします。 ピックアップトラックとカラスは同時にフェンスに接触していました。フェンスが取り外された接触の結果をどのように判断するのでしょうか。
おそらく再現性を使用して:
- いずれの場合も、カラスがフェンスの上に座ると、フェンスが取り壊され、カラスが非難されることになります。
- いずれの場合も、ピックアップがフェンスに衝突したときに、ピックアップのせいにする必要があります。
したがって、フェンスがピックアップによって取り壊されたという結論は、正確な観察ではなく、接触している物体の観察に基づいた分析の結果です。
一方、アクションは、たとえば鉄の物体に対する磁石のアクションなど、ある距離で実行することができます。 磁石を爪に近づけると、ロボットはどのようにして爪を磁石に向かって突進させるのでしょうか? 視覚的な画像は次のようなものではありません。
- 磁石が近づいているが、爪と接触していない、
- 同じ瞬間に、爪は自発的に磁石に突進し、磁石と接触します。
ご覧のように、目撃者が自分の目で見たと鉄信念で宣言している場合でも、因果関係を追跡することは非常に困難です。 画像認識アルゴリズムはここでは無力です。
VII。最後に、これが視覚認識の目標の選択です。
周囲の視覚的画像は、互いに入れ子になった数百および数千のオブジェクトで構成されている場合があり、その多くは空間的位置やその他の特性を絶えず変化させています。 明らかに、ロボットは、街のすべての人のように、野原のすべての草の葉を認識する必要はありません。実行するタスクに応じて、重要なものだけを認識する必要があります。
画像認識アルゴリズムをいくつかのオブジェクトの知覚に合わせて調整し、他のオブジェクトを無視すると、特に現在の目標が途中で変化する可能性があるため、何に注意を払い、何を無視するのかが事前にわからないため、動作しません。 互いに入れ子になった何千ものオブジェクト(文字通り各オブジェクト)を最初に認識して分析し、現在の問題を解決するために不可欠なオブジェクトと関心のないオブジェクトを判断する必要があるときに、状況が発生することがあります。 これは、人が彼の周りの世界をどのように知覚するかです:彼は重要なものだけを見て、興味のないバックグラウンドイベントに注意を払っていません。 彼が成功する方法は秘密です。
そして、ロボットは、最も近代的で独創的な画像認識アルゴリズムを備えていますか?..火星人のエイリアンによる攻撃中に、天気予報でレポートを開始し、彼の前に広がる新しい風景の説明を続けると、攻撃自体を報告する時間がありません。
結論- 視覚画像の単純な認識は、人間の目を置き換えません。
- 画像認識アルゴリズムは、非常に狭い範囲の補助ツールです。
- ロボットが考えるだけでなく、人間の目で見ることもできるようにするには、パターン認識だけでなく、本格的でありながら達成不可能な人間の思考にもアルゴリズムが必要です。