拡張現実の敷居について：開発者のために準備すること（3/3）

拡張現実に関するレポートのトランスクリプト三部作（パート1とパート2を参照）の3番目と最後のパート。

拡張現実に適用される画像処理についてです。

マーカーとタグの検出;
動きのマーカーキャプチャのマルチチャンバーシステム;
構造化された強調表示。
Zセンサー（特にKinect）;
ポーズのデータベースの使用。
純粋な光学式モーションキャプチャシステム。

そして、おやつのために-犬と一緒に写真の意味を明確にする拡張現実の未来の主観的見解。

マーカー

さらに興味深いのは、カメラから受け取ったビデオ画像の処理だけです。最も簡単なのはマーカーの使用です。

たとえば、 Sony Moveで見たように、明るいボールがあります。マーカーの実際の直径（D）がわかっていれば、カメラのパラメーター（呼び出されているとき）、視野角（視野角= FOV）、および解像度（幅（W）と高さ（ H）、画像へのマーカーの投影のピクセル単位のサイズ（d）がわかれば、実際のオブジェクトまでの距離（L）を推定できます。一般に、カメラ座標系での位置を推定できます。

これは、視野角が75°、640×480で、ボールが5 cmであり、20ピクセルとして表示される場合、完全に単純で愚かな式に従って行われます。それは1.5メートルを意味します。 Sony Moveトラッキングは、この基本原則に基づいて機能します。加速度計があり、ジャイロスコープがあり、磁気コンパスがあります。これにより、角度を見ることができますが、まだ宇宙のどこにあるのでしょうか。

ちなみに、Sony Playstation Eyeという完全にシンプルなカメラがあります。比較的安価であると同時に、高周波数で低歪み（幾何学的）で撮影できます。

そして一般的に、これに基づいて、どこに何があるかを理解し、ここでそのような拡張現実を行うことができます。ここで、この場合、マーカーからの位置がわかるため、Sony Moveの代わりに男が手を描きました。マーカーが近いか遠いかによって、手の大きさを調整できるため、コーナーではこの手の向きを決める方法がわかります。

高周波はいくらですか？

60フレーム/秒、彼女は77の発行方法も知っていますが、これはある種の極端なモードです。

画像上のマーカーを検出する方法

画像上でマーカーを見つける方法は？まあ、最も愚かな方法はすぐそばにあります。つまり何らかの画像があり、これは何らかの信号であり、マーカーは必要な色の中で最も明るいだけで、しきい値によってそれらをカットするだけであることがわかります。実際、ほとんどのアルゴリズムはそのように機能します。内部にあらゆる種類のガウスを入力するトリッキーな検出器がありますが、それらは非常に高価であり、リアルタイムで表示されるものは、おそらく何らかのひねりを加えた、おそらく単純なしきい値です。

たとえば、このようなトリッキーなマーカーは、拡張現実でよく使用されます。これは、ある種の2次元バーコードであり、より単純です。ここでそれらが検出され、今、それらの上に任意の図を描くことができます：

彼らはどうやってそれをしますか？実際、元の画像もここにあり、しきい値で切り取られ、輪郭がクリーンアップされます。この二値化された画像を使用すると、すでにグリッドをオーバーレイし、塗りつぶされているもの、されていないものを理解し、パターンを適用できます：

画像処理におけるこのすべての魔法は、多くの場合、いくつかの完全に愚かなアルゴリズムの混合物であり、最も重要なのは、この混合物を選択するための主要な革新です。

しかし、よりトリッキーなアルゴリズムがあり、計算能力が成長し、利用可能になっています。

N個のカメラがあり、M個のマーカーがある場合、一般に三角測量を実行して空間内の各マーカーの位置を計算し、各平面に投影される方法を理解し、これに基づいて、より複雑なものを構築できます。

たとえば、このような恐竜からこのシステムを積極的に活用しているのは、この考えがVICONです。費用は約10万ドルです。人は特別なスーツに身を包み、多数のマーカーに囲まれ、多数のカメラを配置します。実際、これらのマーカーの位置に基づいて、これらのスケルトンを再構築することができます。

このマーカーによって追跡されるものに基づいて、人間の骨格がどのように動くかを再構築します。ちなみに、ビデオは非常に暗く、マーカー自体はほとんど見えません。マーカーは赤外線で照らされており、カメラには赤外線検出器があります。

ちなみに、カメラ自体はマーカーの座標によってコンピューターに駆動されるだけです。なぜなら、非常に多くのカメラからコンピューターに画像を駆動するため、現在のバスが何であれ...したがって、最も愚かなアルゴリズムがカメラ自体に縫い込まれています-しきい値、特別なチップ、そしてそれは既にコンピューターにありますマーカー画像の座標を大まかに言えば（x、y）転送し、コンピューターは脱穀しています。

しかし、すべて同じように、マーカーによって骨格の位置を復元するのに十分なほどunningな数学があり、それはまだ非常に複雑です。ここでは、10万ドルで販売していますが、本質的には、産業用マーカーシステムの中で唯一の深刻な競合他社であるOptiTrackです。それらは6000ドルから始まるものを販売しますが、少なくとも1万は正常に機能します。しかし、そこには多くの制限があります-1人の俳優など。

これはそんな市場なので、あなたは理解している、それはまだ高価です。

合計：画像を処理するのは難しいので、外に出すことができます：マーカーを使用する-しきい値をカットします。それで、ドットがすでにあります。ドットでそれをどうにかします。

構造化ライト

したがって、画像処理を簡素化するために、次のこのような倒錯は、構造化された光を取り、オブジェクトに向けることです。この場合、可視範囲内にあり、可視範囲内のカメラは機能しています。より小さいものを適用できます。これに基づいて、複数のカメラで撮影すると、...検出するのがそれほど難しくない画像の構造があります。また、ある画像で別の画像に対してどのようにシフトするかに基づいて、再び三角測量により、3次元モデルを再構築することが可能です。

約10年前、私はこれを少し行っていましたが、まだラップトップのどこかにレーニンの顔がスキャンされています。怖いもの。

実際、 Microsoft Surfaceは、このような純粋な開発研究まで、消費財に至るまで、この原則に基づいて動作します。

下には4つ以上の赤外線カメラ、赤外線構造のバックライトがあり、それに基づいて、彼女はこのSurfaceを置いたり、指で触れたりすることを理解しています。つまりとてもクールで直感的なインターフェースです。

携帯電話が検出されると、写真を投げることができます。拡張現実の非常にクールなアプリケーションであり、非常に物理的です。

Zカメラ/ Zセンサー

さらに-Zカメラ、Zセンサー。もちろん、これはMicrosoft Kinectであり、これについて詳しく説明することを約束しました。

しかし実際には、以前Project Natalと呼ばれていたKinectのルーツは3DVのZセンサーとZカムであり、 Microsoftはそれらを購入しました。

そして、このセンサーの先駆者は生きています。さて、もし誰かがラップトップで見たら、私はここに来ます、そしてここに深さマップがありますが、Zセンサー自体です。

このセンサーはどのくらい正確に機能しますか？実際、それはレーザー距離計のようなものです。そこに光のビームが送られ、オブジェクトから反射され、ピコ秒の遅延を伴って戻ってきます。何らかの方法でそれらを測定することを学びました。これは基本的に、オブジェクトへの光信号の往復時間です。

このビデオを自宅で録画しました。深度マップは次のようになります。

これに加えて、通常のRGBイメージが削除されるため、何らかの方法でさらに分析できます。これは多くの優れたデータ、深度、距離であることを理解し、RGBを使用するよりも操作がはるかに簡単であり、ジェスチャーなどを推測できます。

しかし、Kinect、それはどう違うのですか。彼らはそれを買ったという事実にもかかわらず、彼らはすべて異なる原理でそれを構築したようです^2）。深さを決定する2つのカメラと、RGB ^3）を備えたカメラがあるためです。そして、彼らは赤外線でオブジェクトに何らかの構造化された照明を与え、2つのカメラでそれを撮影し、これらの画像をバックライトと相関させ、さまざまなポイントへの深さの観点から、かなり複雑なチップがそれを計算しているようです。つまり彼らは本質的に技術を変えました。

Kinect-ohmのもう1つの興味深い点は、認識のために特定のポーズのデータベースを使用したことです...結局のところ、タスクは認識しなければならないことです-そのポーズでは、人は現時点であり、これはすべてゲーム用であるため、リアルタイムで必要です。彼らは何らかの種類のデータベースを使用しましたが、それはすべて非常に複雑で非常に秘密です。 ^4）

手のために似たようなことをするMITの開発がいくつかありますが、

彼らが特別な塗装された手袋を着用すると、白いライクラ手袋にいくつかのパターンを注文して印刷することができ、その後、ほぼ同じ方法で手の位置を復元します：

どういうわけか写真を縮小し、
その特性のいくつかを計算し、
そして、最も近いデータベースを検索します
そして、見つけて、彼らは準備ができた位置を持っています。

手が使える理由から、その仕組みを以下に示します。このような開発は十分面白い。これまでのところ、マーカーを掛ける、何か特別なものを置くなど、何らかのトリックを適用する必要があるという事実に多くが陥っています。彼らがどのようにこれらすべてを使用できるのかを考えてみてください-op。

さて、それは彼らが手を洗わなかったのは彼らの空想でしたが、彼らは手袋でそれらを取って洗っていました。よくできた、ユーモラスな男。

True Optical：複数のカメラ

それでも、トリックを使わずに純粋に光学的に緊張させてやろうとすることができます。カメラをたくさん置き、複雑なアルゴリズムをカットします。モーションキャプチャのために、人間の動きをキャプチャするような商用システムがあります。これはオーガニックモーションと呼ばれます。

ある種のトリッキーなアルゴリズムがあります、彼らは彼の位置を回復するためにそこに人を細断します、すなわちそれは少し野;です;すべてが見えます、ここにビデオがあります、これはアイデアの著者でありCEOのアンドリュー・ガーリックです、彼は私たちに来て、展示会で私たちに話しました、そのような普通で社交的なアメリカの叔父

ここで彼はシステムがどのように配置されているかを説明し、たくさんのカメラが配置されており、特別な背景が見えます。実際には、リアルタイムで、それを撮影し、画面上にアニメーション化されたキャラクターがいます... ...

こうしたすべてのコスト、価格、6万ドルから、そのようなシステムの場合、それは機器を備えたターンキーです。

私たちはこのニッチにも取り組んでいます。マーカーレスモーションキャプチャもありますが、通常のカメラではPlayStationを使用し、通常のコンピューターでは一般的にかなり手頃な価格にしたいものがあります。そして、誰かが興味を持っている場合、私はそれからプログラムを見せることができます、私たちはそれを削除することはできません、私たちはそれを持ってきませんでした

以下に例を示します。ユーザーの1人がモックアップを使用して、そのようなアクションムービーを作成しました。

人々はすでにこれを使用していますが、まだ改善と改善が必要です^5）。しかし、これはただ座ってこのアニメーションをすべて手で描くことよりもはるかに優れています。これがそのようなものです。

真の光学：移動カメラ1台

さて、最後に、私は実際に仕上げます-本当に光学的です。多くのカメラがありましたが、今では移動するカメラが1台あると想像してください。つまり時間の経過とともに、異なる視点から見た同じオブジェクトが得られます。これに基づいて、これらのオブジェクトに関する情報を取得できます。

これは画像上のいくつかのポイントを追跡しようとするライブプログラムです。これに基づいて、実際の3次元の世界で画像内のいくつかの平面を見つけ、そこにいくつかのキャラクターを配置できます。すべてが非常に面白いです。これはライブデモですさらに、これらはすべてソースコードで利用できます。唯一のことは、既製のc-build-femaleの例がないため、クエストを実行して、すべてを収集できるようにする必要があります。可能だと言われていますが、私はWindowsの下ではできませんでした。確かに、私は長い間一生懸命に努力しませんでしたが、誰かが非常に興味を持っているなら、あなたは遊び回ることができます。

未来

未来について。プレゼンテーションでお金について話してください。

彼らはあらゆる種類のお金の急激な増加を示唆しているが、これはほんの数百万ドルではなく、研究は非常に豪華である。

しかし、実際にはこれまでに3つの問題があります。

堅牢性

1つ目は、堅牢性です。本当に信頼できます。あなたが見たり使ったりしようとすることはすべて、本当にバグが多く、信頼性が低いためです。

堅牢性はタンブラーのようなもの、つまりあなたは干渉を導入するという事実にもかかわらず、何かが不完全であるという事実にもかかわらず、それでも機能し続けます。これは存在しませんが、これらの技術は依然として非常に壊れやすいため、慎重に使用する必要があります。

素早い対応

2つ目は簡単な答えです。何らかのアクションを実行し、しばらくしてからそれに対する応答を見た場合、認知的不協和音が頭に生じるからです。ところで、これはMicrosoft Kinectの主な問題です。なぜなら、彼らはゲームのアクションと表示の間に非常に顕著な遅れがあり、したがって、彼らのゲームはすべて非常に豪華であり、ハードコアではありません^6）。つまりこのような筋金入りのゲームでは、これはこれまでのところ適用できませんが、Sony Moveは適用できます。ラグはほとんどなく、約10ミリ秒です。

有用性

そして、実際にこれらすべての有用性。これらのアプリケーションの多くは、犬の5本目の脚のように、非常に疑わしい実用性を持っています。たとえば、Androidにはこのようなアプリケーションがあり、床上のオブジェクトまでの距離を測定し、高さ、つまりそこにデバイスが配置されている高さを入力する必要があり、カメラにそのような十字線があり、床の上の点をポイントすると、距離が表示されます。角度を計算し、それを把握し、カルマンフィルターまたはアルファベットをマスターし、それを入力してから、正弦または余弦の定理により、実際の距離を取得します。

なぜだか分からないそのため、これにはいくつかの問題があります。

未来は今

さて、ここに未来がどのように見えるか、BMWがどのようにそれを見るか、一般に、BMWを未来として示すのは素晴らしいことです。

未来の技術者。つまり誰かがBMWとともにアルメニアのサービスに来ました。昨日aulから到着したばかりで、車の配置と方法がわからないので、特別な眼鏡をかけて、「おい、ここで2本のネジを外す必要があります」。そこで彼は「次のステップ」と言って、彼女はアルメニアのアクセントを解体し、「今すぐ離陸する」ことを示した。したがって、すべてを組み立てることができるかどうかはわかりません。一般的に、BMWの未来はまあまあです。

これがアバター映画が撮影された方法です（アバターを見ることはアバター自体を見ることよりもはるかに面白いと言ったそうです）：

ここでは、彼らは特別なスーツを着ており、特別なマーカーがあり、さらに顔に黒い点がありますが、まだ言及していない顔のアニメーションもカバーする必要があります。黒い点が顔に適用され、ここでカメラがブラケットに掛かります。したがって、顔のアニメーションと全体の動きの両方を即座にキャプチャします。

そして、彼らはパンドラにあるある種の神話的な学校の代わりに、そこに本物の馬に乗った。一般に、YouTubeで「AVATAR MOCKUP」と入力すると、同じ動画が多数見つかり、さまざまな人や組織によって10回ダウンロードされます。ここでは、よく見ることができます-それらは黒い点を付けます、これらはマーカーでもあります。ハリウッドでは、彼らは蒸しません。

私が理解しているように、あらゆる種類の革新、それを明るくするための顔の照明があり、彼らは目の動きを追跡することさえ学びました。ここ（崖の上のドラゴンのシーン）-それはすべてコンピューターで描かれたと思いますか？はいと表示されましたが、俳優は飛ばなければなりませんでした。

また、あるとき、私はマトリックスがそこに撃たれた方法に衝撃を受けました-彼らがそこに壁に沿って走るようにロープに掛けられていたことが判明しました。そのため、俳優はまだ汗をかかなければなりません。

ARでお会いしましょう！

注釈

^1）レポートから6か月が経ち、Microsoftは新しいバージョン-Surface 2.0を発表し、新しい原則-PixelSenseに取り組んでいます。また、近い将来、Samsung SUR400デバイスの販売が開始される予定です。

^2） Kinectが販売されるとすぐに、Kinectはすぐに解体され、 PrimeSenseからチップがあることがわかりました。これもイスラエルの会社（3DVなど）ですが、Microsoftに販売されていなかったため、現在、チップはASUS Xtionにあります。

^3）実際には、1つの赤外線カメラ、1つのRGBカメラ、および構造化照明用の赤外線レーザーがあります。こんにちは再び構造化された光！動作するKinectのある部屋が赤外線メガネを通してどのように見えるかを以下に示します。

^4）少し前に、MS Researchはこのトピックに関する記事を発表しました：単一深度画像からのパーツにおけるリアルタイムの人間のポーズ認識。興味深いことに、公式特許はわずかに異なるアプローチを説明しています。

^5）この間、彼らはKinectをサポートしたバージョンをリリースし、多くの改善を行いました。

^6） 1か月未満前に、MSは、人体追跡アルゴリズムの新しいバージョンが準備中であることを発表しました。