みなさんこんにちは。 OpenCVを使用したオブジェクトの認識の基礎となる原則についてお話したいと思います。 幸いなことに、私はしばらくの間、VMKモスクワ州立大学のコンピュータービジョンの研究室で働く機会があり、このコンピューターサイエンスの分野の知恵に少し掘り下げられました。 ここで検討するタスクは、OpenCVソフトウェアパッケージの開発者の1人であるViktor Erukhimovのセミナーで、
Microsoft Computer Vision School Moscow 2011で提案されました。 ほぼ同じ形式で、問題のコードはOpenCV 2.4デモにあります。
タスクの形式化
次のタスクを設定します。通常のUSBカメラからのシーンの画像と、対象のフラットオブジェクト(本など)の画像を入力します。 タスクは、シーンイメージでターゲットオブジェクトを見つけることです。
カメラから始めましょう
まず、hをcore.hppおよびopencv.hppファイルに含めます。これらのファイルは、opencvおよびfeatures2d.hppの基本クラスを担当し、さまざまな検出器と記述子のクラスを定義します(SURFに関心があります)。
#include <iostream> #include "opencv2/opencv.hpp" #include "opencv2/core/core.hpp" #include "opencv2/nonfree/features2d.hpp" #include <vector> using namespace std; using namespace cv; void readme(string &message) { cout << message << endl; }
次に、本体が開始されます。1つのパラメーターを実行可能ファイルに渡し、サンプル(フラットオブジェクト)の画像へのパスを渡すと仮定します。 VideoCaptureクラスのコンストラクターは、入力としてデバイス(カメラ)の番号、0-デフォルトのデバイス(おそらく組み込みカメラ)を受け入れます。 次に、ターゲットイメージがimg_objectに読み込まれます。
int main( int argc, char** argv ) { if(argc != 2) { string message = ": ./cv_test <img_object>"; readme(message); return -1; } VideoCapture cap(1);
無限ループでは、デバイスから次のフレームを受け取ります。これは、ターゲットオブジェクトを見つける必要があるシーンの入力画像です。
for(;;) { Mat frame; cap >> frame;
キーポイントを見つける
それでは、オブジェクトの認識を始めましょう。 最初に行うことは、画像内の重要なポイントを検出することです。 単純化すると、これらはxおよびyに沿った画像内の鋭い勾配の位置にある点(角点)であると想定できます。 それらの決定の原理は、自己相関行列と画像ピラミッド(スケール不変性のため)の使用に基づいています。 自己相関行列は、画像Iのxとyの導関数で構成されます。

意味は、使用されるメトリック(ラムダは固有値、detは行列式、traceは行列のトレース、alphaは定数です)

コーナーポイントを識別できます。 これらのポイントでは、xとyに沿った勾配に大きな違いがあり、Rは極大値になります。 minHessianパラメーターを設定することにより、キーポイントを決定するしきい値を決定します。
記述子の検索
次に、記述子を計算する必要があります。これは、ポイントの周囲の局所的な近傍のジオメトリをエンコードするベクトルです。 これは通常、SIFTに基づいています(SURFは高速SIFTです)。 ここでの原則は次のとおりです。

この点の周りのパッチは決定論的なブロックに分割され、各ブロックで、支配的な勾配方向が計算され、大きさ+が支配的な方向に向かって回転します(回転に対する不変性)。 この「勾配パターン」は、ローカルパッチについて説明しています。
記述子の比較
次のステップでは、記述子ベクトルを「フック」する必要があります。 ターゲットとシーン内の対応するポイントを見つけます。 この目的のために、FlannBasedMatcher(大きなキーポイントのセットに使用する必要があります)またはBruteForceMatcher(その逆)を使用できます。 次に、記述子距離が3 * min_dist以下のポイントのみをキャッチしたすべてのポイントから選択します。ここで、min_distは記述子間の最小距離です。
ホモグラフィを使用する
コンピュータービジョンでは、空間内の同じ平面オブジェクトの2つの画像がホモグラフィで接続されます(カメラのピンホールモデルを使用する場合)。 言い換えれば、この変換は平面-平面です。 つまり ターゲットオブジェクト上の点のセットとシーン内の対応する点のセットを使用して、ホモグラフィマトリックスH(およびその逆)の形でそれらの間の対応を見つけることができます。 変換は、ランダムに選択されたポイント(画像内に4つ、シーン内に4つ)の反復ホモグラフィ推定に基づいた
RANSACアルゴリズムに基づいています。
次に、ターゲットオブジェクトのエッジに沿って4つのポイントを取得し、シーンイメージで見つかった変換を使用してそれらを表示する必要があります。 したがって、シーン内のオブジェクトの境界ボックスが見つかります。 線を描くとき、各ポイントにPoint2f(img_object.cols、0)を追加することに注意してください。 img_matchesイメージは、ターゲットイメージ(左)とシーン(右)の隣接配置を想定しています。
まとめ
残念ながら、多くの人々の予想は、コンピュータービジョンの分野で最先端のものよりもいくらか優れています。 チョコレートの認識の例でこのコードを使用しました。 安定した認識の位置の境界が何であるかを理解する前に、チョコレートバーを手で回さなければなりませんでした。 発生する状況の変動性を考慮すると、認識の安定性は最大の頭痛の種です。 それでも、この例は基本的なものであり、変更することができます。
文学
1.
www.vision.ee.ethz.ch/~surf/eccv06.pdf2.www.sci.utah.edu/~gerig/CS6640-F2010/tutorial2-homographies.pdf3.
engineering.purdue.edu/kak/courses-i-teach/ECE661.08/solution/hw4_s1.pdf