2018年のKaggle Data Science Bowlへの深層流域変換の適用

参照および元のdockerized コードによる記事の翻訳を提示します。このソリューションを使用すると、数千の地域の参加者総数の中で競争の第2段階でプライベートリーダーボードの上位100に入ることができます。競合他社のターゲットメトリックが不安定であるため、タスクに同様のソリューションを使用する場合は、以下で説明するいくつかのチップを追加することで、この結果を大幅に改善できると考えています。

ソリューションパイプラインの説明

TLDR

（ 翻訳者のメモ -一部の用語はそのまま残されています。つまり、ロシア語に適切な類似物があるかどうかはまったくわかりません。それらについて知っている場合は、コメントを記入して修正してください）。

この闘争は毎年、データサイエンスボウルのコンテストを開催します。昨年はとてもクールでした：

3D画像形式の新しい興味深いトピック
価値のある仕事は肺がんです。
大規模なデータセット-50 + GB;
魅惑的な賞。

残念ながら、昨年コンテストが始まったとき、私はまだ参加する準備ができていませんでした。今年、GoogleがCuggleを買収した後、最初の「ウェイクアップコール」（いくつかの「フィールドノート」- ここにあります）に気付き始めました。簡単に言えば、機械学習競技会は、コミュニティと競技会の主催者の両方にとって相互に有益であるように見えましたが、今では悪いことにいくつかの奇妙な傾向が見られます-競技会が集合データのマークアップのための演習になり、および/または賞が魅力的ではなくなるように感じます普通に参加するために必要な努力の量について（トップに並べる/トップに入るか、賞品/ポンプ）。

このコンテストの組織が気に入らなかった理由：

競争の第1段階での小さなデータセット（トレーニング用の600画像と検証用の65画像）と、競争の第2段階での非常に大きなデータセット（テスト目的のみの3000画像）。
2番目の段階でのデータの配布は、最初の段階とは何の関係もありません（ここに太字の感嘆符を付けます）。
Cuggleは不正行為をしないことでも有名です。この特定の競争では、たとえば、第2段階のデータをリリースした後にモデルを再トレーニングできます。
あなたが私を信じていないなら、参加したコミュニティのメンバーに尋ねてください。
（終わり近くに根拠がないように、そのような問題を回避する方法を説明します）;
また、ターゲットメトリック -いくつかのレベルの精度（0.5〜0.95）での平均mAP-は非常に不安定に動作します。このようなメトリックの選択から判断すると、主催者はマークアップの「理想」に明らかに自信を持っていましたが、実際にはそうではありませんでした。たとえば、マークアップを取得し、それを1ピクセルだけ横にシフトすると、速度は1から0.6に低下します。

最初に、データを開いたとき、私は一般的に参加したくありませんでした。メガバイト単位のボリュームは、信頼をまったく刺激しませんでした。しかし、その後、私はそれらをより詳しく調べ、ここでのタスクはinstance segmentationであることに気付きました。データセットのサイズが小さいにもかかわらず、タスク自体- instance segmentation -は非常に興味深いものです。セルの正確なバイナリマスクを作成するだけでなく、合体したセルを分離することも期待されます（申し訳ありませんが、セルではなく核が存在する可能性がありますが、マークアップによって判断すると、オーガナイザー自身もこれについてはわかりません）。一方、データセットのサイズとマークアップの品質は、特に競争の主催者がテラバイトのデータを含む類似のデータセットを持っていると報告していることを考えると、少し不十分なように見えました。

コンピュータービジョンの基本的なタスク。 ここのリストには、理論上、オブジェクトの分類もあります（古典的なタスクは、写真で猫と犬を見つけることです）

この投稿では、この問題を解決するためのアプローチを説明します。また、インスタンスセグメンテーションのためのDeep Watershed Transformのインスピレーションを与える記事とパイプラインを共有し、他のアプローチとソリューションについて話し、同様にそのような競争を理想的に編成する方法についての意見を共有します。

EDAまたはMLが魔法ではない理由

トレーニングデータセットには約600個の画像と検証データセット65が含まれていました。第2ステージからの遅延テストデータセットには〜3000個の画像が含まれていました。
最初の段階の画像にはさまざまな解像度がありました-それ自体が課題でした-どのようにそれらすべてのユニバーサルパイプラインを構築しますか？

 256x256 358 256x320 112 520x696 96 360x360 91 512x640 21 1024x1024 16 260x347 9 512x680 8 603x1272 6 524x348 4 519x253 4 520x348 4 519x162 2 519x161 2 1040x1388 1 390x239 1

トレーニングデータの中には、K平均を使用して簡単に見つけられる約3つのクラスターがありました。

背景が黒の画像。
色素を含む画像;
背景が白い画像。

これが、RGB画像を白黒に変換することがパブリックリーダーボードで役立つ主な理由でした。

黒の画像

形状、色、サイズの異なるコアバリエーション

3000枚の画像でテストデータセットを視覚的に表示したところ、これらの画像の50％以上がトレーニングデータセットとは無関係であり、コミュニティ側で多くの論争とresみが生じていました。それでは、「ありがとう」を競い、時間を費やし、モデルを最適化し、トレーニングデータとはまったく異なる3,000枚の写真を手に入れましょう。目標が異なる可能性があることは明らかです（競技の段階間での手動による採点の防止を含む）-しかし、これはあまり面倒ではありません。

テストデータセットからの注目すべきファイル：

背景にある小さなものが核になることをお勧めします

正直なところ、それが何であるかわかりません

筋肉のように見えます。 繰り返しますが、これらの白いものはカーネルですか、それとも一般的なものですか？

夜空...これらのコアまたは単なるノイズですか？

深層流域変換

あなたはそれが何であるかわからない場合は、ここに行きます。直感的には、分水method法は非常にシンプルです。画像をネガティブな「山の風景」（高さ=ピクセル/マスク強度）に変え、プールが接続されるまで選択したマーカーのプールを水で満たします。 OpenCVまたはskimageチュートリアルを見つけることができますが、通常はすべて次のような質問をします。

どのようにラベルを選択する必要がありますか、「水が流出する」場所はどこから来ますか
流域の境界をどのように決定する必要がありますか？
風景の高さをどのように決定する必要がありますか？

Deep Watershed Transform （DWT）は、これらの問題のいくつかを解決するのに役立ちます。

オリジナル作品の主な動機

アイデアは、CNNが2つのことを学習することです-境界とエネルギーレベル（山の高さ）を示す単位ベクトル

実際には、 WT （Watershed Transform）を適用するだけの場合、パーセルセグメンテーションが多すぎる可能性があります。 DWTの背後にある直観はこれです。CNNは、「山の風景」を見つけるために教えられる必要があります。

元の記事の著者は、2つの別個のVNGタイプのCNNを使用して以下を取得しました。

エネルギー（または風景の高さ）;
CNNがオブジェクトのエネルギーと境界を学習するのに役立つ、オブジェクトの境界に向けられた、またはオブジェクトの境界から向けられた単位ベクトル。

実際には、1つのネットワークを使用することも、複数の小規模なエンドツーエンドネットワークをトレーニングすることもできます。私の場合、私は以下を生み出したネットワークで遊んでいました。

バイナリセルマスク。
侵食のレベルが異なるいくつかのマスク（1.5.7ピクセル）;
核の中心（私の場合は特に役立ちません）;
単一ベクトル（少し助けられた、ローカル）;
ボーダー（少し助けられた、ローカル）;

それから、これらすべてと出来事を組み合わせるために少しの魔法が必要です、あなたは「エネルギー」を持っています。私はアーキテクチャをあまり実験しませんでしたが、Dmitro（上記のソリューションの作者）は、2番目のCNNを追加しても良い結果が得られないと言っていました。

私にとって、最適な後処理（参照によるenergy_baseline関数）は、次のアクションアルゴリズムでした。

予測マスクと3レベルの予測マスクを侵食で要約します。
セルの中心を分割するには、0.4のしきい値を適用します。
見つかった中心を充填のマーカーとして使用します。
「風景の高さ」の尺度として、マスクの境界までの距離を使用します。

最良の例の1つ-グリッドは合体したコアを明確に分離できた

学習した勾配は、流域としての使用には適していません。

コアセンターの直接検索も機能する場合がありましたが、全体的には速度の向上には役立ちませんでした。

その他のアプローチ

個人的には、このタスクの可能なアプローチを4つのカテゴリに分けます。

UNetアーキテクチャスタイルのアプローチ（UNet +事前トレーニング済みResnet34、UNet +事前トレーニング済みVGG16など）+ Deep Watershed Transform後処理。 UNet （彼のいとこ、 LinkNet ）は、セマンティックセグメンテーションの問題を解決する必要があるとき、普遍的でシンプルなツールとして知られています。
リカレントアーキテクチャ。私はこの関連性の低い作業のみを見つけました（既製のPyTorch コードの可用性を考慮しても、試す時間はありませんでした）。
Mask-RCNNなどの提案ベースのモデル。それらを使用するのは非常に困難ですが（そしてPyTorchに適切な実装はありません）、このアプローチは最初により良い結果を与えると報告されましたが、後で改善するオプションはほとんどありません。
他の人は、ここで説明されているアプローチを少し「冒険的」です（読んでください-著者自身は、あまりうまく機能していないようだと書いています）。

私にとって、DWT + UNetを選択することは、面倒な作業を必要としないこのソリューションがシンプルで（マスクの追加チャネルとしてエネルギーレイヤーを単純に供給できる）、作業を他のタスクに簡単に転送できるためです。再帰的なUNet拡張機能も気に入っていますが、試す時間はありませんでした。

繰り返しのUNetの場合、通常のUNetと比較して有効な3つの新しいコンポーネントがあります。

ConvLSTMレイヤー。
あまりにも多くのコアを学習した場合にCNNに罰金を科す損失関数コンポーネント。
予測オブジェクトとマークアップの最適な組み合わせにハンガリー語アルゴリズムを使用します。

これはすべて最初は圧倒的に思えますが、将来的には間違いなく試してみます。ただし、この方法は、2つのメモリヴォラシャスアーキテクチャ（RNNとエンコーダ/デコーダネットワーク）を組み合わせています。これは、小さなデータセットと権限以外では実際に使用するのは実用的ではありません。

説明ConvLSTMレイヤー

リカレントUnetアーキテクチャ

私のパイプライン

詳細はこちらで確認できますが、私のアプローチは次のとおりです。

VGG16エンコーダーを備えたUnet（リポジトリーには多くの異なるエンコーダーがあります）;
深い分水界;
白黒写真への変換やtransfer learningなど、多くの小さなハック。
256x256のランダムクロップでモデルをトレーニングします。
画像のサイズ変更の予測（写真のサイズが64で除算されるように）（ おそらくこれは悪い選択です ）;

パイプライン全体

このパイプラインの結果を大幅に改善する場合は、 VGG-16エンコーダーをResnet152に置き換える必要があります。競合の参加者によると、このエンコーダーは遅延検証でより安定した動作をします。また、最後のアクティベーション関数としてsoftmaxをsigmoidに置き換えるsoftmax 、ぼやけた境界が少なくなります。

そして今、理論上、そのような競争をどのように組織すべきかについて

要するに、TopCoderプラットフォームの迷惑な瞬間を考慮すると、この観点からのSpaceNetはほぼ完璧でした。

バランスの取れたトレーニングセットとテストセットを持つ大規模なデータセット。
外部データの制限をクリアします。
主催者による検証のためのコードのドッキングとフリーズ。
第1段階と第2段階の間にモデルの追加トレーニングはありません。
再現可能な結果;

謝辞

いつものように、実りのある議論とヒントをくれたDmytroに感謝します！

2018年のKaggle Data Science Bowlへの深層流域変換の適用

2018年のKaggle Data Science Bowlへの深層流域変換の適用

TLDR

このコンテストの組織が気に入らなかった理由：

EDAまたはMLが魔法ではない理由

テストデータセットからの注目すべきファイル：

深層流域変換

その他のアプローチ

私のパイプライン

そして今、理論上、そのような競争をどのように組織すべきかについて

謝辞

参照：

More articles: