新しいTL-GANを使用した制御された画像合成および編集

TL-GANモデルでの制御された合成の例（トランスペアレントな潜在空間GAN、トランスペアレントな隠された空間を持つ生成的コンテントネットワーク）

すべてのコードとオンラインデモは、プロジェクトページで入手できます。

説明されているように写真を撮るようにコンピューターをトレーニングします

判別タスクと生成タスク

人が絵を描くのは簡単です。私たちは幼い頃から絵を描くことを学びます。機械学習では、これは判別分類/回帰のタスクです。入力画像からの特徴の予測。特にディープラーニングモデルにおけるML / AIメソッドの最近の進歩は、オブジェクトの視覚認識（たとえば、ImageNet分類によるAlexNetからResNetへ）や検出/セグメンテーションなどのタスクで示されるように、これらのタスクに優れ、人間の能力に達するか上回る場合がありますオブジェクト（COCOデータセットのRCNNからYOLOなど）など

それでも、説明から現実的な画像を作成するという逆の作業ははるかに複雑であり、グラフィックデザインの長年の訓練を必要とします。機械学習では、これは生成タスクであり、識別モデルよりもはるかに複雑です。生成モデルは、より小さな初期データに基づいて、より多くの情報（たとえば、ある程度の詳細レベルと変動のフルイメージ）を生成する必要があるためです。

このようなアプリケーションの作成は複雑ですが、多くの場合、 生成モデル （ある程度制御できる）は非常に便利です。

コンテンツの作成 ：広告会社が、これらの画像が挿入されるWebページのコンテンツとスタイルに一致する魅力的な画像を自動的に作成するとします。デザイナーはインスピレーションを求めており、「休憩」、「夏」、「情熱的」の記号に関連付けられた20個の靴のパターンを生成するアルゴリズムを注文しています。新しいゲームでは、簡単な説明から現実的なアバターを生成できます。
コンテンツに基づいたスマート編集 ：写真家は、数クリックで写真の表情、しわの数、髪型を変更します。ハリウッドのスタジオのアーティストは、曇りの夜に撮影したショットを、明るい朝に撮影しているように変換し、画面の左側に日光を当てます。
データ増強 ：ドローン開発者は、トレーニングデータセットを増やすために、特定の事故シナリオの現実的なビデオを合成できます。銀行は、不正防止システムを改善するために、既存のデータセットでは不十分な特定の種類の不正データを合成できます。

この記事では、最新のモデルの機能を拡張し、新しいインターフェイスを提供する、 Transparent Latent-space GAN（TL-GAN）と呼ばれる最近の作業について説明します。現在、技術的な詳細が記載されたドキュメントの作成に取り組んでいます。

生成モデルの概要

ディープラーニングコミュニティは、生成モデルを急速に改善しています。次の3つの有望なタイプを区別できます。下図に示すように、自己回帰モデル、変分オートエンコーダー（VAE）、および生成的敵対ネットワーク（GAN）です。詳細に興味がある場合は、OpenAIの優れたブログ記事をご覧ください。

生成ネットワークの比較。 ウォータールー大学のSTAT946F17コースの画像

現時点では、GANネットワークによって最高品質の画像が生成されます（フォトリアリスティックで多様であり、高解像度で説得力のある詳細があります）。 Nvidiaの見事なpg-GAN（徐々に成長するGAN ）ネットワークをご覧ください。したがって、この記事ではGANモデルに焦点を当てます。

Nvidiaによって生成された合成pg-GAN 。 どの画像も現実とは関係ありません。

GANモデルの問題管理

ランダムで制御された画像生成

GANのオリジナルバージョンとそれに基づいた多くの人気モデル（ DC-GANやpg-GANなど）は、教師なしでモデルを指導しています。トレーニング後、生成ニューラルネットワークはランダムノイズを入力として受け取り、トレーニングデータセットとほとんど区別できないフォトリアリスティックな画像を作成します。ただし、生成された画像の機能を追加で制御することはできません。ほとんどのアプリケーション（たとえば、最初のセクションで説明したシナリオ）では、ユーザーは任意の属性 （たとえば、年齢、髪の色、表情など）でパターンを作成したいと考えています。理想的には、各機能をスムーズに構成します。

このような制御合成のために、多数のGANバリアントが作成されています。これらは、スタイル転送ネットワークと条件付きジェネレーターの2つのタイプに条件付きで分割できます。

スタイル転送ネットワーク

CycleGANおよびpix2pixスタイルの転送ネットワークは、ある領域（ドメイン）から別の領域（たとえば、馬からシマウマに、スケッチからカラー画像に）に画像を転送するようにトレーニングされています。その結果、2つの個別の状態間で特定の記号をスムーズに変更することはできません（たとえば、顔に少しひげを追加する）。さらに、1つのネットワークが1つのタイプの送信用に設計されているため、10個の機能を構成するには10個の異なるニューラルネットワークが必要になります。

条件ジェネレーター

条件付きジェネレーター- 条件付きGAN 、 AC-GANおよびStack-GAN-学習の過程で、画像とオブジェクトのラベルを同時に学習します。これにより、属性を設定して画像を生成できます。生成プロセスに新しい機能を追加する場合、GANモデル全体を再トレーニングする必要がありますが、これには膨大な計算リソースと時間が必要です（たとえば、理想的なハイパーパラメーターセットを備えた単一のK80 GPUで数日から数週間）。さらに、トレーニングを完了するには、すべてのユーザー定義オブジェクトラベルを含む1つのデータセットに依存し、複数のデータセットの異なるラベルを使用しないようにする必要があります。

透明な隠された空間（ 透明な潜在空間GAN 、TL-GAN）を備えた生成競争ネットワークは、制御された生成に異なるアプローチを使用し、これらの問題を解決します。 単一のネットワークを使用して、1つ以上の機能をシームレスに構成する機能を提供します。さらに、1時間以内に新しいカスタム機能を効果的に追加できます。

TL-GAN：制御された合成と編集への新しい効果的なアプローチ

この神秘的な透明な隠された空間を作る

前のセクションで示したように、顔の高解像度の写実的な画像を生成するNvidiaのpg-GANモデルを使用します。生成された画像のすべての符号1024×1024pxは、（画像コンテンツの低次元表現として）隠された空間の512次元ノイズベクトルによってのみ決定されます。したがって、 隠されたスペースを構成するものを理解する（つまり、透明にする）場合、生成プロセスを完全に制御できます 。

TL-GANモチベーション：生成プロセスを管理するための隠されたスペースを理解する

事前に訓練されたpg-GANネットワークを試してみると、隠されたスペースには実際に2つの優れた特性があることがわかりました。

それは十分に満たされています。つまり、空間内のほとんどのポイントは妥当な画像を生成します。
これは非常に連続的です。つまり、隠された空間内の2点間の補間は、通常、対応する画像のスムーズな遷移につながります。

直感は、隠された空間には、私たちが必要とする属性を予測する方向があると言います（例えば、男性/女性）。その場合、これらの方向の単位ベクトルは、生成プロセスを制御するための軸になります（より男性的または女性的な顔）。

アプローチ：軸機能を開く

隠された空間で属性のこれらの軸を見つけるために、隠されたベクトル間の接続を構築します

$z$ タグラベル

$y$ 教師とペアでトレーニングを使用する

（ z 、 y ）

$（z、y）$ 。既存のデータセットには画像のみが含まれているため、問題はこれらのペアを取得する方法です

x

$x$ および対応するオブジェクトラベル

y

$y$ 。

隠しベクトルzをタグラベルyに関連付ける方法

可能なアプローチ：

1つのオプションは、対応する隠れベクトルを計算することです

$z$ 画像

$x_ {real}$ 関心のあるラベルを持つ既存のデータセットから

$y_ {real}$ 。 ただし、GANは簡単な計算方法を提供しません

$z_ {encode} = G ^ {-1} x_ {real}$ 、このアイデアを実装するのが難しくなります。

2番目のオプションは、合成画像を生成することです

$x_ {gen}$ ランダムな隠れベクトルからGANを使用する

$z$ どうやって

$x_ {gen} = G（z）$ 。 問題は、合成画像にタグが付けられていないため、アクセス可能なタグ付きデータのセットを使用するのが難しいことです。

TL-GANモデルの主な革新は、モデルを使用した個別の抽出 （個別ラベルの分類子または連続の回帰子）のトレーニングです。

Y = f （ x ）

$Y = f（x）$ タグ付きデータの既存のセットを使用する（

x_{r e a l}

$x_ {real}$ 、

y_{r e a l}

$y_ {real}$ ）、その後、訓練された多数のGANジェネレーターで起動します

G

$G$ 特徴抽出ネットワークを使用

F

$F$ 。これにより、フィーチャラベルを予測できます。

y_{p r e d}

$y_ {pred}$ 合成画像

x_{g e n}

$x_ {gen}$ 訓練された特徴抽出ネットワーク（抽出）を使用します。したがって、合成画像を通じて、接続が確立されます

z

$z$ そして

y

$y$ どうやって

x_{g e n} = G （ z ）

$x_ {gen} = G（z）$ そして

y_{p r e d} = F （ x_{g e n} ）

$y_ {pred} = F（x_ {gen}）$ 。

これで、ペアの隠されたベクトルと特徴ができました。リグレッサーモデルをトレーニングできます

y = A （ z ）

$y = A（z）$ フィーチャのすべての軸を開いて、画像生成プロセスを制御します。

図：TL-GANモデルのアーキテクチャ

上の図は、TL-GANモデルのアーキテクチャを示しており、5つのステップが含まれています。

分布の研究 。よく訓練されたGANモデルと生成ネットワークを選択します。最高の品質の顔生成を提供する、よく訓練されたpg-GAN（Nvidia製）を使用しました。
分類。特性を抽出するために事前に訓練されたモデルを選択します（抽出器は畳み込みニューラルネットワークまたはコンピュータービジョンの他のモデルにすることができます）、またはタグ付きデータのセットを使用して独自の抽出器を訓練します。 CelebAキットで単純な畳み込みニューラルネットワークをトレーニングしました（40個のタグを持つ30,000を超える顔）。
世代。いくつかのランダムな隠れベクトルを作成し、訓練されたGANジェネレーターを通過して合成画像を作成し、訓練された属性抽出ツールを使用して各画像の特徴を生成します。
相関関係 。一般化線形モデル（GLM）を使用して、隠れたベクトルと特徴間の回帰を実装します。 回帰直線の傾きは、特性の軸になります。
研究 1つの隠れたベクトルから始めて、標識の1つまたは複数の軸に沿って移動し、これが写真の生成にどのように影響するかを調べます。

プロセスを大幅に最適化しました。事前にトレーニングされたGANモデルでは、1つのGPUを搭載したマシンでフィーチャー軸の特定に1時間しかかかりません 。これは、トレーニングの転送、写真のサイズの縮小、合成画像の予備キャッシュなどを含むいくつかのエンジニアリングトリックによって実現されます。

結果

この単純なアイデアがどのように機能するかを見てみましょう。

オブジェクトの軸に沿って非表示のベクトルを移動する

最初に、検出された特徴軸を使用して、生成された画像の対応する特徴を制御できるかどうかを確認しました。これを行うには、ランダムなベクトルを作成します

z_{0}

$z_0$ GANの隠されたスペースで、合成画像を生成します

x_{0}

$x_0$ 生成ネットワークを介して渡す

x_{0} = G （ z_{0} ）

$x_0 = G（z_0）$ 。次に、1つの軸に沿って非表示のベクトルを移動します

u

$u$ （隠された空間の単位ベクトル、たとえば、顔の性別に対応する）距離で

λ

$λ$ 新しい位置に

x_{1} = x_{0} + λ u

$x_1 = x_0 +λu$ 新しい画像を生成します

x_{1} = G （ z_{1} ）

$x_1 = G（z_1）$ 。理想的には、新しい画像の対応する特徴は、予想される方向に変化するはずです。

属性のいくつかの軸（性別、年齢など）に沿ってベクトルを移動した結果を以下に示します。驚くほどうまくいきます！男性/女性、若者/老人などの間で画像をスムーズに変換できます。

絡み合ったフィーチャの軸に沿って非表示のベクトルを移動した最初の結果

相関フィーチャ軸の解明

上記の例では、元のメソッドの欠点、つまり属性の混乱した軸が見えます。たとえば、顔の毛を減らす必要がある場合、生成された顔はよりフェミニンになりますが、これは予期した結果ではありません。問題は、性別とひげが本質的に相関していることです。ある特性の変化は、別の特性の変化につながります。髪型や巻き毛など、他の機能でも同様のことが起こりました。次の図に示すように、隠された空間の「ひげ」属性の元の軸は、「床」軸に垂直ではありません。

この問題を解決するために、単純な線形代数の手法を使用しました。特に、彼はひげの軸を床の軸に直交する新しい方向に投影しました。これにより、それらの相関が効果的に排除され、生成された顔のこれら2つの兆候が解ける可能性があります。

線形代数手法を使用した相関特徴軸の解明

この方法を同じ人に適用しました。今回は、性別と年齢の軸がサポート軸として選択され、他のすべての軸が性別と年齢に直交するように投影されます。面は、新しく生成された機能軸に沿って非表示のベクトルを移動することで生成されます（下図を参照）。予想どおり、髪型やひげのような標識は床に影響を与えません。

記号のもつれのない軸に沿って非表示のベクトルを移動した結果の改善

柔軟なインタラクティブ編集

画像生成プロセスの管理におけるTL-GANモデルの柔軟性を確認するために、以下に示すように、異なる軸に沿ってオブジェクトの値をスムーズに変更できるインタラクティブなグラフィカルインターフェイスを作成しました。

TL-GANを使用したインタラクティブな編集

繰り返しますが、標識の軸に沿って画像を変更すると、モデルは驚くほどうまく機能します！

まとめ

このプロジェクトは、GAN（生成的敵対ネットワーク）など、教師なしで生成モデルを管理する新しい方法を示しています。事前に訓練されたGANジェネレーター（Nvidiaのpg-GAN）を使用して、重要な機能の軸を表示することで、隠されたスペースを透明にしました。隠れた空間でベクトルがこのような軸に沿って移動すると、対応する画像がこの機能に沿って変換され、制御された合成と編集が提供されます。

この方法には明確な利点があります。

効率：ジェネレーターに新しいタグチューナーを追加するために、GANモデルを再トレーニングする必要がないため、40タグのチューナーを追加するのに1時間もかかりません。
柔軟性：任意のデータセットでトレーニングされた任意のフィーチャエクストラクターを使用して、十分にトレーニングされたGANにより多くの機能を追加できます。

倫理に関するいくつかの言葉

この作業により、画像の生成を詳細に制御できますが、それでもデータセットの特性に大きく依存します。ハリウッドスターの写真のトレーニングは、モデルがほとんど白人で魅力的な人々の写真を非常にうまく生成することを意味します。これは、ユーザーが人類のごく一部を表す顔を作成できるという事実につながります。このサービスを実際のアプリケーションとして展開する場合、ユーザーの多様性を考慮して元のデータセットを拡張することをお勧めします。

このツールは創造的なプロセスには大いに役立ちますが、見た目が悪い目的で使用する可能性を覚えておく必要があります。任意のタイプの現実的な顔を作成する場合、画面に表示される人物をどの程度信頼できますか？今日、この種の問題について議論することが重要です。 Deepfakeテクノロジーの最近の例で見たように、AIは急速に進歩しているので、そのようなアプリケーションを最適に展開する方法についての議論を開始することは人類にとって不可欠です。

オンラインデモとコード

この作業のすべてのコードとオンラインデモは、GitHubページで入手できます。

ブラウザでモデルを使用する場合

コード、モデル、またはデータをダウンロードする必要はありません。この Readme セクションの指示に従ってください。ビデオに示すように、ブラウザーで顔を変更できます。

コードを試してみたい場合

GitHubリポジトリのReadmeページに移動するだけです。 TensorflowとKerasを使用してAnaconda Python 3.6でコンパイルされたコード。

貢献したい場合

ようこそプールリクエストを送信するか、GitHubで問題を報告してください。

私について

私は最近、ブラウン大学で計算および認知神経生物学の博士号を取得し、機械学習を専門とするコンピューターサイエンスの修士号を取得しました。過去に、私は脳内のニューロンがどのように集合的に情報を処理し、視覚などの高レベルの機能を達成するかを研究していました。私は、知能の分析、シミュレーション、実装、および複雑な実世界の問題を解決するためのAIの使用に対するアルゴリズム的アプローチが好きです。テクノロジー業界のML / AI研究者としての仕事を積極的に探しています。

謝辞

この作業は、InSight AI奨学金プログラムのプロジェクトとして3週間で行われました。プログラムディレクターのEmmanuel AmeisenとMatt Rubashkinの全般的なリーダーシップ、特にEmmanuelの提案と記事の編集に感謝します。また、素晴らしい学習環境と多くのことを学んだ他のInsight AIプログラムの参加者に対して、Insightのすべての従業員に感謝します。プロジェクトを開発する方向を決定した際の多くのヒントとインスピレーションと、この記事の構成と編集に多大な助けをしてくれたRubin Xiaに感謝します。

リアルな顔のAI生成