AIインターフェースとその場所

最近、Habrで自分のオンライングッズをどのようにリリースしたかについてコラムを書きました。 私たちが真剣に混乱したトリックの1つは、写真から「オンザフライ」でキャラクターのアバターをAIで生成することでした(プロトタイプでの作業中、ゲームの一部ではありません)。 同時に、テクノロジー自体も興味深いものであり、私たちだけでなく、はるかに応用できます。 約束どおり、それについてさらに説明し、プロトタイプを実際に体験してみましょう!


また、データをマークアップせずに非定型のAIトレーニングシステムを選択した理由と、これを科学的革新と見なす理由もわかります。 AIアバターを作成する際の繰り返しは必要ありません。 現在、ドメイン適応がどのように、どこで使用されているか。


画像

投稿を読む時間がない場合


リンクをたどって、今AIの仕事を見てみましょう。


注意してください:
1.コンバーターがすぐに機能しないため、忍耐強く、非生産能力が使用されます。
2.システムは男性の分野でのみ訓練されたので、女性の写真は男性を残すでしょう。 似ているポートレートは期待できません。 使用される要素の数は意図的に制限されています。これについては以下で説明します。

AIアバターを作成するアイデアはどこから来たのですか?


彼女はあからさまに現れませんでした。 uKit Groupでの機械学習の作業は数年前から行われています。 そのため、サイトの視覚的魅力をリアルタイムで評価するWebScore AIプロジェクトは、約1年前にすべての参加者に開かれ、会社の内部目的に使用されました。


ゲーム開発でのニューラルネットワークの使用は、かなりの誇大広告を定期的に獲得するトピックです。 ノーマンズスカイまたはリムワールドを思い出してください。これは、作者自身によるとほぼ無限の可変性を持つ、完全に生成された宇宙によるコミュニティだけでなく、ゲームの注目を集めました。 確かに、実際には、世界の生成は手続き型であり、したがって、これはニューラルネットワークとは何の関係もありません。 しかし、ここでの傾向は明らかです-市場はこれに対応しており、手を握って待っています!


あなたの写真をゲームにアップロードして、あなたに最も似ている個人のアバターをすぐに取得する機会は、他の誰にもない楽しいものであり、興味深い魅力的なチップになると考えました。 さらに、この技術はゲーム外でもその用途を明確に見つけることができます。


Web Tycoonでのキャラクターと実際の人物の類似性は相対的であることは注目に値します。 これは、デザイナーが描いた要素からアバターを収集するため、意図的な手順です。 そして、これにはいくつかの理由があります。 まず、出口で、多くのフラットなお気に入りを保持しながら、ゲームのスタイルでゲームのアバターを取得します。 次に、ユーザーがアップロードしたものに関係なく、常にポートレート画像を取得できるので、もちろん再保険されています。


画像

結局のところ、誰もがライバルの間で現実的なキュウリを見たいとは限りません。


タグ付きデータなしのモデルトレーニング


機械学習へのこのアプローチは、実際にはAIが初期マークデータなしで学習するため、革新的と呼ぶことができます。 これは何が起こっているのですか? 成功の鍵は、合成データを生成するツールの可用性です。 可能性のある質問に先立って、私たちは自分で質問することはできません。


AIをこのようにトレーニングすることにしたのはなぜですか? データマークアップは、評価者の単調で非常に膨大な作業です。 また、デザイナーが突然3番目のタイプのメガネを追加することを決定した場合(システムの作成時に2つありました)、すべてのマークを再度付ける必要があります。


さらに、私たちの場合、主観などの瞬間を考慮することも価値がありました。1つの写真のアバターを収集するために10人を与えると、出力で10の異なるアバターを取得します。 チェックしました。


元の写真:


画像

そして、当社の2人の異なるデザイナーからの結果:


画像

人対機械


トレーニングは簡単ではありませんでした。 まず、AIはあらゆる点で降伏しました。


画像

誰かが突然理解しなかった場合、元の写真はここと同じです。 AIは目の下のバッグをサングラスに変えます。 ギフトとしてのハサールアンテナ。 実際の仕事中毒者は、これをバグではなく機能と見なすことができます。


以下は、さらにいくつかの示唆的な結果です。


画像

画像

彼はもはやポイントを追加しないだけでなく、ドレスアップすることさえできます! 色再現には特定の問題があります。


開発プロセスについて直接


出発点として、いくつかの既製のスタイル転送ソリューションを取りましたが、それらは純粋な形では私たちに合わなかったので、すぐに放棄されなければなりませんでした。 また、生成モデルを独自に使用することを試みましたが、出会ったソリューションのほとんどに実装の例がないか、結果が得られなかったという結論にすぐに到達しました。


その結果、最初に成功した生成モデルはCycleGANであり、これを基礎として、ニーズに応じて完成させました。 知覚損失は、標準のCycleGANを支援するために呼び出されました。 これは、結果として得られる画像に非常に顕著に可愛さを加えました。


以下では、CycleGANの動作を確認できます。


画像

または、Prismaアプリケーションを少なくとも一度使用したことのあるすべての人にとって明確で馴染みのある別の例:


画像

従来の主な問題は、生成モデルを正常に学習させることです。 このようなモデルのファミリ全体には、かなり長い特徴的な痛みがあり、近年、長いトレーニング時間、モードの崩壊、初期化に対する感度など、すべてを解決しようとしています。


純粋に工学的な問題があり、理論的には多くの人が直面するはずですが、何らかの理由でそれについて書く人はほとんどいません。 たとえば、拡張機能を使用してデータをすばやく並行してロードする必要がありましたが、keras / tf / pytorchで提示された拡張機能の標準セットでは不十分でした。 さらに、私はもともとCPUを増強したかったのです。 CPUの増強には否定できない利点がありますが、その主なものは、ビデオカードを「オフロード」する能力であり、それによって2台のコンピューター間で責任を共有します。


問題を解決する方法


GANのトレーニングの場合、主に損失関数(損失関数)を使用しました。 そのため、より多くの同一性の損失と色の損失を追加しました。 同時に、CycleGAN内のジェネレーターのアーキテクチャで遊んだ結果、12ブロックのrezetに到達しました(元のブロックは少し短かったです)。


反復コードの場合、複数のモデルで使用されるコードを一度に再利用できるようにするために、モデルの上位レベルのラッパーを作成しました。 日付ジェネレータのコードも、同じ理由で同様の方法で一般化されています。


3番目の問題(CPUに拡張機能をロードする)を解決するために、私は自分のチップを思いついて作成しなければなりませんでしたが、これについては次回になります。 アバターとはまったく関係のない他のプロジェクトでこのテクノロジーをうまく使用できるのは、そのためだと言うだけです。


AIインターフェイスを作成するときのFakapy


主な間違いは、タスクの複雑さの誤った評価です。 一見すると、99%に適した既製のソリューションが膨大にあるように思われます。 あなたはそれらを取り、あなたのケースに大胆に転送するだけです。 ですから、そうではありません。 それとは別に、数日間勉強に成功していたGANで、文字通り爆発する何かがなぜ完全なゲームを生成し始めるのかを観察することの気持ちを示すことは価値があります。


このようなもの:


画像

もう1つの重大な要因は、初期段階でランダムシードの修正を忘れたことで、GANは初期化に非常に敏感であることを覚えています。 率直さのように、非常に恥ずべき失敗。


現在ドメイン適応が使用されている場所


ドメインの適応はゆっくりですが確実にAIタスクに浸透します。 この安定した傾向は、現代世界で利用可能な情報が急速に成長しているにもかかわらず、マークアップが依然として長くて高価な作業であるという事実によるものです。 転移学習の開発と、ドメイン適応に直面したその一般化は、この問題を解決します。


ドメイン適応の実用的な例としては、合成的に生成された画像を適応させることにより、人間の目の写真のデータセットを拡張するアップルの仕事があります。 彼らの研究では、効率的なアプローチは、ドメイン適応法を使用して、最初にラベル付けされた人工データを生成し、その後実際のデータに近似することであることを示しました。


画像

または、もう1つの興味深い例を示します。 2017年、科学者グループは、道路、道路、歩行者、およびトレーニングのために自動運転車を配置する必要があるその他の環境に関するデータを収集するための異常なアプローチを思い付きました。


彼らは、GTA Vからこの情報を取得することを提案しました。


画像

このため、Grand Theft Auto Vの仮想環境では、通常の高速道路運転の480,000以上のタグ付き仮想画像が生成されました。 これらの画像を使用して、システムは、基本的な自動運転に必要なすべての基本変数を読み取るように訓練されました:前方の車や他の物体までの距離、ストリップのマーキング、および運転の角度(ストリップの中心線に対する角度コース)を決定します。 フロリダでの致命的なテスラ事故も分析されました。


未来はNSTとGANです


これについて自信を持って話すことは可能ですか? おそらくはい。 Neural Style TransferはPrismaを使用します。 これとの類推により、娯楽目的だけでなく、新しいアプリケーションが作成されています。 GANは、画像の色付け、ノイズからの画像生成、テキストからの画像生成など、さまざまな問題を解決するためのツールとしても使用できます。


gamedevのテーマに戻ります。 ここで、ドメイン適応の可能性は無限にあります:無人車両のトレーニングの場合、GTA Vゲームワールドのテクスチャが取得され、そこから実世界の写真に非常に似たものが出てきましたが、実際には反対をすることを妨げるものはありません:実都市のパノラマ画像からゲームテクスチャを生成します。


この車の利点は、疲れないことです。 コンピューターは、一瞬で膨大な数の異なるビューを生成できるようになりました。 私たちの仕事は、それを効率的かつ効率的に行う方法を学ぶことです。そして、穀物をもみ殻から分離して楽しむだけです。


まだ質問がありますか? コメントで喜んでお答えします。

Source: https://habr.com/ru/post/J449494/


All Articles