プロの倉圢科孊者の日付


「手にハンマヌがある堎合、すべおが釘のように芋える」


デヌタを実践する科孊者ずしお、私たちはデヌタの分析、収集、浄化、濃瞮に埓事し、デヌタに基づいお私たちの呚りの䞖界のモデルを構築し、蚓緎したす。 もちろん、そのような没入感は私たちの䞖界のビゞョンず理解に圱響を䞎えるこずしかできたせんでした。 プロの倉圢は他の堎合ず同じように私たちの職業に存圚したすが、それは私たちに正確に䜕をもたらし、それは私たちの生掻にどのように圱響したすか


免責事項


この蚘事は科孊的であるず䞻匵するものではなく、ODSコミュニティの単䞀の芳点を衚すものではなく、著者の個人的な意芋です。



前文



私たちの脳がどのように機胜するか、私たちの呚りの䞖界をどのように知芚するか、そしお実際にここで䜕をしおいるのかに興味があるなら、この蚘事で説明するこずの倚くは完党に新しいものではありたせん。 なんらかの圢で、これはすべお完党に異なる角床から耇数回説明されおいたす。 私の仕事は、これらすべおをデヌタアナリストの芳点から芋ようずするだけでなく、私たちが仕事やモニタヌの倖で実際に䜿甚するツヌルずアプロヌチの類䌌点を描くこずです。



はじめに



たず、このようなやや単玔化されたセットアップを想像しおください。


私たちの呚りには、生き残り、正垞に機胜するための䞖界がありたす。人は、自分䞖界が䜕を衚しおいるのか、どのように察話するのか、さたざたな盞互䜜甚からどのような結果が埗られるのかを理解する必芁がありたす。 ぀たり、蚀い換えれば、 珟圚のタスクを適切に解決する呚囲の䞖界のモデルが必芁です 。 キヌは「 珟圚のタスク 」です。 生存の課題がそもそもあったずき、䞖界のモデルはたず第䞀に、危険の迅速な認識ずそれに適切な反応の䞊に構築されたした。 ぀たり、より悪いモデルを持っおいる人-それを枡すこずができたせんでした;より良いモデルを持っおいる人は、圌らの子孫に枡されたした。 生掻環境の改善に䌎い、モデルの重点は玔粋な生存からより高床に組織化されたものに倉わり始め、環境がより安党になるほど、この「䜕か」はより倚様になりたす。 「䜕か」の範囲は非垞に広く、ビットコむンやDSから急進的なフェミニズムや寛容にたで及びたす。


自然は、限られた資源の状況での生存の問題を解決するために私たちの脳を䜜成したした-十分な食物がなく、ごみに十分な゚ネルギヌがなかったので、生き残るためには、2぀の盞互に排他的なタスクを解決する必芁がありたした



自然はこのゞレンマを非垞に゚レガントに解決し、デヌタフロヌず反応をキャッシュする機胜を脳に導入したす。これは、倖界ずの盞互䜜甚の基本的な問題珟圚のモデルの枠組み内を解決するために゚ネルギヌが実際に無駄にならない堎合です。


このキャッシング方法ず「泚意のリ゜ヌス理論」に぀いおは、 D。カヌネマンの優れた䜜品「 ゆっくり考え、玠早く解決する 」[1]および「 泚意ず努力 」[3]で詳しく読むこずができたす。



D.カヌネマンによるず



心理孊者は、システム1ずシステム2ず呌ぶ2぀の思考モヌドを区別したす。

システム1は、劎力をほずんど必芁ずせず、意図的な制埡感を䞎えるこずなく、自動的か぀非垞に迅速に動䜜したす

システム2は、耇雑な蚈算を含む意識的な粟神的努力に必芁な泚意を䞎えたす。 システム2のアクションは、倚くの堎合、䞻芳的な掻動感芚、遞択、集䞭に関連しおいたす。

行動、反応、および応答のパタヌンは、子䟛の頃から死たで、私たちの脳にプログラムされおいたす䞖界のモデルを圢成および倉曎したす。 2぀の芁因は、モデルの圢成段階に䟝存したす-倉曎の受け入れ率ず倉曎に必芁な゚ネルギヌ量です。 小児期では、モデルが柔軟で柔軟な堎合、速床は高く、゚ネルギヌコストは最小限です。 モデルの密床が高いほど、モデルを倉曎するためにより倚くの゚ネルギヌが必芁になりたす。 さらに、 ゚ネルギヌが必芁なため、人は単にモデル内の䜕かを倉曎したいだけです。 そしお、゚ネルギヌの無駄は脳によっお制埡されおおり、圌はそれを費やすこずを蚱すこずにoooooしおいたす。


モデルを倉曎するコマンドは、叀いモデルのフレヌムワヌク内で機胜するこずが生存を脅かすたで、脳によっお拒吊されたすそれでも゚ネルギヌを消費したすが、なぜですか。 たあ、たたぱネルギヌが自発的な爆発によっお受け取られるたで䜕かからの衝撃、心理的な打撃など



TL / DR




メタモデルモデルモデル



したがっお、倖の䞖界ず察話するために、人は自分の脳で䞖界のモデルを構築し、可胜な限り長くそれに応じお行動したす゚ネルギヌコストの最小化に぀いおもう䞀床思い出しおください。 しかし、残念なこずにたたは幞いなこずに、人は瀟䌚的な動物です。他の人ず亀流するこずはできたせん。


他の人々ず効果的に察話するために、私たちはこれらの人々の行動モデル 、぀たり特定のデヌタが存圚する特定の状況での圌らの振る舞いのモデルを頭の䞭に構築したす 。 ぀たり、この特定の人の呚囲の䞖界のモデルのモデルを構築しおいたす。


停止しお考える- 人の頭の䞭の䞖界のモデルは䞍完党であり、圌自身の十分性ず劥圓性の基準しか満たしおいないため、この奇劙なモデルのモデルを構築し、モデルに埓っおこの人ずやり取りしたす。 はい、 たた、「圌のモデルのモデル」に瀺されおいるように、人々にできるこずを望んでいたす 。 楜芳的 はい、以䞊....


適切なモデルを構築しおトレヌニングするには、あなたに䌝えるのではなく、倚くの時間、゚ネルギヌ、デヌタが必芁です。 そしお、どちらか䞀方も存圚しないこずが倚く、モデルの自由床パラメヌタヌが倧きいほど、より倚くのデヌタが必芁になりたす-次元の呪い、芚えおいたすか


そしお、人生は飛ぶ、そしお時間は短いのでSystem-1は機胜する、人に䌚い、ある条件で圌ず通信さえするので、私たちはすでに持っおいるプリコンパむルされたモデルテンプレヌトの1぀を遞択する頭「雌犬」、「普通の子䟛」、「モグラ塚」、「ちょうど」号、「ak」などに、特定の堎合にはわずかなフィントゥニアかもしれたせん。


はい、もちろん䟋倖がありたす。時間や゚ネルギヌのいずれに぀いおも気に入らない人がいたす。 しかし、この堎合、私たちはこの人のモデルにいる人に぀いおのみ知っおいたす。



ここから䜕が続きたすか いく぀かの明らかなこず


たあ、 たず 、科孊者が他の人に察しおtowardsりを感じない日付。

蚀葉から完党に。 圌の語圙では、「resみ」ずいう甚語はありたせん。 なんで すべおが単玔です-any蟱の栞心には誀解がありたす



぀たり、この人物のモデルでは、特定の情報パケットの入力がある特定の状況では、このように行動するはずでしたが、行動したせんでした。 あのろくでなし ええ、圌はろくでなしではありたせんが、この人のモデルは間違っおいたす。 その䞭に䜕かを芋逃したか、特定の状況にたったく興味がありたせんでしたが、テンプレヌトを䜿甚したか、珟圚の状況の入力デヌタがモデルをトレヌニングしたデヌタず異なりたす。


この堎合の察凊方法 通垞ず同じ-デヌタの䜕が問題であるかを調べ、新しい情報でモデルをオヌバヌトレヌニングしたす。


第二に、科孊者の日付には「 むンタヌネット䞊で誰かが間違っおいる 」ずいう反射がありたせん。

むンタヌネット䞊だけでなく、職堎や瀟䌚などでも機胜したす。 人が䜕かを理解しおいないかあなたのように理解しおいないが、あなたのやり方では理解しおいない堎合、おそらく圌は䞖界のこの郚分に察しおたったく異なるモデルを持っおいるでしょう。 そしおこれを玍埗させるために、すなわち 圌にモデルを倉曎させるこずは特に圌が望んでいない堎合非垞に難しく、非垞に゚ネルギヌ集玄的です。 必芁ですか


完党に異なるオプションは、人がモデルを倉曎する準備ができおいるずきに、モデルを拡匵たたは匷化したいずきに、そのための匷さず゚ネルギヌを持っおいるこずです。 あなたは助けるこずができたす-助けお、できたせん-できる人に盎接。 助けるこずも盎接するこずもできたせん-干枉しないでください 。


次回、あなたの意芋では、圌が「間違っおいる」か「䜕かを理解しおいない」堎合、動揺しないでください。 圌の䞖界のモデルでは、すべおが異なっおいたす。 モデルをより粗く「単玔」にすればするほど、少なくずも䜕かを倉えるこずは蚀うたでもなく、 少なくずも平衡点から抜け出すために、より倧きな゚ネルギヌ消費が必芁になりたす。


そしお第䞉に、科孊者の日付は「 物事は垞に圌らが芋えるものではない 」ずいう原則を芚えおいたす。

このシステムがどのように機胜するかを理解し、暡倣し、珟圚の瀟䌚に銎染みのある基本的なテンプレヌトに適応する機䌚がありたす。そしお、それから抜け出すたで、すべおがうたくいきたす。 それは䞡方の方法で動䜜するので、忘れないでください-「 フクロりは芋た目ではありたせん 。」


「ヘビずしおのロヌプの認識は、ロヌプずしおのロヌプの認識ず同じくらい間違っおいたす」C



モデルの構築ずトレヌニング



科孊者の日付ずしお、我々は倚かれ少なかれ適切なモデルを構築し、蚓緎し、絶えず再蚓緎するこずがいかに難しいかをよく理解しおいたす。 それで科孊者が他の人の頭の䞭のモデルの䞍完党さを冷静に忍耐匷く蚀及し、自分自身を絶えず改善したす。 そしお圌はただプロであるため、成功するモデリングの基本原則を完党に芚えおいたす。



呚りに䜕がくるのかごみが入る-ごみが出る


モデルの粟床ず劥圓性は、他の䜕よりもデヌタの玔床に䟝存したす。 私たちは皆これを知っおいたす。デヌタのクリヌンアップ、前凊理、正芏化などに膚倧な時間を費やしおいたす。 ガベヌゞモデルをフィヌドしたす-結果は予枬可胜です。 圌女のクリアされた正芏化されたデヌタずあなたのポケットの掞察力を逊いたす。 私たちの頭の䞭のモデルはたったく同じように機胜したす。 これを理解し、 凊理ずトレヌニングに最も正確でクリヌンなデヌタを䜿甚するよう努め、デヌタの劥圓性を分析するために絶えず重芁なビュヌを䜿甚し、モデル内の汚れたノむズの倚い情報の防止に努めおいたす 。 芁するに-Habrを読んで、最初のチャンネルを芋ないでください。



TrainずTestの違い頭痛


科孊者は、モデルの適甚性がモデルが研究しお、それが適甚される分垃の類䌌性に盎接䟝存するず理解したす。 ある瀟䌚の行動のルヌルは別の瀟䌚では機胜せず、ある分野での成功の原則は別の分野では適甚されたせん。母の話に基づいお構築された異性の「兞型的な行動モデル」


私たちは垞に、䞖界のモデルを蚓緎した蚓緎デヌタセットず、モデルを適甚した実際のデヌタセットの可胜な非類䌌性を考慮したす。


芁するに、 矛盟の理由を理解し、モデルを事前トレヌニングに費やしお実䞖界により厳密に䞀臎させる準備ができおいたす。



目的関数ずマルチドメむン孊習の遞択


目的関数を倉曎するこずにより、ほがすべおのタスクを別のドメむンに転送できたす。 問題は回垰ずしお解決されたせんか クラスのタヌゲットをやり盎し、分類タスクずしお解決したす。 さらに良いこずには、グリッドで2぀の方向に進み、1぀で1぀の問題を解決し、2぀目の問題を修正したす。 同じデヌタセットで、2぀の異なるモデルをトレヌニングし、たったく異なるものをシャヌプにするこずができたす。 これを忘れないでください。最終目的関数が耇数のドメむンを䞀床にカバヌする堎合、人生における最善の遞択肢はマルチドメむン孊習です。 たずえば、職堎では、お金を皌ぐだけで、プロのスキルをダりンロヌドでき、゜ヌシャルむンタラクションスキルを向䞊させるこずができたす。 埓来のモデルの堎合ず同様に、このアプロヌチにより、最終的に、すべおのマルチドメむンの目暙を充実させ、改善するこずができたす。 たた、時間を忘れないでください- 個々の目的のための3぀のモデルは3倍の時間を必芁ずしたすが、実際にはそれほど長くはありたせん。残念ながら、トレヌニングを数十たたは2぀のTPUシェックに䞊列化するこずはできたせん。



ブロックでのトレヌニングバッチ孊習


バッチを䜿甚したモデルトレヌニングが効果的であるこずが長い間蚌明されおいたす。 オンラむントレヌニングが必芁な特定の領域を考慮しない堎合、時代党䜓を通過した埌にのみ重みを曎新しおも意味がありたせん。 はい、バッチでのトレヌニングは高呚波ノむズを生成したすが、これはほが同じ粟床でより高い収束率によっお平準化されたす。


これにより䜕が埗られたすか 新しいデヌタに基づいお䞖界のモデルをわずかに倉曎する前に長く埅぀こずは意味がないこずを理解しおください。 時代党䜓を埅぀必芁はありたせん。よくわかりたせんが、新しい仕事で1幎、新しい人ずの1幎、 頻繁に倉化したす。最終目暙ぞの移動が早くなりたす 。 たた、1回の事件の埌に「すべおが倱われた」ず叫ぶのは無意味です。たぶんそれは単なる爆発であり、倚分星はこのように発展し、バッチの終わりたで埅っお、゚ラヌを蓄積し、モデルを倉曎したす。




トピックに関する倚くの蚘事 䟋 があり、最適なハむパヌパラメヌタヌを怜玢する堎合、グリッド怜玢よりもランダム怜玢の方が優れおいたす。 したがっお、この堎合、 「ランダム」アクションの遞択は、「事前にランダムに」実行する方が適切であり、事前に定矩されたグリッドに厳密に埓っおはなりたせん 。 ファンず厳栌なアプロヌチの支持者は今私を螏みにじるでしょうが、真剣に、 ケヌスは䞖界を支配し、そのような方法の䜿甚は、奇劙なこずに、さらに合理的です。


いっそのこず、もちろん、 ベむゞアン最適化を䜿甚するこずです。 しかし、ここでは、それが実際の生掻にどのように適甚されるのか理解できたせん。 情報を理解するためのベむズのアプロヌチではなく、ハむパヌパラメヌタを遞択する際のベむズの最適化 。



アンサンブル


私たちは皆、アンサンブルの力に぀いお知っおいたす。各モデルは独自の方法でデヌタを芋お、そこから䜕らかの信号を匕き出したす。最良の結果は、第1レベルのモデルの䞊にメタモデルを䜿甚するこずで達成されたす。 人生では、すべおがたったく同じであり、自分の経隓に基づいお䞖界の独自のモデルを構築できるだけでなく、他の人の䞖界のモデルから最高のものを吞収するこずもできたす逆もたた同様です。 これらのモデルは本や映画で説明されおおり、他の人の行動を芳察するだけで、圌らがどのようなモデルを持っおいるかを理解し、最善を尜くしお自分自身を構築するこずができたす。


「私たちの抂念が匱いからではなく、抂念の茪に含たれおいないために、倚くのこずが理解できない」こずを思い出したしょう。コズマ・ペトロノィッチは、科孊者であるにもかかわらず、限られたモデルの問題を理解しおいたした。 :)


人、環境、デヌタが異なる-モデルは、䞀芋明らかなこずでも。 倧䌁業で働いおいたなら、行動、コミュニケヌションのルヌル、ハラスメントなどに関するこれらの無限のトレヌニングをすべお芚えおいるでしょう。 䞀䜓䜕だず思った。 しかし、いや、ゎミではありたせん。 倧䌁業文化、考え方、䟡倀芳の違いによるでは、通垞のやり取りず仕事を確保するために、各埓業員のモデルに基本原則の局を導入するだけです。



TL / DR




舞台裏に残っおいるもの




䞭倮極限定理


CTCが蚀うように、匱䟝存分垃の任意のタむプからサンプリングされたランダムむベントの合蚈は、それ自䜓がランダム倉数であり、通垞は制限内で分垃したす。


私たちの人生はランダムなむベントで構成されおいたす ゚レベヌタヌや停留所でのバスの埅ち時間、コヌナヌを逃したかどうかなどです。 最終的な分垃のどこにあるかによっお、センタヌたたはテヌルに察しお、条件付きで1日を成功たたは倱敗別のランダム倉数ずしお評䟡できたす。 十分に倧きいサンプルたずえば、1幎では、このランダム倉数が「 たあ、倚かれ少なかれ倧䞈倫 」を䞭心に正芏分垃しおいるこずがわかりたす。


科孊者が䞊蚘のすべおを理解し、それがいわゆる すべおが悪いずきの「黒い線」 -バスが錻の䞋に残っお、コヌヒヌを泚ぎ、コヌドを保存しなかった、など 圌は、今日私たちは分垃の尟を持っおいる、私たちは今日この日を生き残る必芁があるこずを理解しおいたす 、そしお明日、おそらく䞖界は私たちにわずかに異なる方法でむベントをサンプリングするでしょう。


ずころで、 むベントの新しい参照ポむント新しいサンプルセットぞの移行は倢です。 カレンダヌの日ではなく、真倜䞭ではなく、目芚めた埌の䞻芳的な新しい日です。 私たちの祖先はこれを盎感的に理解したしたxgboostずkerasに぀いおは知りたせんでしたが、ここから「 倕方の朝は賢い 」、「 仕事をしたい、寝る、すべおが通り過ぎる 」ずいうこずわざがここから来たした。


論理的な結論は、「黒いバヌ」が長すぎる堎合この「あたりにも」のp倀を蚈算しようずするこずもできたす、これは私たちの生掻方皋匏のいく぀かの倀がシフトするこずを意味したす バスがルヌトから倖れた、あなたが持っおいる朝の握手が珟れた、たたはシステムぞの倖郚の圱響が実行されたす。



意味する回垰


フランシス・ガルトンirの芪切な蚀葉を思い出したしょう。圌は圌の䜜品「 継承における䞭間ぞの回垰 」でこの珟象に最初に泚意を匕きたした。 たた、このトピックは、D。カヌネマンによる既述の優れた本[1]で十分にカバヌされおいたす。


科孊者の日付ずしお、今日䜕かが昚日より悪い堎合、私たちは泚意を払いたせん 。 特に今日の倱敗は明日の成功の可胜性を高めるため、 今日の倱敗を意味し、今日の倱敗に関連する回垰を芚えおいたす、これも同じ法埋に埓っお


繰り返したすが、この法埋は「 物事がうたくいけば、すぐにさらに悪化する 」ずいう、より身近な圢で長い間再定匏化されおきたした。



䜿甚ずむンテリゞェンス搟取vs探玢


すでに述べたように、私たちの脳ぱネルギヌ消費を最小限に抑えようずしおいたすが、これは生存ず出産を優先するためです。 最初は、生き残るための゚ネルギヌがほずんどなく、保存する必芁があり、そのような長い進化のための脳は、基本的なファヌムりェアのオッカムおじさんの原則によっお刷り蟌たれたした。 」 呚りで起こるすべおが珟圚のモデルの枠組みで理解可胜であり、原則ずしおすべおが倚かれ少なかれあれば、䜕か新しいものを探す必芁がない堎合、䞖界の新しいモデルの構築に゚ネルギヌを費やす必芁はありたせん。


しかし、私たちはプログラムです...科孊者はデヌトしたす。 ゞャムがロヌカルミニマムにあるものをよく知っおいたす。 私たちの生掻の最適化関数の衚面の耇雑さは理解できず、説明するこずはできたせん 倚くの人が意図的に単玔化しお存圚を容易にしたす。たた、新しい最良の局所最小倀は、1぀たたは2぀の単玔なアクションで隣り合わせになりたす。 しかし、私たちは最適な状態にずどたり続け、「 たあ、䜕も倉わらないこずを知っおいたす」ず蚀っおいたす 。 すでに述べたように、目的関数のランドスケヌプが耇雑であるため、このようなこずはわかりたせん。 あなたは思考を止めおゞャンプを始めなければなりたせん。 定期的にロヌカルミニマムから出お、さたざたな方向にひき぀こうずするず、あなたの人生がどのように倉わるかを信じるこずはできたせん。


䟋ずしお、RL 匷化孊習 の「ロヌカルミニマム」で立ち埀生する問題を挙げるこずができたす。 貪欲なアルゎリズムを䜿甚しお各状態のアクションを遞択するず、もちろん、最終的に報酬を最適化したすが、呚囲の空間の他の、おそらくより興味深い領域を残したす。 したがっお、 この特定の状況から最良ではなくランダムなアクションを遞択する可胜性をアルゎリズムに導入し、これが新しいもの、おそらくはより良いものに぀ながるかどうかを確認したす 。 無限数の開始を䌎うRL問題に぀いおは、遅かれ早かれ、考えられるすべおの状態ず報酬を考慮し、最倧のものを遞択したす。 残念ながら、実際には詊行回数は限られおいたすそしおもちろん実隓時間もが、タスクはより興味深いものです。぀たり、アクションをランダムに遞択する代わりに、より掗緎されたアルゎリズムを思い぀くこずができたす。


ちなみに、 興味のバブル、パヌ゜ナラむズされたフィヌド、怜玢結果などは、 探玢の機䌚を遮断し、既に孊習されたコンテンツの領域ぞの情報の流れを閉じるため、有害です。



人口サンプル


私たちは、人、出来事、物事に関するすべおの評䟡的刀断が䞀般集団党䜓に基づいおいるのではなく 、芳察のために利甚可胜な特定のサンプルにのみ基づいおいるこずを理解しおいたす 。 このこずを認識しお、「 すべおの男性は偶蹄目動物 」たたは「 すべおの女性は金髪 」などのラベルを非垞に慎重に 掲げおいたす。


たた、通垞のサンプルを䜿甚しおも、分垃の「テヌル」に陥る確率はれロにはほど遠いこずを芚えおいたす 。 そしお、もしこれが起こったずしおも、私たちは動揺せず、「なぜ私は再びいるのか」ずいうトピックに぀いおは考えおいたせんが、レッスンを孊び、冷静に進んでいたす。


既に述べたように、突然䜕かのサンプル人、むベントなどが突然「尟」だけで構成され始めた堎合、これは、䞖界の自分のモデルで䞖界がこのように反応し始めたこずを突然反映する機䌚です。



認知的歪み


ある皋床、私たちはただすべお人間であり、私たちの脳はSystem-1の動䜜に起因するすべおの可胜な認知的歪みの圱響を受けたす。 基本的な垰属゚ラヌ 、 遡及的歪み 、 フレヌミング 、 生存者の系統的゚ラヌなど、など。 これらおよび他の倚くのベヌルも私たちに圱響を䞎えたす。 しかし、科孊者が日付を付けおいるように、私たちは垞にこれらのtrapに぀いお芚えおおり、垞にシステム-2に負担をかけ、それらから自分自身を隔離しようずしたす。 歪みの性質ずそれらから離調する方法を理解するこずは、私たちの仕事ず実生掻の䞡方で圹立ちたす。 はい、難しいです。System-2に十分な゚ネルギヌがありたせんが、筋肉は緊匵したずきにのみ成長したす。



「その埌はそれゆえ意味がありたせん」ず他の論理゚ラヌ


繰り返したすが、 認知の歪みの堎合ず同様に、これらの論理゚ラヌに぀いお知っおおり、それらを芚えお、System-1を開発しお、そのようなトラップのバむパスが自動的に行われるようにしたす。



地図が領土ず䞀臎しおいたせん


, “ , ” (). . , , - , , , . , , , , , , , .



TL/DR



おわりに



, - , , , , , .


参照資料


  1. . 
 . — .: , 2013. — 625 .
  2. ., ., . : ., : , 2005. — 632 . — [ISBN 966-8324-14-5]
  3. カヌネマンD.泚意ず努力/トランス英語からI. S.りトチキナ。-M。センス、2006 .-- 288 p。
  4. フリス・K、「脳ず魂神経掻動が私たちの内なる䞖界をどのように圢成するか」

Source: https://habr.com/ru/post/J447362/


All Articles