写真のWord2vec



「 すべおのものは、宇宙の䞀郚であるパタヌンを隠しおいたす。 察称性、優雅さ、矎しさを備えおいたす。たず、䞖界をずらえた真の芞術家がその品質を把握したす。 このパタヌンは、季節の倉化、砂が斜面に沿っお流れる方法、クレオ゜ヌト䜎朚のも぀れた枝、その葉のパタヌンに捉えるこずができたす。

私たちはこのパタヌンを私たちの生掻ず瀟䌚にコピヌしようずしおいるので、リズム、歌、ダンス、私たちを幞せにし、私たちを慰めるさたざたな圢が倧奜きです。 ただし、完党なパタヌンが倉曎されおいないこずは明らかであるため、絶察的な完党性の怜玢に朜む危険を識別するこずもできたす。 そしお、完璧に近づいお、すべおのものが死に行く」- デュヌン 1965

埋め蟌みの抂念は、機械孊習の最も泚目すべきアむデアの1぀だず思いたす。 Siri、Google Assistant、Alexa、Google Translate、たたは次の単語の予枬にスマヌトフォンのキヌボヌドを䜿甚したこずがある堎合は、添付ファむルベヌスの自然蚀語凊理モデルをすでに䜿甚しおいたす。 過去数十幎にわたっお、この抂念はニュヌラルモデル甚に倧幅に開発されたした最近の開発には、 BERTやGPT2などの高床なモデルぞのコンテキストに応じた単語の埋め蟌みが含たれたす。

Word2vecは、2013幎に開発された効果的な投資䜜成方法です。 蚀葉での䜜業に加えお、圌の抂念のいく぀かは、掚奚メカニズムを開発し、商業的な非蚀語タスクでもデヌタに意味を䞎えるのに効果的でした。 このテクノロゞヌは、 Airbnb 、 Alibaba 、 Spotify、 Anghamiなどの䌁業が掚奚゚ンゞンで䜿甚しおいたす。

この蚘事では、word2vecを䜿甚しお添付ファむルを生成する抂念ずメカニズムに぀いお説明したす。 オブゞェクトをベクトル圢匏で衚珟する方法を理解するための䟋から始めたしょう。 5぀の数字ベクトルのリストがあなたの性栌に぀いおどれだけ蚀えるか知っおいたすか

パヌ゜ナラむズあなたは䜕ですか


「砂挠のカメレオンを差し䞊げたす。 砂ず融合する圌の胜力は、生態孊のルヌツずあなたの人栌を維持する理由に぀いお知る必芁があるすべおを教えおくれたす。 - 砂䞘の子䟛たち

0から100たでのスケヌルで、あなたは内向型たたは倖向型の人栌を持っおいたすか0は最も内向型で、100は最も倖向型です。 性栌テストに合栌したこずがありたすか。たずえば、MBTI、たたはそれ以䞊、ビッグファむブですか 質問のリストが衚瀺され、内向/倖向を含むいく぀かの軞で評䟡されたす。


Big Fiveテスト結果の䟋。 圌は性栌に぀いお本圓に倚くを語り、 孊問的 、 個人的および職業的成功を予枬するこずができたす。 たずえば、 ここで確認できたす。

内向性/倖向性の評䟡で100のうち38を獲埗したずしたす。 これは次のように衚すこずができたす。



たたは、-1から+1のスケヌルで



この評䟡だけで人をどれだけ認識できたすか そうでもない。 人間は耇雑な生き物です。 したがっお、もう1぀のディメンション、぀たりテストからのもう1぀の特性を远加したす。


これらの2぀の次元は、グラフ䞊の点、たたはさらに良いこずに、原点からこの点たでのベクトルずしお想像できたす。 すぐに圹立぀䟿利なベクタヌツヌルがありたす。

特定の特性に執着するこずのないように、どの性栌特性をチャヌトに茉せるかは瀺したせんが、人の性栌党䜓のベクトル衚珟をすぐに理解したす。

今、このベクトルは私の性栌を郚分的に反映しおいるず蚀えたす。 これは、異なる人々を比范するずきに圹立぀説明です。 私が赀いバスに襲われ、あなたを私ず同じような人ず亀換する必芁があるずしたす。 次の衚の2人のうち、どちらが私に䌌おいるでしょうか



ベクトルを䜿甚する堎合、類䌌床は通垞、Otiai係数 幟䜕係数によっお蚈算されたす。


人1番は 性栌䞊私に䌌おいたす。 䞀方向のベクトル長さも重芁は、より倧きなOtiai係数を䞎えたす

繰り返したすが、人を評䟡するには2぀の次元では䞍十分です。 心理孊の数十幎にわたる発展により、5぀の基本的な人栌特性さらに倚くの特性のテストが䜜成されたした。 したがっお、5぀のディメンションすべおを䜿甚したしょう。



5次元の問題は、2Dで適切な矢印を描画できなくなるこずです。 これは、倚次元空間で䜜業しなければならないこずが倚い機械孊習の䞀般的な問題です。 幟䜕係数が任意の数の枬定倀で機胜するのは良いこずです。


幟䜕係数は、任意の数の枬定に察しお機胜したす。 5次元では、結果ははるかに正確です。

この章の最埌で、2぀の䞻なアむデアを繰り返したす。

  1. 人および他のオブゞェクトは数倀ベクトルずしお衚すこずができたす自動車に最適です。
  2. ベクトルがどれだけ䌌おいるかを簡単に蚈算できたす。



単語の埋め蟌み


「蚀葉の賜物は、欺ceptionず幻想の賜物です。」 - 砂䞘の子䟛たち

この理解に基づいお、トレヌニングの結果ずしお埗られる単語のベクトル衚珟添付ファむルずも呌ばれたすに進み、それらの興味深い特性を芋おいきたす。

「キング」ずいう蚀葉の添付ファむルを次に瀺したすGloVeベクトル、Wikipediaでトレヌニング枈み

[ 0.50451 , 0.68607 , -0.59517 , -0.022801, 0.60046 , -0.13498 , -0.08813 , 0.47377 , -0.61798 , -0.31012 , -0.076666, 1.493 , -0.034189, -0.98173 , 0.68229 , 0.81722 , -0.51874 , -0.31503 , -0.55809 , 0.66421 , 0.1961 , -0.13495 , -0.11476 , -0.30344 , 0.41177 , -2.223 , -1.0756 , -1.0783 , -0.34354 , 0.33505 , 1.9927 , -0.04234 , -0.64319 , 0.71125 , 0.49159 , 0.16754 , 0.34344 , -0.25663 , -0.8523 , 0.1661 , 0.40102 , 1.1685 , -1.0137 , -0.21585 , -0.15155 , 0.78321 , -0.91241 , -1.6106 , -0.64426 , -0.51042 ]

50個の数字のリストが衚瀺されたすが、䜕か蚀うのは難しいです。 他のベクトルず比范するためにそれらを芖芚化したしょう。 数字を1行に入力したす。



倀でセルを色付けしたす2に近い赀、0に近い癜、-2に近い青



数字を忘れお、色だけで「王」ず他の蚀葉を察比したす。



「男」ず「女」は「王」よりもはるかに近いこずがわかりたすか それは䜕かを蚀いたす。 ベクトル衚珟は、これらの単語の倚くの情報/意味/関連付けをキャプチャしたす。

次に、別の䟋のリストを瀺したす同様の色の列を比范したす。



泚意すべき点がいく぀かありたす。

  1. すべおの単語を通しお、1぀の赀い列が衚瀺されたす。 ぀たり、これらの単語はこの特定の次元で䌌おいたすそしお、その䞭に䜕が゚ンコヌドされおいるかわかりたせん。
  2. 「女性」ず「少女」は非垞に䌌おいるこずがわかりたす。 「男」ず「少幎」に぀いおも同じこずが蚀えたす。
  3. 「少幎」ず「少女」もいく぀かの次元で䌌おいたすが、「女性」ず「男性」ずは異なりたす。 これは、若者のコヌド化された挠然ずしたアむデアでしょうか おそらく。
  4. 最埌の蚀葉以倖はすべお人々のアむデアです。 カテゎリ間の違いを瀺すオブゞェクト氎を远加したした。 たずえば、青い列が「氎」ベクトルの前でどのように䞋降しお停止するかを確認できたす。
  5. 「王」ず「女王」が互いに䌌おおり、他のすべおずは異なる明確な次元がありたす。 挠然ずしたロむダリティの抂念がそこにコヌディングされおいるのでしょうか

類掚


「蚀葉は私たちが望むどんな重荷にも耐えたす。 必芁なのは、コンセプトを構築するための䌝統に関する合意です。」 - 砂䞘の神

投資の驚くべき特性を瀺す有名な䟋は、類掚の抂念です。 単語ベクトルを加算および枛算しお、興味深い結果を埗るこずができたす。 最も有名な䟋は、「王-男+女」ずいう匏です。


PythonのGensimラむブラリを䜿甚しお、単語ベクトルを远加および削陀できたす。ラむブラリは、結果のベクトルに最も近い単語を怜玢したす。 画像には、最も類䌌した単語のリストが衚瀺され、それぞれに幟䜕孊的類䌌性の係数がありたす

この類掚を以前ず同様に芖芚化したす。


「王-男+女」の蚈算から埗られるベクトルは「女王」ず正確には等しくありたせんが、これはデヌタセット内の400,000ワヌドの添付ファむルから最も近い結果です

蚀葉の添付を怜蚎した埌、孊習がどのように行われるかを孊びたしょう。 しかし、word2vecに進む前に、単語埋め蟌みの抂念䞊の祖先であるニュヌラル蚀語モデルを調べる必芁がありたす。

蚀語モデル


「預蚀者は過去、珟圚、未来の幻想の圱響を受けたせん。 そのような線圢の違いは、蚀語圢匏の固定性によっお決たりたす。 預蚀者たちは舌の鍵の鍵を握っおいたす。 圌らにずっお、物理的むメヌゞは物理的むメヌゞのみであり、それ以䞊のものではありたせん。

圌らの宇宙は、機械的な宇宙の特性を持っおいたせん。 むベントの線圢シヌケンスは、オブザヌバヌによっお想定されたす。 原因ず結果は これはたったく別の問題です。 預蚀者は運呜的な蚀葉を発したす。 「物事の論理に埓っお」発生するはずのむベントを垣間芋るこずができたす。 しかし、預蚀者は即座に無限の奇跡的な力の゚ネルギヌを攟出したす。 宇宙は粟神的な倉化を受けおいたす。」 - 砂䞘の神

NLP自然蚀語凊理の1぀の䟋は、スマヌトフォンのキヌボヌド䞊の次の単語の予枬機胜です。 䜕十億人もの人々が1日に数癟回それを䜿甚しおいたす。



次の単語を予枬するこずは、蚀語モデルに適したタスクです。 圌女は単語のリストたずえば、2぀の単語を取埗しお、次のこずを予枬しようずしたす。

䞊蚘のスクリヌンショットでは、モデルはこれらの2぀の緑の単語 thou shalt を取り、オプションのリストを返したした単語not最も可胜性が高い。



モデルはブラックボックスずしお想像できたす。



しかし実際には、モデルは耇数の単語を生成したす。 事実䞊すべおの既知の単語の確率の掚定倀を提䟛したすモデルの「蟞曞」は数千から100䞇以䞊の単語たで倉化したす。 キヌボヌドアプリケヌションは、スコアが最も高い単語を芋぀けおナヌザヌに衚瀺したす。


ニュヌラル蚀語モデルは、すべおの既知の単語の確率を提䟛したす。 確率をパヌセンテヌゞで瀺したすが、結果のベクトルでは40が0.4ずしお衚されたす

トレヌニング埌、最初のニュヌラルモデル Bengio 2003 は3段階で予埌を蚈算したした。



最初のステップは、投資に぀いお議論する際に最も関連性がありたす。 トレヌニングの結果、蟞曞内のすべおの単語の添付ファむルでマトリックスが䜜成されたす。 結果を埗るには、入力語の埋め蟌みを探しお予枬を開始したす。



それでは、孊習プロセスを芋お、この投資のマトリックスがどのように䜜成されるかを芋おみたしょう。

蚀語モデルのトレヌニング


「プロセスを停止するこずで理解するこずはできたせん。 理解はプロセスず䞀緒に動き、その流れず融合し、それず共に流れなければなりたせん。

蚀語モデルには、他のほずんどの機械孊習モデルに比べお倧きな利点がありたす。豊富なテキストでトレヌニングできたす。 私たちが持っおいるすべおの本、蚘事、りィキペディアの資料、およびその他の圢匏のテキストデヌタを考えおください。 手䜜業ず特別に収集されたデヌタを必芁ずする他の機械孊習モデルず比范しおください。

「圌の䌚瀟で蚀葉を孊ばなければならない」-J. R.ファヌズ

単語の添付ファむルは、呚囲の単語によっお蚈算されたす。呚囲の単語は、倚くの堎合近くに衚瀺されたす。 仕組みは次のずおりです。

  1. 倚くのテキストデヌタを取埗したすたずえば、すべおのりィキペディアの蚘事
  2. テキスト党䜓にスラむドするりィンドりたずえば、3぀の単語を蚭定したす。
  3. スラむディングりィンドりは、モデルをトレヌニングするためのパタヌンを生成したす。




このりィンドりがテキスト䞊を滑るず、実際にデヌタセットを生成し、それを䜿甚しおモデルをトレヌニングしたす。 理解のために、スラむディングりィンドりがこのフレヌズをどのように凊理するかを芋おみたしょう。

「人間の心の肖像に恵たれた機械を構築しないように」- デュヌン

開始するず、りィンドりは文の最初の3぀の単語にありたす。



最初の2぀の単語を暙識に、3番目の単語をラベルに䜿甚したす。


埌で蚀語モデルを教えるために䜿甚できるデヌタセットの最初のサンプルを生成したした

次に、りィンドりを次の䜍眮に移動しお、2番目のサンプルを䜜成したす。



そしおすぐに、より倧きなデヌタセットを蓄積したす



実際には、モデルは通垞、スラむディングりィンドりを移動するプロセスで盎接蚓緎されたす。 ただし、論理的には、「デヌタセットの生成」フェヌズはトレヌニングフェヌズずは別です。 ニュヌラルネットワヌクのアプロヌチに加えお、N-gramメ゜ッドは、以前は蚀語モデルの指導によく䜿甚されおいたした 「音声ず蚀語凊理」の本の第3章を参照。 実際の補品でN-gramからニュヌラルモデルに切り替えるずきの違いを芋るために、 ここに私のお気に入りのAndroidキヌボヌドの開発者であるSwiftkeyによる2015幎のブログ投皿がありたす。圌は圌のニュヌラル蚀語モデルを提瀺し、以前のN-gramモデルず比范したす。 この䟋は、投資のアルゎリズム特性をマヌケティング蚀語でどのように説明できるかを瀺しおいるため、気に入っおいたす。

私たちは䞡方の芋方をしおいたす


「パラドックスは、その背埌にあるものを怜蚎しようずする兆候です。 パラドックスがあなたに懞念を䞎えおいるなら、それはあなたが絶察を求めお努力しおいるこずを意味したす。 盞察䞻矩者はパラドックスを単に面癜くお、おもしろくお、時には恐ろしい考えであるが、非垞に有益な考えだず考えおいる。 皇垝の砂䞘

䞊蚘に基づいお、ギャップを埋めたす。



コンテキストずしお、5぀の前の単語および「バス」ぞの以前の参照がありたす。 ほずんどの人が「バス」があるはずだず掚枬しおいるず思いたす。 しかし、スペヌスの埌に私があなたに別の蚀葉を䞎えるならば、これはあなたの答えを倉えたすか



これにより状況が完党に倉わりたす。珟圚、欠萜しおいる単語は「赀」である可胜性が高いです。 明らかに、単語はスペヌスの前埌に情報䟡倀がありたす。 䞡方向巊ず右のアカりンティングにより、より良い投資を蚈算できるこずがわかりたす。 このような状況でモデルトレヌニングを構成する方法を芋おみたしょう。

グラムをスキップ


「間違いなく間違いのない遞択が䞍明な堎合、知性はアリヌナ内の限られたデヌタで䜜業する機䌚を埗たす。そこでぱラヌが発生するだけでなく必芁になりたす。」 -Capitul Dunes

タヌゲットの前の2぀の単語に加えお、そのあずの2぀の単語を考慮するこずができたす。



モデルトレヌニングのデヌタセットは次のようになりたす。



これはCBOWContinuous Bag of Wordsアヌキテクチャず呌ばれ、word2vec [pdf] ドキュメントの1぀で説明されおいたす 。 優れた結果を瀺す別のアヌキテクチャもありたすが、配眮が少し異なりたす。珟圚の単語で隣接する単語を掚枬しようずしたす。 スラむディングりィンドりは次のようになりたす。


緑色のスロットは入力語で、ピンク色の各フィヌルドは可胜な出口を衚したす

このスラむディングりィンドりは、実際にトレヌニングデヌタセットに4぀の異なるパタヌンを䜜成するため、ピンクの長方圢の色合いは異なりたす。



この方法は、 スキップグラムアヌキテクチャず呌ばれたす。 次のようにスラむディングりィンドりを芖芚化できたす。



次の4぀のサンプルがトレヌニングデヌタセットに远加されたす。



次に、りィンドりを次の䜍眮に移動したす。



さらに4぀の䟋を生成したす。



すぐにもっず倚くのサンプルがありたす



孊習レビュヌ


「ムアディブは、䞻に孊習方法を教えられおいたため、早い孊習者でした。 しかし、最初の教蚓は、圌が孊ぶこずができるずいう信念の同化であり、これがすべおの基瀎です。 孊ぶこずや孊ぶこずができるず信じおいない人がどれだけいるのか、そしお孊習が非垞に難しいず考える人がどれだけいるのかは驚くべきこずです。」 - 砂侘

スキップグラムのセットができたので、それを䜿甚しお、隣接する単語を予枬する蚀語の基本的なニュヌラルモデルをトレヌニングしたす。



デヌタセットの最初のサンプルから始めたしょう。 サむンを取埗し、次の単語を予枬するためのリク゚ストずずもに、トレヌニングされおいないモデルに送信したす。



モデルは3぀のステップを経お、予枬ベクトルディクショナリ内の各単語の確率を衚瀺したす。 モデルはトレヌニングされおいないため、この段階ではおそらく予枬は正しくありたせん。 しかし、それは䜕もありたせん。 圌女が予枬する単語はわかっおいたす。これは、モデルのトレヌニングに珟圚䜿甚しおいる行の結果のセルです。


「タヌゲットベクトル」は、タヌゲットワヌドの確率が1で、他のすべおのワヌドの確率が0であるものです。

モデルはどの皋床間違っおいたしたか タヌゲットから予枬ベクトルを枛算し、゚ラヌベクトルを取埗したす。



これで、この゚ラヌベクトルを䜿甚しおモデルを曎新できるため、次回は同じ入力デヌタで正確な結果が埗られる可胜性が高くなりたす。



これで、トレヌニングの最初の段階が終了したす。 デヌタセットの次のサンプルで同じこずを続け、すべおのサンプルを調べるたで次のサンプルで続けたす。 これは、孊習の最初の時代の終わりです。 私たちはいく぀かの時代に䜕床も䜕床も繰り返したす。その結果、蚓緎されたモデルが埗られたす。そこから投資マトリックスを抜出し、あらゆるアプリケヌションで䜿甚できたす。

倚くのこずを孊びたしたが、word2vecが実際に孊習する方法を完党に理解するために、いく぀かの重芁なアむデアが欠萜しおいたす。

負の遞択


「人間の敵であるハルコンノフを理解せずにムアディブを理解しようずするこずは、停りずは䜕かを理解せずに真実を理解しようずするこずず同じです。 これは暗闇を知らずに光を知る詊みです。 これは䞍可胜です。」 - 砂侘

ニュヌラルモデルが予枬を蚈算する3぀の手順を思い出しおください。



3番目のステップは、蚈算の芳点から非垞に高䟡です。特にデヌタセット内の各サンプルに察しお行う堎合数千䞇回。 生産性を䜕らかの圢で高める必芁がありたす。

1぀の方法は、目暙を2぀の段階に分けるこずです。

  1. 次の単語を予枬せずに高品質の単語の添付ファむルを䜜成したす。
  2. これらの高品質の投資を䜿甚しお、蚀語モデルを指導したす予枬のため。

この蚘事では、最初のステップに焊点を圓おたす。 生産性を高めるために、隣の単語を予枬するこずから離れるこずができたす...



...そしお、入力ず出力の単語を取り、それらの近接の確率を蚈算するモデルに切り替えたす0から1。



このような単玔な遷移により、ニュヌラルネットワヌクがロゞスティック回垰モデルに眮き換えられたす。したがっお、蚈算ははるかに単玔か぀高速になりたす。

同時に、デヌタセットの構造を改良する必芁がありたす。ラベルは倀0たたは1の新しい列になりたした。テヌブルでは、近隣が远加されおいるため、ナニットはどこにでもありたす。



このようなモデルは、数分で数癟䞇のサンプルずいう驚くべき速床で蚈算されたす。 ただし、抜け穎を1぀閉じる必芁がありたす。 すべおの䟋が正の堎合目暙1、100の粟床を瀺す垞に1を返すトリッキヌなモデルを䜜成できたすが、䜕も孊習せず、ゞャンク投資を生成したす。



この問題を解決するには、 吊定的なパタヌンをデヌタセットに入力する必芁がありたす-明らかに隣人ではない単語。 これらの堎合、モデルは0を返す必芁がありたす。これで、モデルは䞀生懞呜に動䜜する必芁がありたすが、蚈算は䟝然ずしお非垞に高速になりたす。


デヌタセット内のサンプルごずに、0ずいうラベルの付いた負の䟋を远加したす

しかし、出力語ずしお䜕を玹介したすか 任意の単語を遞択したす。



この考えは、 ノむズ比范法の圱響䞋で生たれたした[pdf]。 実際の信号隣接する単語の肯定的な䟋ずノむズ隣接しないランダムに遞択された単語を照合したす。 これにより、パフォヌマンスず統蚈パフォヌマンスの優れた劥協点が提䟛されたす。

スキップグラムネガティブサンプルSGNS


word2vecの2぀の䞭心的な抂念に泚目したした。これらは合わせお、「負のサンプリングによるスキップグラム」ず呌ばれたす。



word2vecの孊習


「機械は、生きおいる人にずっお重芁なすべおの問題を予枬するこずはできたせん。 離散空間ず連続連続䜓の間には倧きな違いがありたす。 私たちは1぀のスペヌスに䜏んでおり、マシンは別のスペヌスに存圚しおいたす。」 - 砂䞘の神

スキップグラムずネガティブサンプリングの基本的な考え方を怜蚎したので、word2vecの孊習プロセスを詳しく芋おいきたす。

たず、モデルをトレヌニングするテキストを前凊理したす。 蟞曞のサむズ vocab_sizeず呌ぶを定矩したす。たずえば、10,000個の添付ファむルず蟞曞内の単語のパラメヌタヌで定矩したす。

トレヌニングの開始時に、 EmbeddingずContext 2぀のマトリックスを䜜成したす。 各単語の添付ファむルは、蟞曞のこれらのマトリックスに栌玍されたすそのため、 vocab_sizeはパラメヌタヌの1぀です。 2番目のパラメヌタヌは、添付ファむルの次元です通垞、 embedding_size 300に蚭定されおいたすが、以前に50次元の䟋を芋おきたした。



たず、これらの行列をランダムな倀で初期化したす。 次に、孊習プロセスを開始したす。 各段階で、1぀のポゞティブな䟋ずそれに関連するネガティブな䟋を取り䞊げたす。 これが最初のグルヌプです。



珟圚、4぀の単語がありたす。入力単語notず出力/文脈䞊の単語thou 実際の隣人、 aaronずtaco 吊定的な䟋です。 䞡方のマトリックスには蟞曞のすべおの単語の添付ファむルが含たれおいたすが、添付ファむルの怜玢は、 Embedding 入力単語甚およびContext コンテキスト単語甚マトリックスで開始したす。



次に、入力添付ファむルず各コンテキスト添付ファむルのスカラヌ積を蚈算したす。 いずれの堎合も、入力デヌタずコンテキスト添付ファむルの類䌌性を瀺す数倀が取埗されたす。



ここで、これらの掚定倀を確率の類䌌床に倉換する方法が必芁です。それらはすべお0から1たでの正数でなければなりたせん。これはS字型ロゞスティック方皋匏の優れたタスクです。



シグモむド蚈算の結果は、これらのサンプルのモデルの出力ず芋なすこずができたす。 ご芧のずおり、シグモむドの前ず埌の䞡方で、 tacoスコアが最高であり、 aaronスコアは最䜎です。

蚓緎されおいないモデルが予枬を行い、比范のために実際のタヌゲットマヌクを持っおいる堎合、モデル予枬に含たれる゚ラヌの数を蚈算したしょう。 これを行うには、タヌゲットラベルからシグモむドスコアを枛算したす。


error = target sigmoid_scores

ここで、「機械孊習」ずいう甚語から「孊習」段階が始たりたす。 これで、この゚ラヌ掚定倀を䜿甚しおnot 、 thou 、 aaronおよびtaco投資を調敎し、次回の結果が目暙掚定倀に近づくようにするこずができたす。



これにより、トレヌニングの1぀の段階が完了したす。 いく぀かの単語の添付ファむルを少し改善したした not 、 thou 、 aaron 、 taco 。 次に、次のステヌゞ次のポゞティブサンプルずそれに関連するネガティブサンプルに進み、プロセスを繰り返したす。



添付ファむルは、デヌタセット党䜓を数回埪環するに぀れお改善され続けたす。 その埌、プロセスを停止し、 Contextマトリックスを脇に眮いお、次のタスクでトレヌニング枈みのEmbeddingsマトリックスを䜿甚できたす。

りィンドりサむズずネガティブサンプルの数


word2vecを孊習する過皋で、2぀の䞻芁なハむパヌパラメヌタヌはりィンドりサむズず負のサンプル数です。



さたざたなりィンドりサむズがさたざたなタスクに適しおいたす。 小さいりィンドりサむズ2〜15は、類䌌のむンデックスを持぀互換性のある添付ファむルを生成するこずがわかっおいたす呚囲の単語を芋るず、反意語はしばしば互換性があるこずに泚意しおください。 りィンドりサむズを倧きくするず15〜50以䞊、同様のむンデックスを持぀関連投資が生成されたす。 実際には、倚くの堎合、タスク内で有甚なセマンティックの類䌌性のために泚釈を提䟛する必芁がありたす。 Gensimでは、デフォルトのりィンドりサむズは5です入力ワヌド自䜓に加えお、巊右に2ワヌド。



ネガティブサンプルの数は、孊習プロセスのもう1぀の芁因です。元の文曞では5〜20を掚奚しおいたす。たた、デヌタセットが十分に倧きい堎合は2〜5個のサンプルで十分であるず思われたす。Gensimでは、デフォルト倀は5぀のネガティブパタヌンです。

おわりに


「もしあなたの行動があなたの基準を超えおいるなら、あなたはオヌトマトンではなく生きおいる人です」- デュヌンの神皇垝

単語の埋め蟌みずword2vecアルゎリズムの本質を理解しおいただければ幞いです。たた、前述のレコメンダヌシステムのように、「ネガティブサンプリングを䜿甚したスキップグラム」SGNSの抂念に蚀及しおいる蚘事をよりよく理解しおいただければ幞いです。

参考資料ず参考資料


Source: https://habr.com/ru/post/J446530/


All Articles