Yandexが怜玢に必芁なテクノロゞヌの数は、新しいドキュメントをほが瞬時に芋぀けるために必芁です

過去1幎間、Yandexは、関連ドキュメントの可甚性を必芁ずするク゚リの怜玢ずしお倧きな進歩を遂げたした。 珟圚、人気のあるドキュメントのほずんどは、公開埌ほずんどすぐに関連ク゚リの怜玢結果に分類されたす。




䜜成したばかりのドキュメントを怜玢結果に远加するこずは、原則ずしお、関連性、暩限などの他の重芁なナヌザヌメトリックず矛盟するため、これを実珟するのは容易ではありたせん。 今日、私たちは初めお、最新のドキュメントを怜玢に䟿利にミックスできる基本テクノロゞヌに぀いお話すこずにしたした。


1.なぜ新鮮か


数日以内に、もちろん、このむベントがそれ以䞊の開発を受けない限り、どんなむベントぞの関心もほずんどれロにフェヌドしたす。 この声明が生たれた調査を実斜したした。平均73のナヌザヌが、むベントが発生した日に盎接むベントに関心を瀺しおおり、発行埌3日以䞊でリ゜ヌスにアクセスするのは3の読者のみです。 この研究の瞬間から䜕幎も経ちたしたが、党䜓ずしお状況は倉わっおいたせん。 たた、habrahabr.ruの蚘事でさえ、最初の数日間で怜玢コンバヌゞョンの数が最も倚くなりたす。


タむムリヌに実蚌された鮮床は、りェブ怜玢だけでなく重芁な特性です。 写真やビデオの怜玢、怜玢のヒントにも新鮮さが必芁です。 もちろん、ニュヌスアグリゲヌタヌやメディアでは。 しかし、そこには䜕がありたすか映画通でさえ、ほずんどの堎合、長線映画ではなく、新しい映画に行きたす


怜玢゚ンゞンの怜玢結果を曎新するこずの重芁性を過倧評䟡するこずは困難です。 新鮮さを保぀には、倚くの問題を解決する必芁がありたす新しいドキュメントをリアルタむムで怜玢しおむンデックスに远加するコンテンツシステムを構築し、どのナヌザヌがどのク゚リで新しいドキュメントを必芁ずするかを予枬し、これらのドキュメントのベストを決定したす もちろん、これらのタスクはすべお機械孊習法を䜿甚しお解決されたす。


この蚘事では、これらの問題を解決するためのいく぀かのアプロヌチに぀いお説明したす。 たた、6月8日に、圓瀟のオフィスは内郚からYandexミヌティングを開催したす。これには、鮮床に関するレポヌトも含たれたす。 新たに発生した問題の䞭で最も困難なもの、぀たりむベントぞの反応を加速するタスクを怜蚎したす。 このリンクで予玄できたす。


1.1。 鮮床が必芁であるこずを理解する方法


䜕らかの方法で、ナヌザヌがYandexで芁求する芁求の10〜20で鮮床が必芁です。


たず、これらは「むベント」リク゚ストです。 䞖界で䜕かが起こるず、ナヌザヌは怜玢にアクセスしおむベントの詳现を調べたす。 さたざたなむベントは、ナヌザヌの関心の芳点ず必芁な開発の芳点の䞡方で互いに非垞に異なりたす。


たずえば、2016幎9月の遞挙期間䞭の新しいドキュメントのクリック数のグラフを考えおみたしょう。


画像

遞挙圓日、2200にピヌクに達するたで、新鮮さの必芁性が埐々に増加しおいるこずがはっきりずわかりたす。 翌日、フレッシュぞの関心の高たりが残ったが、1日埌にはほが正垞な倀に戻った。 蚀い換えれば、むベントぞの関心は時間ずずもに倉化したす。 したがっお、フレッシュの必芁性を刀断するのに圹立぀最初のアむデアは、「䞀郚のク゚リが突然頻繁に尋ねられるようになった堎合、䜕かが発生したはずであり、ナヌザヌはフレッシュドキュメントを衚瀺する必芁がある」です。 考慮される状況は、もう1぀の理由で興味深いものです。 遞挙の日付は開催されるずっず前に知られおいた。


むベントが時間内に非垞に延長されるこずがありたす。 そのようなむベントの䟋ずしおは、2016幎のオリンピックがありたす。すべおの倧䌚で、ナヌザヌは通垞の2倍の頻床で新しいドキュメントを消費したす。


画像

このような状況では、特定のトピックに察するリク゚ストの頻床の急増に基づいお、鮮床ぞの関心を怜出するこずはできなくなりたした。 ここで別の方法が助けになりたす。ナヌザヌが䜕らかの皮類の芁求のために新鮮さを本圓に必芁ずするなら、おそらく圌らは近い将来それを必芁ずするでしょう。


予期しないこずが発生した堎合、状況はたったく異なりたす。 通垞、予期しない共振むベントは良いものに関連付けられおいないため、日付や特定のむンシデントを参照せずにグラフを芋おください。


画像

事件埌の最初の30分ですでに、新鮮さに察するナヌザヌの関心はほが䞀桁倧きくなっおいたす。 そのような時点での怜玢のすべおのク゚リに占める新鮮なク゚リの割合は、最倧25増加する可胜性がありたす。 予期しないむベントは、ナヌザヌの関心の急激なバヌストによっお適切に怜出されたすが、そのようなバヌストは発生埌数分以内に決定する必芁がありたす。 Yandexが怜玢ログを凊理し、蚈算結果をリアルタむム怜玢に配信できるようにするリアルタむムMapReduceテクノロゞに぀いおは既に説明したした。


1.2。 Yandex Searchでの鮮床の衚瀺方法


次に、怜玢結果に新しい結果がどのように衚瀺されるかに぀いお説明したす。 2017幎5月22日に行われた「ロシアフィンランド」のリク゚ストを怜蚎しおください。 この芁求は、それに応答するずきに、怜玢が新しい芁求の凊理に関連するほがすべおの機胜芁玠を衚瀺するためです。


スポヌツク゚リは最近のク゚リのかなりの郚分を占めるため、スポヌツの詊合に関する情報を特別な方法で提䟛したす。 ナヌザヌは詊合の開始日時、スコアを芋぀けるこずができたす。 時々、ラむブブロヌドキャストたたは興味深い瞬間のビデオぞのリンクを知っおいたす。


私たちはニュヌス゜ヌスからの結果をグルヌプ化するこずを専門ずしおおり、より倧きな魅力を実珟しおいたす。


それ以倖の堎合は、暙準の怜玢スニペットに限定し、ドキュメントの幎霢に合わせおカラヌプレヌトを远加したす。 ドキュメントにビデオが含たれおいるこずがわかっおいる堎合は、スニペットにプレビュヌを远加したす。


画像

2.怜玢結果での鮮床の䜎䞋


2.1。 幅広いモデル


幅広いpFoundモデルに埓っお、新しい文曞が発行のために混圚しおいたす。 このモデルは、怜玢結果の倚様性のタスクのために䞀時提案されたした。これに察応するYaC'2011の察応するyafinderレポヌトを芋るこずができたす https ://events.yandex.ru/lib/talks/12/。 このモデルは、特に新鮮な結果を混合するなど、より広範なタスクに適しおいるこずが刀明したした。


このモデルでは、特定の怜玢ク゚リを蚭定するナヌザヌが意図関心、トピックなどの1぀を意味するず想定しおいたす。 たずえば、「ゞャガヌ」ず尋ねるず、ナヌザヌは車、飲み物、たたは動物を意味したす。 ク゚リ「シヌル」は、適切な写真、ビデオ、たたは単なる蚘事の必芁性を瀺唆する堎合がありたす。 ある時点での「Eurovision」のリク゚ストには、おそらく競技のコヌスたたはその準備に関する最も関連性の高い新鮮なニュヌスが必芁です。 意図の䞭では、指定する特別な意図を匷調する必芁がありたす ∗-これは「その他すべお」の意図であり、通垞のオヌガニックアりトプットに察応しおいたす。


怜玢システムのタスクは、各ナヌザヌずその芁求に察しお適切なむンテントのセットを遞択し、これらのむンテントに関連するドキュメントの発行を正しくコンパむルするこずです。 幅広いpFoundモデルでは、各むンテントは特定の重みに察応し、この特定のむンテントぞのナヌザヌの関心の可胜性を瀺しおいるず考えおいたす。たた、発行されおいる各ドキュメントに぀いお、怜蚎䞭のすべおのむンテントに察する関連性のベクトルがわかっおいたす。 次に、各むンテントに぀いお、pFoundメトリック-ナヌザヌがこのむンテントを意味する堎合、出力がナヌザヌのリク゚ストに応答する確率を蚈算できたす。 Wide pFound-各むンテントの重みで重み付けされたpFound intの合蚈に等しいメトリック


wpFound= sumi=1miwi cdotpFoundi、


どこで pFoundi-ナヌザヌが念頭に眮いおいた堎合、発行で関連する文曞を芋぀ける可胜性 i意図。


たずえば、䞀郚のク゚リで鮮床むンテントの重みが0.9であり、ドキュメントの関連性が次の衚に察応しおいるずしたす。


画像

次に、広いpFoundの芳点から、以䞋の衚に瀺すドキュメントの順列が最適になりたす。 この堎合の新鮮な文曞の関連性は倧きいずいう事実にもかかわらず、倚様性の芳点から、普通の文曞を3番目ず4番目の䜍眮に眮くこずが有利です。 Fresh Intentは、最初の2぀の結果にすでに非垞に満足しおいたす。 ご芧のずおり、ワむドpFoundモデルは、異皮゜ヌスからの怜玢結果の圢成に察する特定のアプロヌチを衚しおおり、タスクの目的は、むンテントの重みずこれらのむンテントぞのドキュメントの関連性の決定に限定されたす。


画像

歎史的に、フレッシュネスでは、フレッシュむンテントの重みを決定するタスクをフレッシュを怜出するタスクず呌びたす。 2番目のタスクは、ドキュメントのランク付けの暙準タスクであり、この堎合は新しいドキュメントです。


2.2。 トレヌニングをクリック


新鮮なランキングを目的ずした倚くのドキュメントが毎分倉曎されたす。新しいドキュメントが衚瀺され、叀いドキュメントが衚瀺されなくなりたす。 このため、過去に取埗した掚定倀を䜿甚するず、次のような困難が生じたす。 文曞の芁因ず評䟡の䞡方が時間ずずもに倉化したす。 たずえば、1200にどこかで火灜が発生したずいうニュヌスが関連する堎合がありたすが、1400には、その時点たでに火灜がすでに局所化されおいたため、もはや関係ありたせん。 したがっお、1400に新芏発行の関連性を評䟡するためには、新しいドキュメントを評䟡するだけではできたせん。完党にすべおの新芏発行ドキュメントの関連性を確認する必芁がありたす。


このため、ラベル付けされたリク゚ストずドキュメントのペアの倧芏暡で関連性の高い掚定セットを新しいランキングで䜜成するこずは困難であるこずがわかりたした。 トレヌニングに远加の情報源を䜿甚するこずを孊んだずきに、新しいランキングずしおのブレヌクスルヌが達成されたした。 䞻なものはナヌザヌ信号で、怜玢結果をクリックしたす。


2.2.1。 ランキングのクリックスルヌトレヌニング


ほずんどの堎合、新しいドキュメントは発行の最初の䜍眮に衚瀺されないため、最初の䜍眮の新しいドキュメントのクリック可胜性を予枬する最も単玔な分類子を孊習するこずもそれほど簡単ではありたせん。 たた、隣接する新しいドキュメントを比范するこずもできたせん。他の゜ヌスからの任意の数のドキュメントを、新しいドキュメントから最初ず2番目のドキュメントの間に配眮できたす。 したがっお、埓来のランキングでクリックスルヌトレヌニングに䜿甚される倚くのアプロヌチは、鮮床のためにたったく機胜したせん。 他の方法を䜿甚したす。


画像

最初の新鮮な文曞ず最埌の普通の文曞をクリックしお、4぀の普通の文曞ず3぀の新しい文曞を含む問題を想像しおください。


文曞ず仮定するこずができたす df1ドキュメントよりも優先 df2そしお df3しかし比范する df2そしお df3互いの間ですでに非垞に困難です。 しかし、䟋えば、我々はそれを仮定するこずができたす df2ただ良い、なぜなら 珟圚のランキング匏はそれを奜みたす。


したがっお、いく぀かの異なる方法で遞択を䜜成できたす。


  1. ペアワむズ分類のタスクの堎合文曞を優先するように匏をトレヌニングしたす df1文曞 df2そしお df3。
  2. 点ごずの分類たたは回垰のタスクの堎合正のクラスに割り圓おたす df1、そしおマむナスに- df2そしお df3。
  3. ランキングタスクの堎合順序を埩元するには匏が必芁です df1>df2>df3。

もちろん、トレヌニングサンプルを䜜成する他の方法を考えるこずができたす。 これは創造的で非垞に刺激的なプロセスです。


2.2.2。 怜出のクリックスルヌトレヌニング


クリックによっお新鮮な怜出を教える2぀のスキヌムを考えおみたしょう。これは異なるずきに䜿甚したした。 これらの各スキヌムは、いわゆるコンテキストマルチアヌムバンディットの問題を解決したす。 この堎合のコンテキストは、ナヌザヌク゚リによっお蚈算された芁因です。 鮮床に関連するもののうち、いく぀かを挙げるず意味がありたすリク゚ストの「コントラスト」たずえば、過去24時間のリク゚ストの頻床ず過去1週間の頻床の比、このトピックに぀いお最近曞かれたニュヌスの量、リク゚ストの鮮床のCTRなど。


クリック情報はいく぀かの方法で収集できたす。 たずえば、すべおの新しいドキュメントでナヌザヌクリックを䜿甚できたす。新しいドキュメントをクリックした堎合、怜出噚の予枬を匷化する必芁がありたす。 トリガヌは適切でした。 これは非垞に魅力的な方法ですが、実際の応甚では倚くの困難に盎面したす。 サンプルは珟圚の匏の応答に匷く偏っおおり、堎合によっおは、匷化の量を理解するのが非垞に困難です。 たずえば、鮮床が䜎いこずが瀺されおおり、クリックがなかった堎合、これは、新鮮さに興味がないこずこの堎合、意図の重みを枛らす必芁があるず䜍眮が䜎すぎるこの堎合、意図の重みを増やす必芁があるこずの䞡方の蚌拠になりたす。


新鮮さを「ランダムな」䜍眮に衚瀺する特別な実隓を䜿甚できたす。 鮮床むンテントは、0から1たでの数で、0.05の倍数などの小さなセットから遞択できたす。 次に、タスクは21の異なる倀のいずれかを遞択するこずになりたす。 これは倚腕バンディットの問題です。 遞択に察する応答は、問題に察するナヌザヌの䜕らかの行動です-たずえば、結果をクリックするず、機械孊習タスクは、この応答の確率が最倧になる鮮床むンテントの倧きさの遞択に関しお定匏化されたす。 この方法では非垞に良い結果が埗られたすが、重倧な欠点が1぀ありたす。クリック信号の収集手順自䜓がナヌザヌの出力を倧幅に䜎䞋させるためです。 新鮮な印象のほずんどは無関係です。


すでにいく぀かの匏がある堎合 F0新鮮さの怜出-評䟡の評䟡たたは䞊蚘の方法に埓っお遞択された堎合、その倀は小さなランダム倀によっお倉曎でき、予枬の倉化の最適倀は䞊蚘ず同じ方法で予枬できたす。 より正確には、珟圚のリク゚ストで、匏が意図の重みを予枬するず仮定したす F0機胜=iwf。 この重みに少しランダムな远加を远加したす。 iwf+\むプシロンどこで \むプシロン-倀の小さな離散セットの倀。 䟋えば \むプシロン in−0.1,0.0、+0.1。 その埌、匏を蚓緎するこずができたす F1、添加剀の最適倀を予枬し、2぀の合蚈を新しい匏ずしお䜿甚したす。 F0機胜+F1機胜。


この方法では、鮮床を怜出するために珟圚の数匏の倀を倉曎し、垞に改善するこずができたす。 実際にはナヌザヌの結果を損なうこずはありたせんが、数ステップで匏の予枬を倧幅に倉曎するこずができたす。


3.鮮床がうたく機胜するずき


最埌に、いく぀かのむベントの䟋ずしおいく぀かの指暙に぀いおお話したいず思いたす。その助けを借りお、フレッシュネスがうたく機胜するこずを理解したす。


たず、怜玢結果の䞀般的な関連性のグラフから始めたいず思いたす。 このスケゞュヌルはAshmanovPartnersによっお䜜成されおいるため、その客芳性に疑いの䜙地はありたせん。



ここでは、過去1幎間に達成されたドキュメントのむンデックス䜜成速床におけるYandex赀線の進捗状況を明確に芋るこずができたす。 私たちのロボットは、新しいドキュメントの出珟に぀いお数分で孊習し、Freshness怜玢むンデックスに配信しお、関連するク゚リによっおナヌザヌに衚瀺できるようにしたす。


たずえば、 2018幎ワヌルドカップでのブラゞル代衚チヌムの資栌に関するニュヌスを考えおみたしょう。 ドキュメントは10:56にサむト運営者のWebサむトに衚瀺され、1058にはすでにナヌザヌに最初に衚瀺され、1100たでは関連するリク゚ストに察しお玄20回衚瀺されたした。 このスキヌムによれば、特定のドキュメントを調査するだけでなく、䞀般的なメトリックを構築するこずが可胜です。 たずえば、かなり人気のあるすべおのドキュメント1日に少なくずも1000回は問題で衚瀺されおいたを取り䞊げ、発行から問題に関する最初のショヌたでの時間の䞭倮倀を調べたす。


過去1幎間にこのグラフを描画するず、この倀が4分から玄2に枛少したこずがわかりたす。 ぀たり、ナヌザヌは新しいドキュメントをほが瞬時に利甚できるようになりたす。


画像

十分に倧きなむベントが発生した堎合、最も関連性の高いドキュメントを䜿甚しお、関連するドキュメントをナヌザヌにすぐに返信するこずが重芁です。 時々、これは問題に関する最新のドキュメントの時代のグロヌバルグラフで芋るこずができたす。 衚瀺されおいるドキュメントのうち、10分未満、30分、1時間、2時間経過したものなどを垞に監芖しおいたす。 むベントぞの関心が時間の経過ずずもに匕き延ばされおいるずいう事実により、そのようなドキュメントの割合が50を超えるこずはめったにありたせん。 ただし、グラフが次のように動䜜する堎合がありたす。


画像

䞖界で重芁なむベントが発生するず、出版物や怜玢アクティビティが急増し、非垞に新しいドキュメントが普及し始めたす。


4.結論


ナヌザヌが芁求に応じお最も関連性の高い情報を必芁ずする状況で、怜玢結果を生成するいく぀かの偎面を怜蚎したした。 もちろん、たずえば、迅速な回避策やロボットの品質、スパム察策、暩限、蚭蚈など、倚数の質問が怜蚎の範囲を超えおいたす。 Web怜玢の新鮮さのみを説明し、新鮮なサヌビスの必芁性も感じおいた他のサヌビス写真、ビデオ、怜玢のヒント、音声怜玢などの範囲は省略したした。 これらのトピックの䞀郚は、既に発衚されおいるYandexの䌚議で内郚から取り䞊げられ、今埌の蚘事で他のトピックに぀いお議論するこずを期埅しおいたす。


お楜しみに



Source: https://habr.com/ru/post/J329946/


All Articles