
教育プロジェクトTechnosphereのビデオレクチャーの新号が放送されます。 今回は、コースは情報検索専用です。
すべてのインターネットユーザーは検索エンジンの経験があり、定期的にクエリを入力して結果を取得します。 検索エンジンは非常に馴染みのあるものになったため、15年前はまったく違っていましたが、かつては存在しなかった現代の検索の品質が当たり前だとは考えにくいです。 しかし、最新の検索システムは最も複雑なソフトウェアとハードウェアの複合体であり、その作成者は、大量の処理済みデータから検索結果の人間の知覚のニュアンスに至るまで、膨大な数の実際的な問題を解決する必要がありました。
このコースでは、検索エンジンの作成に使用される主な方法について説明します。 それらのいくつかは創意工夫の良い例であり、いくつかは現代の数学的装置をどこでどのように適用できるかを示しています。
講義リスト:
- はじめに
- Web検索の機能。 検索ロボットアーキテクチャ
- ロボットスケジューラの検索
- インデックス付けとブール検索
- ブールインデックスと検索
- 重複検索
- 重複の検索(パート2)
- ポルノフィルタリング
- スパム対策
- スニペット
- スニペットの作成
- リクエストのタイプミスの修正
- ヒント、再定式化、分類
コースリーダー:
- Jan Kisel、Mail.Ru検索インフラストラクチャ責任者;
- Julia Sergukova、プログラマー、Mail.Ru、検索インフラストラクチャ部門。
- Dmitry Solovyov、Mail.Ru検索ランキンググループの主任開発者。
- Andrey Murashev、Search Mail.Ruの推奨システムのプログラマー。
- Mail.Ru検索インフラストラクチャ部門のプログラマー、Mikhail Plekhanov。
- Evgeny Chernov、Mail.Ru検索分析部長
講義1.はじめに
情報検索の問題の重要性に関するレビュー講義。
講義2.ウェブ検索の特徴。 検索ロボットアーキテクチャ
講義の最初の部分はWeb検索に専念します。履歴情報が提供され、検索広告のトピックに少し触れ、Web検索スキームについて説明します。 2番目の部分は、ロボット(スパイダー)の検索に専念しています。データの収集、データの取り出し、更新、保存のタスクを設定します。
レクチャー3.ロボットプランナーの検索
検索ロボットの作業を計画するタスクが提示され、Focused Crawlerアルゴリズムが考慮され、Stone Gardenアルゴリズムが分析されます。 クォータの問題も対処されています。
講義4.インデックス付けとブール検索
検索インデックスの構成と目的を調べ、検索エンジンのハードウェアについて少し説明します。 ブロックの高速交差点、インデックスの圧縮、および圧縮率を上げる方法について説明します。
講義5.ブールインデックスと検索
前の講義の継続。 圧縮のトピックが再び取り上げられます。PythonのバイナリデータであるSimple9アルゴリズムを検討しています。 講義の第2部では、検索辞書に専念します。ストップワードの表示、辞書の保存の側面について説明します。 講義の3番目の部分では、クエリツリーについて説明します。クエリツリーとは、ツリーの実行方法、クエリの解析方法です。
そして、講義の最後で、一般的なインデックス作成ワークフローがどのように構築されるかを学びます。
講義6.重複の検索
重複を見つけることは大きなトピックであり、2つの講義に分かれています。 最初に、使用する用語について学び、重複の例を見て、シングリングに慣れます。 次に、重複を見つけるための実用的な方法を検討します。アルゴリズムの改善、ミンシングル署名の構築方法、測定、ジャカード、ブロダーのアルゴリズム。
講義7.重複の検索(パート2)
この講義は、非常に大きなドキュメントの配列で重複を見つけることに専念しています。 ファジィ複製の検索手法(Local Sensitive Hashing)を検討し、不可分な署名を持つアルゴリズムについて説明し、最後に、異なるアルゴリズムの作業の特徴を比較します。
講義8.ポルノのフィルタリング
講義の冒頭で、ポルノ素材を常にフィルタリングすることが重要である理由が説明され、この問題の一般的な解決策が説明されています。 次に、Webページ、クエリ、および画像のフィルタリング手法について説明します。
講義9.スパム対策
また、非常に関連性の高いトピック。 まず、スパムの存在の理由が考慮され、問題が議論されます。 検索エンジンに対するスパムの影響の方法、この影響に対抗する方法について説明しています。 ページのコンテンツを分析してスパムを検出する方法、スパムサイトを識別する方法を学習します。 また、アプリケーションでの詐欺やスパムと戦うためのテクニックと見なされます。
講義10.スニペット
講義から、検索スニペットとは何か、および検索結果のデザインの種類が推奨されることを学びます。 SERPの基本要素について説明します。「セマンティックWeb」とは何か、ページ上のマイクロマーキングを検討します。 講義の最後に、無機スニペットと文末の定義が記載されています。
講義11.スニペットの構築
スニペットのテーマの継続。 今回は、テキストの要約とは何か、オーガニックスニペット、ダイレクトインデックスを検討し、スニペットの品質を評価する手法について説明します。
講義12.リクエストのタイプミスの修正
講義では、入力されたクエリのタイプミスの検索および修正方法について説明します。
コースの最後の講義では、ユーザーが検索クエリを入力したときにプロンプトを生成する問題に焦点を当て、検索を改善するためにクエリを再構成する方法を検討します。 最後に、すべての種類のクエリ分類子について説明します。
すべての講義のプレイリストはこちらにあります 。 テクノパーク、テクノスフィア、テクノトレックの各プロジェクトのITスペシャリストによるプログラミングに関する実際の講義とマスタークラスは、テクノストリームチャンネルで公開されています。