検索アルゴリズム、逆インデックス-パート1

画像
この記事から、SEOに関する一連の記事を開始します。これは、理論、実践、アドバイスになります。 基本から始めましょう。 この資料では、最新の検索エンジンが検索するアルゴリズム、インデックス作成の仕組み、ドキュメントの検索時に使用される数学モデルについて簡単に説明しています。


何を学びますか?


検索アルゴリズム。 インデックス付けとは、逆インデックスです。 最新の検索エンジンで使用される数学モデル。

検索アルゴリズム


  1. 直接検索-すべてのデータの順次検索。
  2. 反転インデックス-単語ドキュメントのエントリの位置およびその他のパラメータを示すアルファベット順で文書化された単語のリスト( インデックスファイル )。

逆インデックス


おそらく検索エンジンで推測されたように、直接検索を使用するとリソースを大量に消費するため、逆インデックスアルゴリズムが使用されます。 逆インデックスからの回復は、損失(ケース、ハイフン、コンマなど )で発生します。 したがって、スニペット(検索で表示されたドキュメントの見つかったテキストのフラグメント)を表示するために、直接ドキュメントインデックスも保存されます。

文書

昔々ポップがありました
額の繊維。
私は市場に飛び出しました
製品をご覧ください。

文書逆索引

バザー(3.4)
(1,2)
住んでいた(1,1)
どの(1,1)
コイ(4.2)
額(2.1)
ポップ(1.3)(3.2)

パラメータは、最も原始的であり、例としてのみ示されています-ライン、ライン内の位置。 パラメータには、単語のケースも保存され、パッセージに属します。

数学モデル


検索時には、3種類の数学的モデルが使用されます。以下にそれらを示します。
  1. ブール(論理)-単語があります-見つかりました、いいえ-見つかりません。
  2. ベクトル(すべてのPSで使用)-単語の重み= TF * IDF。
    TF-文書内の単語の頻度
    IDF-コレクション内の単語の希少性(単語の本体)
  3. 確率的-結果の手動選択(評価者の助けを借りて)-ページの関連性の独立した決定。

主なもの


関連性-態度の度合い。 関連するドキュメントのみを宣伝します。

検索エンジンのしくみSegalovich IV

追伸 継続するには...

Source: https://habr.com/ru/post/J53987/


All Articles