効果的なサむト怜玢。 問題文-解決策を芋぀ける。

これは、9月にWebサむトNomagic.ruで公開されたIvan Nikitinによる蚘事の再版です。 この蚘事には、問題の説明ず可胜な解決策の説明のみが含たれおいたす。 ASPおよびPHPでのLiveSearch APIの問題の解決策を説明する蚘事ぞのリンクは、蚘事の最埌にありたす。



コンテンツを含む5〜10ペヌゞを超える最新のサむトには、怜玢゚ンゞンが必芁です。 ずにかく、ナビゲヌションバヌやサむトの補品/セクションのカタログをどのように蚈画したずしおも、最終的には、サむトの101番目のナヌザヌにずっお盎感的に䜓系化しようずする詊みは理解できたせん 。

これがそうであるこずを確認したいですか ここにいく぀かの簡単なタスクがありたす。それらに数分を費やしおみおくださいすべおの䟋は、私が個人的に知っお蚪問したサむトのリストから偶然に撮圱されたものです。
  1. サむト http://www.specialist.ru/ で怜玢怜玢を䜿甚せずにMicrosoft SharePoint 2007の22コヌス。これに費やした時間を蚘録したす。
  2. サむトhttp://www.sipnet.ruで、VoIP D-Link DVG-2001SゲヌトりェむがSipnetサヌビスで動䜜するこずの確認ず、その簡単な説明を芋぀けたす。 あなたがそれに費やした時間を曞き留めおください。
  3. サむトwww.megafon.ruで 、2006幎の䜜業結果に関する幎次報告曞をMicrosoft Word圢匏で怜玢を䜿甚せずに怜玢したす。 成功したしたか

続行する必芁がありたすか あなたはすでに私に同意しおいるず思いたす。 そしお、サむトの開発者が理にかなっおいるように、怜玢゚ンゞンを䜜成するずいう問題に盎面したずきです。 残念ながら、ほずんどの開発者はこの゜リュヌションの耇雑さを過小評䟡しおおり、怜玢をSQLク゚リに枛らす単玔化するこずができるず考えおいたす。
SELECT * FROM products WHERE
title LIKE '%-%'
OR description LIKE '%-%'


そのため、そのような怜玢の倀のみがれロになりたす。 もちろん、耇雑にしたり、単語ずその組み合わせで怜玢を远加したりするこずもできたすサむトでよく芋かけるフレヌズに心を打たれたす「 AND、OR、NOTを䜿甚できたす 。」ええブヌル代数をナヌザヌに説明したす。 しかし、そのような怜玢の問題は、開発者がナヌザヌが補品名やニュヌスの芋出しをサむトに衚瀺されおいるずおりに入力する ず信じおおり、ナヌザヌが珟圚必芁なものを完党に任意の圢匏で入力するこずです。ナヌザヌである圌は、原則ずしお、1぀たたは2぀の単語で構成される短いク゚リを入力したす。 ぀たり、ナヌザヌはSharePoint 2007のコヌスを探しおいるので、「Windows SharePoint Services v3」ではなく「SharePoint 2007」ず蚘述したす。 その結果、そのような怜玢は結果ずしお数癟のリンクをダンプし、怜玢の結果ずしお䜕かを芋぀けるこずが䞍可胜になるか、䜕も返さないため、完党に動䜜しない怜玢゚ンゞンを取埗したす。 確認したいですか 倧きな開発予算を持぀2぀の匷力なリ゜ヌスを䜿甚しお、それらの怜玢をテストしおみおください。
  1. サむトwww.mts.ruで、怜玢を䜿甚しお、通話料金を支払うためのクレゞットフォヌムを芋぀けたす。぀たり、それをどのように手配し、通話料金を支払うか...どのようなリク゚ストを入力したすか 「 お支払い方法 」 結果は次のようになりたす。
    quot; MTSquot;の怜玢結果-リク゚ストQUOT;クレゞット決枈フォヌムQUOT;
  2. りェブサむトwww.alfabank.ruで抵圓貞付に関する情報を芋぀けおください。 どのク゚リを入力したすか 「 䜏宅ロヌン 。」 結果は次のずおりです。
    サむト怜玢結果quot;アルファバンクquot; -リク゚ストquot;䜏宅ロヌンquot;

どちらの堎合も吊定的な結果が埗られたこずは簡単に眮き換えるこずができたす。 最初のケヌスでは、䜕も受け取りたせんでしたが、2番目のケヌスでは-たったく䞍芁な情報䜏宅ロヌンに関するバナヌぞのリンクがどうでしたか どちらの堎合でも、 怜玢に倱敗 するず、クラむアントは氞久に退去するこずがありたす 。通話料金を支払うためのクレゞットフォヌムがないため実際にはありたす、MCTに切り替えたせん。䜏宅ロヌンの条件を芋぀けたすこれも単なる䟋です個人的なものはありたせん。
この問題を解決するには

効果的な怜玢の実装


第䞀に、優れた怜玢は些现な䜜業からほど遠いこずを認識する必芁がありたす。 さらに蚀えば、良い怜玢を実装する耇雑さは、サむト党䜓の機胜を実装する耇雑さをはるかに超えおいたす。 したがっお、このようなタスクを蚭定する前に、100回考える必芁がありたす。 圢態孊的分析システム、ドキュメントの関連性の評䟡、結果のランク付けのアルゎリズムの䜜成を開始する準備はできおいたすか そしお最も重芁なこずは、これを䜕時間、䜕千行ものコヌドで実行する準備ができおいるずいうこずです。
しかし、それでもこの問題は解決できたす 解決する方法は少なくずも3぀ありたす。
  1. 怜玢゚ンゞンフォヌムの䜿甚
  2. 利甚可胜なWebサヌビスを䜿甚する
  3. サヌドパヌティの゜リュヌションを䜿甚する

これらの方法はすべお、人件費、コスト、および埗られる結果が異なりたすが、3぀の方法はすべお、䞊蚘の䟋よりも桁違いに高い品質の結果をもたらしたす。

怜玢゚ンゞンフォヌムの䜿甚



これは最も安䟡で実装が簡単です。 生の䜎品質の怜玢コヌドを蚘述する代わりに、サむトのペヌゞにフォヌムを埋め蟌んで、怜玢゚ンゞンにリク゚ストを送信したす。 このようなシステムずしお、Googleの䜿甚方法を瀺したすが、他の方法も䜿甚できたす。たずえば、Yandexの圢匏は次のずおりです http : //company.yandex.ru/forms/ 。 私の意芋では、その怜玢品質は他の怜玢゚ンゞンよりもはるかに高いため、Googleのほうが奜きです。
したがっお、次のように描画したす。
<form method="get" action="http://www.google.com/search">
<input type="hidden" name="ie"
value="windows-1251" />
<input type="hidden" name="domains"
value=" www.specialist.ru " />
<input type="hidden" name="sitesearch"
value=" www.specialist.ru " />
<input id="searchBarInput" type="text" name="q"
value="" />
<input id="searchBarSubmit" type="submit"
value="!" />
<div>
<a id="extendedSearchLink" href="http://google.com/">
<span>Powered by <span style="color:blue">G</span>
<span style="color:red">o</span>
<span style="color:olive">o</span>
<span style="color:blue">g</span>
<span style="color:green">l</span>
<span style="color:red">e</span></span></a>
</div>
</form>

Googleが怜玢を提䟛しおいるこずを瀺すこずは必須です。 以䞊です 非衚瀺フィヌルドのため、指定されたサむトでのみ怜玢するようGoogleに䟝頌したす。 さらに、怜玢の品質は、䞊蚘の䟋よりも明らかに高くなりたす。 確認したしょう
MTSのGoogle怜玢結果
最初のリンクは、MTS Webサむトでのクレゞット決枈圢匏の蚭蚈を瀺しおいたす。
アルファ銀行の䟋
アルファバンクのGoogle怜玢結果
最初の結果は、アルファバンクの䜏宅ロヌンに関するすべおの情報です。
もちろん、この方法のすべおの単玔さで、その欠点はすぐに目を匕きたすナヌザヌはあなたのサむトから怜玢゚ンゞンに行きたす。 実際、これ自䜓はそれほど怖いものではありたせん。怜玢゚ンゞンからあなたずあなただけに戻るすべおのリンクがあるからです。ただし、ここにコンテキスト広告がありたす。 アルファ銀行は、同様のスキヌムを䜿甚する同様の提案に同意するずは思わない。 :-)
それでも、この方法は、䜎予算たたは非営利のサむトに匷くお勧めできたす。これは、怜玢の品質がコンテキスト広告ずいう圢でのネガティブな偎面をはるかに䞊回るためです。

利甚可胜なWebサヌビスの䜿甚


この方法では、怜玢結果に他の人の広告を衚瀺するこずを拒吊しようずしたす。 倚くの怜玢゚ンゞンは、自動怜玢のサヌビスを提䟛したす。 これはYandex.XML http://xml.yandex.ru/ 、およびGoogleサヌビスなどです。 䞀般的な意味は、ナヌザヌのリク゚ストをサヌバヌに送信する怜玢フォヌムを提䟛するこずです。サヌバヌはナヌザヌのリク゚ストを怜玢゚ンゞンに枡したす。 結果を受け取った圓瀟のサヌバヌは、圓瀟のりェブサむト䞊で、あらゆるデザむン、圢匏でそれらを衚瀺したす。 ナヌザヌは、私たちのサむトのデザむンで結果を芋るため、怜玢が倖郚システムによっお実行されたこずにさえ気付きたせん。 確かに、Yandex.XMLには完党に理解できないラむセンスシステムYandex.Direct広告を䞊行しお衚瀺するための芁件があり、Googleは玄1幎前に同様のサヌビスを静かに閉鎖したした。 。

しかし、ここで解決策を芋぀けるこずができたす。 Microsoftには、Live.com怜玢 http://dev.live.com/livesearch/ を操䜜するためのAPIがあり、これによりAPIは「it」です同様のシステムを実装できたす。 確かに、このAPIは1日あたりのリク゚スト数を玄1000〜3000リク゚ストに制限しおいたすが、これは䞭芏暡サむトには十分です。

このような怜玢を実装するこずは、特にLive Search APIがXML WebサヌビスぞのSOAP呌び出しを提䟛するため、これらの呌び出しを任意のプラットフォヌムおよびサむト開発ツヌルPHP、ASP.Netなどから実行できるため、完党に耇雑ではありたせん。

少し前に、サむトSpecialit.ruの怜玢を䜜成する必芁が生じたずきに、このような怜玢の実装を行いたした。 http://search.specialist.ruで動䜜を確認できたす。

このトピックが興味深いず思われる堎合は、出版物ぞのコメントにフィヌドバックや提案を残しおください。次の蚘事では、Live Search APIに基づく怜玢゚ンゞンの実装コヌドの詳现な䟋を瀺したす。 私を信じお、すべおが䞀芋思われるよりもずっず簡単です。 :-)

サヌドパヌティの゜リュヌションを䜿甚する


ただし、Live Search APIなどの利甚可胜なWebサヌビスを䜿甚する方法には、2぀の倧きな欠点がありたす。
  1. リ゜ヌスの再むンデックス付けを迅速に管理できない
  2. サむトの閉じたセクションでのむンデックス䜜成の䞍可胜性および怜玢の結果

最初の欠点は、怜玢゚ンゞンロボットがサむト自䜓の曎新スケゞュヌルをむンデックス自䜓に蚭定し、たずえば、サむトが正しいHTTP Last-Modified応答ヘッダヌむンタヌネット䞊のサむトの90の病気ですを提䟛しない堎合です。重芁である。 ぀たり、サむトに新しい資料が衚瀺されおから、怜玢結果に衚瀺されるたでに数日、堎合によっおは数週間かかる堎合がありたす。
2番目の欠陥は䞀般に臎呜的です。 怜玢゚ンゞンロボットは、サむトのプラむベヌトセクションたずえば、承認が必芁なプラむベヌトフォヌラムにアクセスできないため、プラむベヌトセクションの情報が怜玢結果に衚瀺されるこずはありたせん。 もちろん、閉じたセクションの情報を芆い隠しお匿名で公開するこずもできたすたずえば、ナヌザヌに関する情報なしでメッセヌゞを閉じた圢匏で衚瀺するが、これは垞に発生するずは限りたせん。 たずえば、䌚瀟のメヌルでの怜玢はどうですか
ここでは、Yandex.Server http://company.yandex.ru/technology/products/yandex-server.xml や䌁業のMicrosoft Office SharePoint Server http://office.microsoft.comなどのサヌドパヌティの怜玢゚ンゞンが圹立ちたす。 /ru-ru/sharepointserver/FX100492001049.aspx 。 2番目の方法はYandexのサヌバヌよりもはるかに優れおおり、サむトの怜玢などに䜿甚できる非垞に匷力な怜玢゚ンゞンを備えおいたす。
おそらく次のいずれかの蚘事で、効果的な怜玢゚ンゞンを構築するためにMicrosoft Office SharePoint Server 2007ずWebサむトを統合するこずも怜蚎したす。

関連リンク


-ASP.NETでLiveSearch APIを䜿甚したサむト怜玢の実装に関する蚘事
-PHP5のLiveSearch APIを䜿甚したサむト怜玢の実装に関する蚘事

Source: https://habr.com/ru/post/J17374/


All Articles