サイトをスパムから保護する非視覚的な方法。 パート1.統計

パート1.統計の意味


サイトをスパムから保護する非視覚的な方法には、訪問者から受信したデータの自動分析が含まれます。 分析するデータが多いほど、訪問者をより完全かつ正確に判断でき、スパマーが決定するかどうかを決定できます。

そのようなデータを分析するシステムは、原則として、訪問者のデータと決定に関する統計を蓄積します。 弊社が蓄積した統計情報の簡単な概要( CleanTalkスパム保護サイトサービス )に注目してください。


ここでは、意図的にブラックリストのIPアドレスの分析からのデータを提供しません。 そして、それらがなくても、フォームフィールドとHTTPヘッダーの内容のみを分析することで、十分なデータを取得できます。

メッセージのテキスト、ニックネーム、メールアドレス、HTTPヘッダー、JavaScriptテストのチェック結果に関するデータを検討します。

与えられたインジケータの分析はアルゴリズム的に非常に単純であり、リソースを必要としません。したがって、他のよりリソース集約的なチェックの前に使用できます。

データは、執筆時点での実際の状況を反映しており、現在のトラフィックの分析に基づいています(1日あたり2,000,000件を超えるリクエスト)。 データは、サイトへの訪問者を分析するときに自由に使用できます。 各基準の個別の決定が正しくないことに注意してください-包括的な分析で最高の結果が得られます。

1.メッセージテキスト


もちろん、メッセージのテキストはスパムの主なものです。 その結果、スパマーはメッセージを作成し、いくつかの基準によって通常のメッセージとは明らかに異なるようにします。

この表は、私の観点から見ると、最も有益な統計を示しています。

メッセージテキストオプション(平均)スパムなしスパム
リンク数、個1.474.27
連絡先(電話、電子メール)の数、PC1.726.38
フォーム記入時間、s1778
メッセージの長さと充填時間の比率、文字/秒23.81308.54

リンクの数はそれ自体を物語っています。 連絡先情報の量は、スパムについても言えます。 フォームの入力時間と、その結果、メッセージを入力する速度はほとんど異なります。

2.訪問者のニックネーム


ニックも多くのことを言うことができます。 考えられる理由は、スパマーが使用するニックネーム生成アルゴリズムの品質です。

ニックパラメーター(平均値)スパムなしスパム
長さ、文字7.4016.52
区切り文字の数、個1.893.80
桁数3.297.59
子音の連続シーケンスの長さ(ラテン語)、文字3.615.90

スパマーのタスクの1つは、そのようなニックネームを持つユーザーが既にサイトにいるというエラーにつまずかないことです。 そのため、ニックネームの一意性は現在、額、統計、および長さとセパレーターと数字の挿入によって判断されます。 その結果、多数の隣接する母音と子音を持つ多くのニックネームがあり、後者はさらに多くなります。

3.メールでの名前


ニックネームについて述べたことはすべて、メールの名前にも当てはまります。

電子メールの名前パラメーター(平均値)スパムなしスパム
長さ、文字10.0919.16
区切り文字の数、個1.624.12
桁数4.309.57

ドットはしばしば区切り文字として使用されることに注意してください-文字列が生成され、その後誤ってドットが追加され、多くのメール名が取得されます。

4. HTTPヘッダー


スパムボットは、ブラウザと大差ないようにヘッダーを偽造します。
ただし、統計によると、これは多くの場合、ボットの作成時にのみ当てはまります。 下の表に見られるように、彼は今後も働き続け、明らかに時代遅れのヘッダーを送信します。

User-Agent HTTPヘッダーの割合スパムなしスパム
Mozilla / 4.0(互換性あり; MSIE 6.0; Windows NT 5.1; SV1)0.01%11.42%
Opera / 9.80(Windows NT 6.2; Win64; x64)Presto / 2.12.388バージョン/ 12.170.01%10.84%

特にHTTPプロキシを使用する場合、既製のスパムソリューションもヘッダーを残す可能性があります。 また、これは統計にも反映されています。

HTTPヘッダー経由の割合スパムなしスパム
Mikrotik HttpProxy0.86%33.07%


5. JavaScriptテスト


追加のシンプルだが非常に効果的なテストは、JavaScriptテストです。 たとえば、JSコードに必要なCookieを変更するには、多くのオプションがあります。

最も高度な(そして高価な)ボットはJSテストに合格します。 ただし、統計からわかるように、スパムの大部分は、これを実行できない非常に単純なプログラムからのものです。

JSテストの失敗率スパムなしスパム
js経由でcookieを変更する0.41%68.53%


6.結論


現時点でシステムによって蓄積された統計を示しました。 繰り返しますが、最も正確なスパム/非スパムソリューションを得るには、特定の指標を包括的に分析する必要があります。また、他のスパムチェック方法と組み合わせて分析する必要があります。

Source: https://habr.com/ru/post/J282586/


All Articles