LiveJournal Top1000の統計

今日のRunetのブロゴスフィアは何ですか。 あなたは私に同意しないかもしれませんが、私の意見では、人々が「ブロゴスフィア」という言葉で理解しているものの80%がLiveJournalのRunetに置かれています。 はい、Yandexは多数のブログサイトをインデックスに登録しています。LiveInternetとdiary.ruがあり、mail.ruにもブログがあります。 そして、はるかに。 しかし、LiveInternetのブログで注目に値する何か面白いものを読んだときに思い出してみてください。 mail.ruブログに何かありますか?

LiveJournalでは、ボールが千人(最近では1万人)に支配されていることはよく知られています。
よく見てみましょう、彼らは誰ですか、Runetのトップブロガーですか?

急いで、 LiveJournal評価によると、「友だち」という基準で最初にプロファイルを作成したロボットを1,000人のブロガーに投げました。 いわゆるYandexの権限評価もありますが、今日は悲しいことについて話しましょう。

ロボットは個人データを収集し、それらを共通のヒープに慎重に積み重ねました。 ロボットコードはC#で記述されており、不必要な技術的詳細に煩わされることはありません。すべてが非常に単純で簡単です。
そして1000回。

以下は、ページのURLを入力として受け取り、ページのHTMLを文字列として出力する関数コードです。 これで、通常の文字列関数で解析するか、RegExpを使用できます。

private string GetPageByURL( string strURL)
{
try
{
// used to build entire input
StringBuilder sb = new StringBuilder ();

// used on each read operation
byte [] buf = new byte [8192];

// prepare the web page we will be asking for
HttpWebRequest request = (HttpWebRequest)
WebRequest.Create(strURL);

// execute the request
HttpWebResponse response = (HttpWebResponse)
request.GetResponse();

// we will read data via the response stream
Stream resStream = response.GetResponseStream();

string tempString = null ;
int count = 0;

do
{
// fill the buffer with data
count = resStream.Read(buf, 0, buf.Length);

// make sure we read some data
if (count != 0)
{
// translate from bytes to ASCII text
tempString = Encoding .GetEncoding( "UTF-8" ).GetString(buf, 0, count);

// continue building the string
sb.Append(tempString);
}
}
while (count > 0); // any more data to read?

return sb.ToString();
}
catch (Exception ex)
{
return "" ;
}
}


* This source code was highlighted with Source Code Highlighter .


ループでページを調べます:
www.livejournal.com/ratings/users/?page=1
...
www.livejournal.com/ratings/users/?page=50

上記の関数の助けを借りてそれらをポンプで送り、文字列のようにそれらを実行し、ArrayListでユーザーとその「友達」の名前を収集します。

1000人のリストを取得します。 次に、ループでそれを調べ、http:// [ユーザー名]。Livejournal.com / profileページに移動し、他の変数のエントリに解析します。

その後、すべてをデータベース、ファイルに書き込むか、単にページに配置し、そこからExcelでペンでコピー&ペーストします。

LiveJournalが私のロボットに不快感を与えないように-呼び出しの間に大幅な遅延を設定します。 そのため、プロセス全体に1日以上かかりました。ロボットの作成、テスト、作業、結果のフォーマットです。 私は、PHPではすべてのことを1時間半の画面と2時間でコードを管理できることに同意しますが、。

結果はそのようなタブレットです。


ユーザーの友達友だち市区町村地域仕訳総コメント作成日最終更新アカウントの種類
ドラッグイ69145749モスクワノルウェー13,1881,698,002件のコメントの受信、66,105件のコメントの投稿2002-03-021時間前永久口座
てま6860124サウスパルミラロシア連邦3,6382,049,489件のコメントの受信、6,880件のコメントの投稿2001-09-044時間前永久口座
ナバルニー5284010,000モスクワモスクワロシア連邦2,306957,191件のコメントを受信、14,365件のコメントを投稿2006-04-193時間前有料アカウント
セルゲイドリヤ519641991870243,261件のコメントの受信、28,394件のコメントの投稿2007-11-091日前永久口座
pesen_net48525202リガロシア連邦18753,083件のコメントの受信、10,084件のコメントの投稿2007-04-226週間前有料アカウント
ジャアルト35617384モスクワモスクワロシア連邦1,619246,360件のコメントを受信、11,344件のコメントを投稿2006-07-2622時間前有料アカウント
ドルボエブ338201942モスクワロシア連邦8,335522,484件のコメントの受信、38,400件のコメントの投稿2001-02-0658分前永久口座
ベロニカ331514604781208,475件のコメントの受信、36,079件のコメントの投稿2008-09-086時間前有料アカウント
eprst20003145411モスクワ時間モスクワロシア連邦46046.324件のコメントを受信、3,724件のコメントを投稿2002-08-221週間前有料アカウント
tebe_interesno29831612モスクワモスクワロシア連邦54731,679件のコメントの受信、8,823件のコメントの投稿2007-06-2510週間前有料アカウント
mi3ch29827738モスクワモスクワロシア連邦6,930374,776件のコメントを受信、44,883件のコメントを投稿2003-04-032時間前永久口座
シュピレノク29637119ブリャンスク州ロシア連邦30357,348件のコメントの受信、4,461件のコメントの投稿2009-01-116時間前有料アカウント
ジグン2608129日18822,301件のコメントの受信、8,626件のコメントの投稿2002-04-285週間前有料アカウント
マントラボックス25572373ロシア連邦2,91560,720件のコメントの受信、17,850件のコメントの投稿2002-12-291週間前有料アカウント
オレギンコフ2529111モスクワロシア連邦638137,481件のコメントを受信、6,277件のコメントを投稿2009-02-2118時間前有料アカウント
ラデュロバ24682595モスクワロシア連邦8,622874,385件のコメントの受信、31,657件のコメントの投稿2004-11-141時間前有料アカウント
タンタン2428219931867,802件のコメントの受信、6,868件のコメントの投稿2007-12-142週間前プラスアカウント
スティラビン236151703モスクワモスクワロシア連邦1,299311,283件のコメントの受信、18,247件のコメントの投稿2006-08-233日前有料アカウント
ムザドルノフ2256880モスクワロシア連邦16162,221件のコメントを受信、136件のコメントを投稿2009-09-153日前プラスアカウント
ミミオー2149547ベルリンドイツ2,957163,632件のコメントの受信、13,520件のコメントの投稿2002-02-271時間前有料アカウント


...
テーブル全体(および高さも幅も)はhabratopikに収まりませんでしたが、1000エントリの完全なファイルはGoogle Docsにあります。 データは現在2011年7月21日、数か月、さらには6か月間であり、大幅に変更されることはほとんどありません。

誰でもこのデータを自由に自由に使用することができますが、いくつかのチャートとグラフを作成することに抵抗はありませんでした。

通常の列の上下のソートでも、興味深い詳細を観察できます。

たとえば、友人の数でレコードを並べ替えると、ほとんどの友人が [情報] navalny 、10,000人(ただし、LJの通常の人間の制限は5,000人の友人ですが)、および特定のユーザー [情報] inexiには20624個あります。

または、たとえば、ブログエントリの数で並べ替えます。 もちろん、それらのほとんどを構成しました。 [情報] cypa 、まあ、他に誰? 2003年以来、彼は43.390件の記録を残しています。

そして、逆のソートをすると、すぐに好奇心の強いボットが見つかります- [情報] blog_d_medvedev 。 2009年の作成以来、この疑似ユーザーは単一のブログエントリを作成していませんが、5816人が友人として追加しています。 明らかにある種のロボット、明らかに間違った手にあるおもちゃ。 muhlezhなしでは実現できませんでした-frendomarathons、評価のまとめ、投票結果の投票リギングはすべてのものです。

並べ替えを続けると、TOP1000に入った最も古いブログが2000年3月31日に作成され、3か月前の最も若いブログが今年の4月に作成されたことがわかります。

また、TOP 139 Basic Account(Basic)、560 Paid Account(Paid)、15 Permanent Account(Permanent)、284 Plus Account(Improved)、1 Early Early Adopter(そして、これは一体誰ですか? [情報] Billycorgan-彼がアメリカに住んでいて英語で書いている場合、彼はロシアのトップで何をしますか?)

結局のところ-最初の1000にはそれほど多くの有料アカウントはありません。半分以上がちょうどです。




または、たとえば、国別の内訳:


要するに、アナリスト、統計学者、あらゆるものを宣伝するさまざまな専門家、およびその他の好奇心lo盛なローファーのための多くの仕事を考えることができます。

最初はこのサービスをオンラインにし、絶えず更新することを考えていましたが、その後、LJサーバー(より正確にはさらに多くの)への1日1,000回のリクエストに対して、頭に私のロボットを叩かないと決めました。 したがって、1回限りの統計情報に制限されます。

統計ファイルの配布は歓迎されていますが、制限的な著作権は提供されていません。

UPD:ユーザーがGoogleドキュメントの列を並べ替えることはできるが、結果を変更できないようにする方法を教えていただければ幸いです。 データ自体を歪めます。
いずれの場合でも、ファイルは[ファイル]メニューの[Excelとしてダウンロード]からコンピューターに保存でき、Microsoft Officeの自宅で好きな場所に並べ替えることができます。

Source: https://habr.com/ru/post/J124677/


All Articles