VKユーザープロファイルの統計

この投稿では、VKontakteソーシャルネットワークのユーザーがプロファイルで示したデータに関する統計情報を提供します。 カットの下では、多くの人々が興味を持っている質問に対する答えもあります-このソーシャルネットワークには何人のアクティブユーザーがいますか? そして、もちろん、これらすべてがどのように収集されたかについてのいくつかの言葉。

背景


それはすべて私の読書habratopikaで始まり、私たちは独自のVKユーザー監視サービスを作成しています 。 ご存知のように、セッション中に行うことは何もないので、C#を学び、VKontakte APIに精通することにしました。

統計収集プロセス


すべてのIDが有効なわけではありません。一部のユーザーが削除され、美しい数字がブロックされました。 有効なIDのリストを取得するために、検索エンジン用に慎重に作成されたディレクトリを使用することが決定されました。

カタログの解析には、 Html Agility Packライブラリが使用されました。 このプロセスは非常に簡単であり、詳細に説明するポイントはわかりません。

2011年6月18日現在の有効なIDのリストには、139,132,951個のうち94,072,230個のIDが含まれています。つまり、 67.6%が有効です。

有効なID分布
(100万分の1からどれだけ有効か)


したがって、有効なIDのリストがあり、そこからプロファイルを取得する必要があります。 これを行うには、https://api.vkontakte.ru/method/getProfiles(許可を必要とせず、1秒あたり3つの要求の制限を受けない数少ないメソッドの1つ)にuidsパラメーターを使用して要求を行います。 id(apiは1000を許可しますが、最近のユーザーのプロファイルを要求すると、要求されたアドレスが長すぎます)、およびすべての可能なフィールド(uid、first_name、last_name、nickname、sex、bdate、city、country、timezone、photo、
photo_medium、photo_big、photo_rec、contacts、home_phone、mobile_phone、education、
大学、university_name、faculty、faculty_name、卒業、レート、カウンター)。

1つのスレッドでリクエストを実行すると、100 kB / sのチャネルのみがロードされるため、実行を94個のストリームに分割しました。

当時、VKontakteサーバーが常に正しい答えを返すとは限らないことを考慮していなかったため、すべてのプロファイルが受信されたわけではありません。 しかし、エラーはプロファイルの0.3%を取得することで終わりました。これは統計に不可欠ではありません。

JSONで受信したプロファイルはすべて45 GBを占有します。

その後、これらすべてがJSON.NETを使用してテーブルにデシリアライズされ、結果は24 GBになりました

2年前にプロファイルを放棄した人やスパマーを含むすべてのアカウントの統計情報に関心がある人はほとんどいないため、すべてのアクティブユーザーのリストを取得することにしました。 これを行うには、20ストリームで周期的に(すべての10メガビット/秒のスコアを保証するために)750ユーザーの同じgetProfilesにリクエストを行いますが、今回はオンラインフィールドのみをリクエストします。 各反復で、前の反復でネットワーク上で見られなかったユーザーのリストを取得します。 この段階は、アクティブユーザーの大多数の獲得を保証するために、17日間(6月21日から7月7日まで、技術的な理由からそれ以上進めませんでした)延期されました。 チャネル幅が不十分であるため、各ユーザーは1時間半から3時間ごとにチェックされました。

日付別の新規アクティブユーザーの増加


日付別のアクティブユーザーの総数


ご覧のとおり、アクティブユーザーの成長は無視できるほど小さくなっています。

実際には、統計(アクティブなユーザー向け)


VKontakteのアクティブユーザーは29.93 %を占めています。

男性の名前の統計
ホルダー
アレクサンダー(サーシャ、三亜、アレックス、三亜、アレックス、アレクサンダー、サーシャ、三亜、アレクサンダー)11069798.3%
セルゲイ(セルゲイ、セルゲイ、セルゲイ、セルゲイ、セルゲイ、セルゲイ)7558855.6%
アンドレイ(アンドリー、アンドリューカ、アンドレイ)6221054.7%
アレクセイ(レッヒ、レッヒ、レッヒ)5765734.3%
ドミトリー(ディモン、ディマ、ディムカ、ディマン、ディマ)5294324.0%
ユージーン(ジェンヤ、ジェカ)4176683.1%
最大(最大)3848032.9%
ウラジミール(Vova、Volodya、Vovan)3127992.3%
イヴァン(ヴァニャ、イヴァン、イヴァン)2887282.2%
デニス2753342.1%
ローマ(ローマ、ローマ)2451771.8%
イゴール(イゴール)2383411.8%
マイケル(ミシャ、ミカ、ミシャ)2346761.8%
アントン2337561.8%
オレグ2081951.6%
パベル(パシャ)1981751.5%
Artyom(Tyoma)1941171.5%
ニコライ(コリャ、コリャン)1806391.4%
ユリ(ジュラ)1586781.2%
Vitaliy(Vitalik、Vitaly)1525391.1%


女性の名前の統計
所有者
エカテリーナ(カティア、カテリーナ、カチューシュカ、カチューシャ、カチューカ、エカテリーナ、カテンカ)6587464.8%
エレナ(レナ、ヘレン、エレナ、レナ、レンカ)6582124.8%
オルガ(Olya、Olenka、Olga、Olka、Olga、Olga)6539944.7%
ジュリア(ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア)6314314.6%
ナタリア(ナターシャ、ナタリア、ナタリー、ナタリア、ナターシャ、ナタリア)6282874,5%
アンナ(アンヤ、アニウタ、アニュカ、アニエチカ、アンナ)6053414.4%
アナスタシア(ナスティーア、ナスティア、ナスティア、ナスティア、アナスタシア、ナスティア、ナスティア、ナスティア、ナスティア)5970084.3%
タチアナ(タンヤ、タンニュシュカ、タニュシャ、タンヤ、タンヤ)5835254.2%
イリーナ(イラ、アイリシュカ、イリンカ、イリーナ、イラ、イリシャ、イリーナ、イラ、イリーナ)5408943.9%
マリア(マーシャ、マリア、マーシャ、マーシャ、マーシャ)3858512.8%
スヴェトラーナ(スヴェタ、スヴェティック、スヴェトラーナ)3653382.6%
マリーナ(マリシュカ、マリーナ、マリンカ、マリシャ)3299412.4%
ビクトリア(ヴィカ、ヴィクリヤ、ビクトリア)2699362.0%
ダリア(ダシャ、ダーシャ、ダーシャ、ダーシャ、ダーシャ、ダーシャ)2556811.8%
アレナ(アレナ、アレンカ、アレンカ)2232051.6%
クセニア(クセニア、クセニア、クセニア、クセニア)2019601.5%
オクサナ1792591.3%
ユージーン(ジェンヤ、ジェネチカ)1778531.3%
アレクサンドラ(サーシャ、サーシャ)1755631.3%
ナデジダ(ナディア、ナディシュカ、ナデューシャ)1680861.2%


姓別の統計(男性と女性の組み合わせ)
ホルダー
イワノフ1964740.70%
クズネツォフ942370.34%
スミルノフ920470.33%
ペトロフ841330.30%
ヴァシリエフ776830.28%
ポポフ749800.27%
ヴォルコフ533430.19%
ミハイロフ519130.18%
ノヴィコフ515080.18%
ソコロフ509880.18%
パブロフ503790.18%
アンドレエフ496460.18%
モロゾフ476890.17%
アレクシーエフ463860.17%
ロマノフ440270.16%
マカロフ435050.15%
ステパノフ431610.15%
ニコラエフ430590.15%
エゴロフ425370.15%
ザハロフ401350.14%
コズロフ400230.14%
セルゲイエフ399250.14%
ニキチン394830.14%
ヤコブレフ381970.14%
ザイツェフ377440.13%
グリゴリエフ360630.13%
レベデフ360520.13%
オルロフ358220.13%
アレクサンドロフ331490.12%
クズミン322270.11%
性別分布


ニックネーム/ミ​​ドルネーム

UPD:以下、「指定なし」とは「すべてのユーザーがアクセスできない」ことも意味します。



国の可用性


国別のユーザーの分布


各国のアクティブユーザー
アクティブ合計
ロシア65521153251933820.15%
ウクライナ1715898897639019.12%
ベラルーシ429023168011325.54%
カザフスタン152117108872713.97%
モルドバ5081537517213.54%
アメリカ5050141643012.13%
ドイツ4528328676115.79%


都市の空室状況


都市ごとの統計
市区町村ユーザー
モスクワ89385710.42%
サンクトペテルブルク4973245.80%
キエフ2388632.79%
ミンスク1487821.73%
エカテリンブルグ1297871.51%
ノボシビルスク1164431.36%
ハリコフ1053011.23%
サマラ975301.14%
ニジニ・ノヴゴロド943771.10%
オムスク882841.03%


アバターの可用性


携帯電話の可用性/有効性
( , "+()- ")

/




(UPD3: , )
%
1201592,4855%
505001,0446%
«»286070,5917%
255350,5282%
208420,4311%
196280,4060%
()184720,3821%
175210,3624%
.167910,3473%
.162260,3356%


/


( , )


( 1941 2008)

, 1 , 1 .




69,23.




— , 01.01.1988, , , / , 69. (, )


P.S.


Microsoft Excel.
.

UPD2: , , — 24.
UPD4: ( 02.10.11) .7z, — 4.6 .
«direct torrent link».
UPD5: (7 ) (8 ).

Source: https://habr.com/ru/post/J123856/


All Articles