ハブラクラン

約1ヶ月前、私はhabrcottasに関する記事をhabrで公開しました 。 この記事の副産物は、ユーザーのページのダンプであることが判明したため、さらに情報を抽出したかったのです。 ユーザー 分析記事コメントカルマ に関する記事は定期的 habrに表示さますが、習慣を分析するための記事は1つも見つかりませんでした。 したがって、habrainweightsのグラフを作成し、その特性のいくつかを調べました。



ページは2016年1月にダウンロードされたため、その後に発生したすべて(新しいユーザーの登録、古いユーザーの削除、カルマの変更)は考慮されていません。 ダウンロードしたユーザーのリストからすべての読み取り専用ユーザーと非アクティブ化されたユーザーを削除すると、79870になります。私が知る限り、この数は実際のユーザー数(プラスまたはマイナス1000)にほぼ対応しています。 さらに、穴のないグラフを取得するには、955人の読み取り専用ユーザーと382人の非アクティブ化されたユーザーを追加する必要がありました(これらのユーザーは、何らかの理由でハブから酔っ払ったか、ROに転送されたユーザーです)。 その結果、81,207の頂点にグラフが表示されます。

Habrユーザーのリストを取得するのは簡単ではないことに注意してください。 ほとんどは数年前に入手したもので、ハブ加入者のリストがまだ利用可能でした。 しかし、現在そのようなリストはないため、2015年と2016年のユーザー名は、記事、コメント、既知のユーザーのページ、購読者リスト、特定の都市、国のユーザーリストから抽出され、頻繁に遭遇するユーザー名のプレフィックス(Alex * 、管理者*、キャプテン*など)とHabr検索ページで数千のリクエストを行いました。 また、giktaymsaとmegamindにアクティブユーザーを追加したので、リストに載っていない場合は、暗号化されています。

したがって、81207の頂点と20195のアークを持つ有向グラフがあります。 ご覧のとおり、他のユーザーからの招待に登録されたユーザーは約2万人のみで、残りは招待前に登録された(4万人以上)か、UFOによって招待されました。

ハブラクランは 、この有向グラフの弱い接続のコンポーネントと呼ばれます。 1人の人が何度も招待を受けることができるため、これらのコンポーネントは一般的にはツリーではないことに注意してください。 したがって、ループがあります。たとえば、@ tangroが@ Millaを招待し、@ Millaが@ tangroを招待しました。 ループ:たとえば、@ aavezelは自分自身を招待しました。 複数のアークを含む頂点:ユーザー@ sharaは6回招待されました(@ Deeman、@ myagi、@ homm、@ Azya、@ veveve、@ shifttstas)。 これらはすべて例外の可能性が高いですが、一般的にグラフは森のように見えます。

私たちのコラムには61021 habraclanがあります。 サイズの分布は次のとおりです。
コンポーネントサイズ部品数
1001以上1
101-10006
11〜100436
2-103110
157468
最大のコンポーネントを見てみましょう。
いや大きさルートピーク
11027@ Davekeinz(412の招待を送信-ハブで他の誰よりも多く、このコンポーネントでも@ Mithgol、78の招待を送信)
2584@ Mudhoney(242人の招待状を送信)@ valemak
3316@ XaocCPS(65アイテム送信)
4272@ Alaunquirie(招待者@ BarsMonster、73人のユーザーを招待)@ kip
5189@ Deeman @ homm @ DorBer @ myagi @ Azya @ maovrn @ fil9 @ yoihj
6106@ロソマチン
7104@ガーヤン
897@ Kukutz(Yandex.Component)
990@ Eosunknown
1085@ Cigulev @ tyr
1180@ Mdevils
1280@ヌズグル
1377@ Ni404 @ tronix286 @ Rembish
1477@ティガー
1576@ガイダー
1670@オーレン
1769@ソルトムマイスター
1868@カラン
1968@アリサデニソワ
2067@ホースフ
以下は、これらの20のグラフの写真です。 緑の円-カルマが正のユーザー、赤-負のユーザー、青-ゼロのユーザー、灰色-読み取り専用または非アクティブなユーザー。 円の面積は、カルマ係数に比例します(この数値が1より大きい場合)。 すべての写真は、大きなバージョンへのリンクです。

habraclansの「高さ」も見てみましょう。 無視できる数のグラフをサイクルで破棄すると、dag_longest_path_length(G)は次の結果を返します。
最長チェーンの長さ部品数
91
72
611
539
4125
3479
22888
157468
最も長いチェーンは、次のとおりです。 Odnoklassniki_ruと@ DarkDefenderを最終的に招待した人。

この分析は、ほとんどのハブラクランが小さく、小さな「高さ」を持つという期待と一致しています。

ユーザーがカルマを持っていることを覚えておいてください。 複合加算は、 habrに少なくとも450323.4単位の正のカルマがあることを示します。 (ちなみに、10,579人のhabraユーザーは10以上のカルマを持っているので、理論的にはこの記事で10,578プラスを得られます。)

どのhabraclansがカルマの最大の埋蔵量を持っているかを見てみましょう。
いや合計カルマルートピーク
16184.4@ Mudhoney @バレマク
25333.7@ Davekeinz
34720.8@ XaocCPS
43587.1@ Alaunquirie @ kip(@ BarsMonsterこちら)
52464.5@ Deeman @ homm @ DorBer @ myagi @ Azya @ maovrn @ fil9 @ yoihj
62390.1@ Horsev(@ PapaBubaDiopおよび@ Milfgardはこちら)
71984.9@ Cigulev @ tyr(@ Zelenyikotはこちら)
81780.2@ Ni404 @ tronix286 @ Rembish
91606.1@ Eosunknown
101526.9ルートはなく、すべて@ tangro-@ Millaループで始まります
111319.3@キット
121304.1@オセロット
131299.5、@オーレン
141104.5@カラン
151009.1@ロソマチン
16985.5@ Easy_john
17932.3@アッスリ
18871.7@ Sourcerer
19845.2@ルカサフォノフ
20838.6@ Mdevils
以下は、これまでに会ったことのないグラフの写真です。


また、一部のユーザーの場合、国は[差出人]フィールドのページに表示されます。 ユーザーによる上位の国はハブ自体にありますが、招待者と招待者が異なる国にいる招待状を見るのは興味深いものでした。 このような招待は、habrasocietyの「地理的」接続性を特徴づけます。

最初は、いわゆるを構築したかった。 コード図 、しかしPythonでこれを行う簡単な方法を見つけられなかったので、対応するマトリックスの左上隅を指定します。 (誰かが図の作り方を教えてくれたら、ありがたいです。)写真のボックスが青いほど、国1から国2への招待数の対数が大きくなります。

注目すべきは、ロシア、ウクライナ、ベラルーシ、米国、ドイツの接続性です。

招待に関連していないが、ユーザーページから簡単に抽出できるもう1つの情報は、登録日と最後の表示日です。 次の表に、特定の年に登録されたユーザーの数と、2015年1月1日からハブに表示されたユーザーの数を示します(それ以外の場合、ユーザーはhabraactiveでなくなったと考えられます)。
20063091909
2007年194335511
2008年220316348
200960323094
201068263345
201193416355
201258414160
201340292819
201426842100
201514731473
合計8078136114
チャート形式でも同じです。


2007年と2008年に登録されたユーザーの半数、および多くの昔の人がアクティブであることがわかります。

それだけです ソースデータとグラフを描画するためのスクリプトを含むテーブルは、 githubで利用できます。 リクエストに応じて、生データを含むアーカイブを利用できます。

Source: https://habr.com/ru/post/J232769/


All Articles