何もしないことから、Habrの統計を収集することにしました。
統計は、現実を完全に反映していない場合があります。 199k件の記事のうち、75k件のみが開いていました。残りは削除され、ドラフトで非表示になり、パブリケーションへのアクセスは閉じられました。
欠落している記事のほとんどはマイナスであると想定できます。
実際、データ自体:
年間平均投稿数:

平均数 で 年ごとの投稿のコメント:

いつも:46。
年ごとの投稿の平均評価:

すべての時間の平均評価:31。
データを収集したもの3つの自作プログラムを使用しました。
ここからダウンロードして
ください(C#)habrDownloader-すべてのトピックをダウンロードします。 (ページコードの汚れたhtmlは16ギグで発生しました)
habrExtracter-ダウンロードされた理解可能な翻訳のパーサー
habrAnaliser-受け取った情報の分析と統計の編集
最後のものの出力はこれでした:
