最初はHabrahabrとGeektimesの単語の頻度辞書を編集するというアイデアがありましたが、美しい:
Wolfram Language(Mathematica)を使用したHabrahabrの詳細な分析 (この記事を表示する前にリンクをクリックすることをお勧めします)、結果の違いを見て、Habrahabrの記事でも同じことをすることにしましたとオタク。 このレビューには、ポッドキャストとカスタムデザインの記事(habrahabr.ru/article)は含まれていませんでした。 分析は170,000件の記事でした。 すべての画像はクリック可能です。
github上のWolfram Notebookコード。
Yandex.Diskのデータセット。
UPD:評価の計算に関して-私も計算を間違えました。
ここでの議論
では、
OsipovRomanは違いは小さいと書いています。
データ処理結果
ハブ分析
記事が投稿されているハブの数の分布:
記事数で最大のハブ:
一意の記事のみを考慮する場合(1つのハブのみに関連する):
接続のグラフを作成しませんでした、なぜなら ハブのリストを個別に収集しませんでした。
時間ごとの記事数
写真のキャプションにはHabrahabrのみが記載されていますが、Geektimesも暗示されています。
1か月あたりの投稿数:
今年:
ハブ「数学」内:
ハブ「宇宙飛行士」:
ハブ「Habrahabr」:
時間に応じて投稿で使用される画像(ビデオ)の数
そして、別々のハブで:
キーワードと個々のハブの雲
ここで、WordOrientation属性に渡す値(Random、{-Pi / 4、Pi / 4})に関係なく、WordCloud関数はデフォルトですべてをペイントします。
ハブ「数学」:
ハブ「プログラミング」:
Javaハブ:
ハブ「オープンソース」:
ハブ「機械学習」:
記事で言及されているサイト
リンクのソースとしてHabrahabrを削除します。
ハブ「数学」で(リンクのソースとしてHabrahabrなし):
IOS開発ハブ:
ハブ「.NET」:
記事になるコード
SomeCodeなし(プログラミング言語が指定されていない場合):
ハブ「アルゴリズム」内:
ハブ「プログラミング」で:
ハブ「Linuxの構成」で:
ハブ「機械学習」で:
単語の頻度
ハブ「iOS用開発」で
ハブ「Android用開発」で:
ハブ「オープンソース」でオペレーティングシステムの名前を使用する頻度:
そして、Habrahabr / Geek誌で:
投稿の評価と表示回数、および特定の値に到達する確率
Habrahabr / Geektimesでの平均投稿評価は25.6067で、平均視聴回数は13487.2です。
期待:{25.6067、13487.2}
標準偏差:{35.9361、28783.9}
投稿が特定の評価を獲得する可能性:
投稿が一定の視聴回数を獲得する可能性:
評価と投稿ビュー数の公開時間への依存
投稿の評価のそのボリュームへの依存
Habrahabr / Geektimesの平均投稿サイズは5199文字です。
指定された文字数を超えない量の投稿が少なくとも所定の評価を獲得する確率:
単語の頻度といえば。 pymorphy2ライブラリを使用してJupyter NotebookでWolframを使用する前に、nltkはワードクラウドを年ごとに作成しましたが、記事は少なくなりました。 彼女は記事で最も一般的な50の単語(ストップワードを除く)を取り、特定の年のすべての記事の辞書を組み合わせました。 タグルで構築された雲。 KAPVは2006年の単語クラウドです。 2016年の場合:
最大数の投稿
画像:「
Android向けメールクライアントの概要、またはメーラーの選び方 」
コメント:「
Google+で招待状を配布する方法 」
評価:「
古いLCDモニターからプライベートモニターを作成する 」
タグの数別:「
2014年のインターネットの切断という状況における社会的コミュニティの実用的な生存のための情報および技術ツール 」
ビュー:「
3秒以内にWi-Fiをハック 」
ビデオの数:「
DUMP-2016:1つの投稿ですべてのレポートのビデオ。無料。SMSなし 」
リンク数:「
偽科学と詐欺師。偽の科学雑誌 」
テキスト:「
ゆるい鳥を作成-ゾンビ鳥クローン 」