ビッグデータデータマイニング:ソーシャルメディアの引用評価

「アナリストはビッグデータが好きではありません!」-あなたは高速運転に関する一般的なことわざを言い換えることができます。 3,500万人の著者からの6億5,000万のソーシャルメディアメッセージ、3億5,800万のリンク、そのうち1億1,000万は「短い」。このようなデータは2014年3月に分析され、メディアの引用評価をまとめた。
この投稿では、方法論的および技術的側面について話し、データマイニングソーシャルメディアの「詳細な掘削」のアイデアを議論することを提案します。 興味のある人は猫に招待されます。
画像

実際、評価自体は次のようになりました。
ソーシャルメディアの上位30のメディア引用評価(2014年3月):
配置する
ランキング
リソース名
サイトアドレス
索引
SMI
数量
リンク
1
RIA「ニュース」ria.ru117516 641
2
ロシア語のRTrussian.rt.com83364,845
3
Lenta.rulenta.ru72318 735
4
ラジオ局「モスクワのエコー」echo.msk.ru52226 985
5
Newspaper.Rugazeta.ru51226,760
6
ライフニュースlifenews.ru48212 870
7
チャンネル「雨」tvrain.ru48210 413
8
ITAR-TASSitar-tass.com46203,795
9
Vesti.ruvesti.ru45197 654
10
Sports.rusports.ru42184 831
11
RBC(RosBusinessConsulting)rbc.ru35154,048
12
NEWSru.comnewsru.com32140 082
13
コムソモールの真実kp.ru31136,291
14
インターファックスinterfax.ru28121 714
15
ロシアの新聞rg.ru27118 643
16
日本テレビntv.ru26113 353
17
新しいリージョン2nr2.ru25110 104
18
ビジネス新聞「Vzglyad」vz.ru23100 647
19
最初のチャンネル1tv.ru1984 659
20
Snob Mediasnob.ru1878,439
21
REGNUM News Agencyregnum.ru1776 920
22
Kommersant.rukommersant.ru1566 221
23
Slon.ruslon.ru1565,872
24
ヴェドモスティvedomosti.ru1563 915
25
引数と事実aif.ru1358,290
26
Izvestia.ruizvestia.ru1356 109
27
モスクワで-モスクワのニュースnewsmsk.com1254,147
28
新しい新聞novayagazeta.ru1252,367
29日
フリープレスsvpressa.ru1149,069
30
Inosmi.ruinosmi.ru1042,757
格付け、SMIインデックスの形成、SMRの格付けに関する詳細については、ブログ( http://br-analytics.ru/blog/?p=1264)をご覧ください。

なぜそして誰のため?

メディア調査市場では、出版物を測定するためのいくつかの評価があります:流通、オンライン版の出席、引用_他のメディアの引用、購読者の数(オフラインとオンラインの両方)。 実際、これらすべての測定値は、プリンター、インターネット統計サービス、ソーシャルネットワークカウンターなどのどこかで既に収集されたデータを比較します。 メディアを他のメディアで引用するかどうかを比較することは、メディア監視業界が提供できる最大のことですが、おわかりのように、このメトリックは回答よりも多くの質問を提起します。

私たちの仲間の社会学者が読者の信頼性と信頼に従ってメディアをランク付けする仕事をしたとき、解決策は標準でした-インタビュー対象者によると、どのメディアがより権威があるかを示す提案で調査を行うことです。

すべてのソーシャルタスクをソーシャルメディアに投影するという(悪い:-))習慣があるため、パートナーがソーシャルネットワーク上のユーザー投稿や記事へのコメントから追加情報を取得できるようにすることにしました。

方法:発見と困難

このタスクは技術的には面白く、結果は予想外でした。 データの量は事前に理解されていました-プラットフォームは1日あたり2,000万〜2,500万のメッセージとコメントを収集します。つまり、3月に約6億の資料を処理する必要があります。

その場合、すべては単純に思えます。リンクを含むメッセージの数を理解し、それらを切り取り、処理し、不要なメッセージを削除し、それらを正規化し、並べ替えることは残ります。 分析のために、私たちは1日のデータを取得し、離れて行きました。 最初の驚きはリンクの数にありました:アナリストは誰もリンクの数がメッセージの数にほぼ対応していると推測することはできませんでした-1日あたり1500万以上!

2番目の「迷惑」は、写真、グラフィック要素、ビデオへのリンクの数であり、全体の約30%です。 3番目の「トラブル」の準備はすでに整いました。ショートリンクを展開する技術は、ブランド分析システムのレポートで既に使用されていますが、数万をスキャンすることと、1日あたり約400〜500万です。 同時に、別の23の新しいサービスが、長いリンクの既によく知られている12の一般的な畳み込みサービスに追加されました。

「正面」のシングルスレッドデータ処理には1日で3〜4時間かかりました。これは一般に「ひざまで」のゆったりとした研究オプションでは普通ですが、定期的な毎日の監視にはあまり受け入れられません。 1か月間のデータ処理に適用された最終的なマルチスレッド(3スレッド)アルゴリズムにより、6時間で6億5,500万の月の配列を処理することができました。

PS非構造化データを解析するためのさまざまな方法論を試してみたい場合は、1時間ごとにデータをアップロードする準備ができています。誰かがより高速なソリューションを提供できるかもしれません。

結果

要約データ:
•3月の処理済みメッセージ:655 269 709
•ユニーク著者:35 172 270
•見つかった合計リンク:536 185 906
•写真なしのリンク:357 853 627
•短いリファレンス:110 685 097

統計のファンのために、トップの「生」の排他的なデータを提供します
リンク-「億万長者」-私たちの意見では、非常に興味深いINFA:
154,659,839vk.com
25,776,485apps.facebook.com
23,611,855dsm.odnoklassniki.ru
10 531 545facebook.com
10 123 556youtube.com
5,240,568instagram.com
4,026,849twitter.com
2 320 472plus.google.com
2 304 521ask.fm
1 847 571docs.google.com
1 225 210islandandroid.17bullets.com
技術的な問題から方法論への回帰...

1.すべての一般的なソーシャルネットワークで、ボットアカウント(ボットネット)と通知メッセージ(ゲーム、カード、ギフト、笑顔など)の両方がかなり高い(10〜47%)レベルの自動メッセージがあることは周知の事実です。 注意深い専門家の読者の論理的な質問を予測する-はい、そのようなメッセージはフィルタリングされ、リンクターゲットを分析および評価するためのモジュールに到達しません。

2.人気のあるリソースに関するメディア引用指数の公開後、ソーシャルネットワーク上のいくつかのグループで議論が行われ、人々は格付けリーダーのRIA Novostiを皮肉としました。ウェブサイトria.ru。 興味深い考えですね。 そして、それはSMMの新しい「動き」につながります:-)

おそらく、アナリストはこの側面を考慮して、4月の次の調査でメディアの格付けと引用指数を計算するでしょう。 たとえば、出版物のウェブサイトの記事へのコメントをソーシャルメディアの出版物と同一視します(さらに、私たちの方法論によれば、ニュースに関するコメントは独立したオブジェクトとして考慮されるためです)。 この問題について意見をお持ちの場合は、ご意見をお聞かせください。もちろん、賛否両論もあります。

PSリンクのランキングでは、Habrは最初の50代で高く、技術リソースの中で1位です。

Source: https://habr.com/ru/post/J220415/


All Articles