ビッグカウントの小さな秘密


大規模なデータセットから抽出できる知識、大規模なグラフの大きさ、Facebook、Twitterなどで提供されるソーシャルグラフの分析タスクに興味がある場合は、この記事が役立ちます。

したがって、合計で3つのタスクを検討します。最初のタスクはFacebookのポジティブリンク予測です。 データをダウンロードするには、 kaggle.comで登録する必要があります。

ソーシャルグラフが与えられ、テスト頂点の数は262588、グラフ内のエッジの数は9437519、1862220のグラフ内の頂点の数はすでに怖がる理由です;)このグラフはエッジを削除することで実際のグラフから取得されます。 目的:テストサンプルで指定されたユーザーについて、フォローする必要がある他の最大10人のユーザーを予測します。

コンテストは「履歴書だけでなく、才能を見せて」というモットーで開催されました。 Facebookは最高の参加者を募集しようとします。
便利なリンク:
1. cs.stanford.edu/people/jure
2. www.machinedlearnings.com/2012/06/thought-on-link-prediction.html
3. cs.stanford.edu/people/jure

次のタスクはコミュニティ検出と呼ばれ、それに応じて、Twitterでのコミュニティの割り当ての問題に専念します。 第19回World Wide Web会議の資料を読んで、 ここからTwitterからソーシャルグラフをダウンロードできます 。 よくあることですが、英語版ウィキペディアは、トピックen.wikipedia.org/wiki/Community_structureに慣れるのに役立ちます。 しかし、これまで以上に決意を固めている場合は、より強固なソース、たとえばこれが必要です。

風が吹いている場所に興味がある人にとって、最後のタスクはカスケード分析です。 YangとLeskovetsの記事を読むことで、メディアの情報対立のモデルに慣れることができます。参考文献の完全なリストは、多くの質問に対する答えを見つけるのに役立ちます。 実験データ: snap.stanford.edu/data/memetracker9.htmlおよびsnap.stanford.edu/data/bigdata/twitter7
memetracker.org/quotes-kdd09.pdf-ファンがモデル情報の戦いに参加するための貴重なリンク。

提案されたタスクまたは同様のタスクのいずれかを実行することにした場合、これは記事またはポスターを作成し(目標と達成結果に応じて)、会議「グラフ理論とアプリケーション」CSEDays'12に送信する絶好の機会です。
幸運と高速収束方法! :)
リソース:
//学生レポート
1.www.stanford.edu/class/cs224w/proj/jbank_Finalwriteup_v1.pdf
2. www.stanford.edu/class/cs224w/proj/jieyang_Finalwriteup_v3.pdf
//データセット、出版物、C ++でのデータ分析用ライブラリ、視覚化
3. snap.stanford.edu
4. odysseas.calit2.uci.edu/doku.php/public:online_social_networks
5. law.di.unimi.it/datasets.php
6. rise4fun.com/agl
//ジュレ・レスコベツ
7. cs.stanford.edu/people/jure

Source: https://habr.com/ru/post/J148162/


All Articles