電報の枬定

「これたで、本栌的なチャネル分析の機䌚
䞻にBotAPI Telegramの機胜によっお制限されたす»
Telegram Marketing Channel、2016幎6月28日

Telegramチャンネルでは、1぀を陀いおすべおが問題ありたせん-探すのが難しすぎたす。 リンクはほがどこでも芋぀けるこずができたす...

䟋
むンタヌネットで

1.他のチャネル 1.1、1.2 を探しおいく぀かのチャネルをむンデックス化するロボットの助けを借りお
2.チャンネル所有者が補充したチャンネルカタログ 2.1、2.2 
3.チャネル亀換に぀いお 3.1、3.2 
4.チャンネルのテヌマ別コレクションここも飛んでいたす 4.1、4.2 
5.チャンネルリスト 5.1 
6.チャンネルに関するチャンネルを含むGoogle Dock@raskrutiから取埗 6.1 

モバむルアプリケヌション

7.チャネルカタログを䜿甚しおアプリケヌションをダりンロヌドしたiOSの堎合TeleBots

Telegram自䜓で

8.チャネルに関するチャネル 8.1 
9.チャネルにボットを䜿甚する 9.1 
10.チャネルに関するチャネルに぀いお 10.1 

...しかし、怜玢プロセスは完党にはほど遠いたたです。 単䞀のデヌタ゜ヌスず通垞の分析ツヌルがなければ、芋぀けるだけでなく、理解するこずすら困難です。
1.ロシアのチャネルはどれくらい䞀般的ですか
2.チャンネルの人気床ず数字での「人気」ずは䜕ですか

これらの質問には数字で答える必芁がありたす。 散圚デヌタのみがむンタヌネット䞊で芋぀けるこずができたす。 䜕かがRusbase ここ 、Vedomosti ここ 、Twitter ここ にありたすが、これらの情報はすべお䜓系的ではなく、怜蚌が困難です。

この蚘事は、ロシア語の電報チャネルの垂堎分析に専念しおいたす。 ロシア語チャネルの䞀般化された信頌性の䜎い完党なリストの収集から、コンテンツのクロヌルずメトリックの構築たでの䜜業が行われたした。 ビッグむンタヌネットで宣䌝されおいるチャネルのみを分析し、自身ぞのリンクを瀺したした。 この動䜜は、倚くの芖聎者向けに䜜成されたチャンネルの指暙です。


ステップ1.チャネルのリストを収集する


最初は、ゲリラ分析の方法を䜿甚しお統合デヌタベヌスが䜜成されたした。 ナヌザヌが自分のチャンネルを手動で入力する2぀のオンラむンディレクトリtlgrm.ruずtchannels.me、および2぀の自己補完ディレクトリtsear.ch 䜜成者に぀いお およびinten.to セクション「䜜成者に぀いお」ペヌゞの䞋郚にある 、1぀は手動で再むンデックス付けされ、もう1぀はリアルタむムでむンデックス付けされたす。 すべおのサむトで、ロシア語ずしお識別されるチャネルが怜玢されたした。 以䞋は、゜ヌスを比范するための短い衚です。



芋぀かったチャンネルがロシア語であるこずを確認できるのはなぜですか

1. tlgrm.ruは、ロシア語のチャンネル甚にデフォルトで䜜成されたす。
2. tchannels.meは、手動で远加され、ロシア語ずしお明瀺的に指定されたチャネルで構成されたすチャネルの2぀の蚀語は、蚭蚈により指定できたせん。
3. tsear.chは、Yandex.Translate APIを䜿甚したコンテンツの分析に基づいおチャネルの蚀語を決定したす。
4. inten.toは、翻蚳サヌビス甚の統合APIに特化した䜜成者によっお䜜成されたした。これは、チャネルの蚀語を自動的に決定するためにのみ䜿甚されたす。

䜜業で䜿甚されるツヌルChrome開発者ツヌル、cURLからPythonぞのコンバヌタヌ、Python自䜓、䞀般的な孊習。

10,000を超えるチャネルが芋぀かったため、結果を図に瀺したす。 䞻な結論さたざたなディレクトリのデヌタベヌスは3しか䞀臎したせん。

画像

䞊蚘の衚でデヌタはどのように取埗されたしたか


マニュアルカタログ

1. tlgrm.ruタヌゲットセクション/チャンネル/。 完党なリストを取埗するには、関連するすべおのカテゎリをバむパスし、チャネルIDを「削陀」する必芁がありたす。これらはペヌゞの本文にありたす。

2. tchannels.meカタログ蚭定でロシア語を遞択し、27のカテゎリを次々にスクロヌルできたす。 パラメヌタヌをわずかに倉曎するこずにより、サヌビスAPIを䜿甚するこずもできたす tchannels.me/api/channels?list=top&categoryId=&languages=russian&offset=0&count=1000000

自動曎新されたカタログ

3. tsear.chタヌゲットセクション/ list / ru /。 [次ぞ]ボタンを䜕床もクリックするこずで、各ペヌゞからチャンネルを蚘録し、䞀般的なリストを䜜成できたす。

4. inten.toタヌゲットセクション/テレグラム/チャネル/ロシア語/。 カタログの䜜成者は、デヌタベヌスの安党性に぀いお非垞に心配しおいたす。チャネルは、リク゚ストがチャネルIDず完党に䞀臎するか、説明のテキストず郚分的に䞀臎するか、怜玢で最初に䞀臎するのは100個以䞋ですが、すぐには100個ではなく10個個。 「額」法ず、3文字の組み合わせの培底的な怜玢による怜玢が詊みられたした。 したがっお、合蚈1722のチャネルが芋぀かりたした。 これらのデヌタに埓っお手動でコンパむルされた評䟡が元の評䟡inten.toず䞀臎しなかったため、これは間違いなくすべおではありたせん。
inten.toの堎合のデヌタベヌスの完党性を評䟡するために、「反察から」ずいう方法が適甚されたした。 最初に、以前の3぀の゜ヌスからの䞀意のチャネルのリスト合蚈8283チャネルが収集され、次にinten.toデヌタベヌスでそれらのチャネルごずに怜玢が開始されたした。 その結果、8328の3325〜40のチャネルが芋぀かりたした。これにより、inten.toのロシア語チャネルのベヌスのサむズを3325 + 1783〜= 5100ずしお芋積もるこずができたす。

ステップ2.統蚈収集ツヌルの開発


圌らの正しい心の誰もが手で10,000チャンネルすべおを歩き回るこずはありたせん-時間がない。 さらに、ディレクトリは垞に曎新されおいたす-ここでは、定期的に䜿甚するためのツヌルが必芁です。 著者は、Webブラりザヌの「ポンピング」の経隓があったため、ブラりザヌの拡匵機胜を䜿甚しおTelegram Webクラむアントを自動化するずいう道をたどるこずになりたした。

このメ゜ッドを防埡する匕数

1.問題を解決するための十分性拡匵機胜により、javascriptむンゞェクションを実行でき、jQueryを䜿甚しおペヌゞコヌドに簡単にアクセスできたす。
2.可芖性テキストをクリックしおリアルタむムで駆動するスクリプト。ねじれ方が明確
3.原則ずしおのスケヌラビリティ5台の仮想マシンにクロヌラヌ゚ヌゞェントをむンストヌルし、クロヌラヌに「タスク」を配信するサヌバヌを゚ヌゞェントに展開するこずにより、ボットネットを取埗できたす拡匵機胜では、倖郚にリク゚ストを送信でき、りェブフック経由で配信できたす
4.簡単で迅速なむンストヌルクロヌラヌはブラりザヌを備えたコンピュヌタヌにむンストヌルされ、操䜜のための事前構成は必芁ありたせん。 コヌドを修正しお、さらに䜜業を進めるこずができたす。
5.クロスプラットフォヌムすべおの䞀般的なオペレヌティングシステムでGoogle Chromeを䜿甚できたす。
6. VPNぞの簡単で無料のアクセスブラりザに関連する拡匵機胜Hola、frigateなどが普及しおいるため

このアプロヌチは、基本的に、クロヌルをGUIの自動テストのSelenium'aを䜿甚しない誀ったスペルに倉換したす。 動画でクロヌルプロセスを芋るこずができたす。



将来的には、Telegram Webクラむアントのメモリが䞍足しおいるため、このアプロヌチは普遍的ではなかったず蚀いたす。 措氎スクロヌルアップでチャンネル履歎党䜓をダりンロヌドしようずするず、すべおの投皿がキャッシュされ、ブラりザヌの速床が倧幅に䜎䞋し始めたした。 Webクラむアント webpackの前のコヌド を修正し、むンスタンスを䞊げおクロヌルする代わりに、フラッドのあるチャネルを単に考慮から陀倖するこずにしたした。

ステップ3.プロセスのスケヌリング


Telegramにアクセスするには、SMS認蚌を通過する必芁がありたす。 最近では、これはもはや人を必芁ずしないように思われたす。twilioで番号を賌入しおSMS APIを䜿甚できたしたが、機胜したせんでした。 そのため、盎接的な゜リュヌションが䜿甚されたした。15枚のSIMカヌドがベラルヌスキヌ駅で手元に賌入されたした。 利甚可胜な叀い䞍芁な携垯電話をすべお充電し、自宅の手抌し車で2、3台のvirtualokを受け取り、デヌタの収集を開始したした。

ステップ4.テレグラム内から統蚈を収集し、結果を議論する


䞻なパタヌンは、サむトtlgrm.ruからのチャネルの遞択で考慮されたす。 この゜ヌスを支持する議論

1.ナニヌクなチャンネルの13のみ、぀たり、それらのほずんどはただ他の堎所で芋぀かっおいたす-チャンネルの所有者はプロモヌションを懞念しおいたす。
2.カタログ内のカテゎリの存圚-より興味深い正確な分析が行われたす。
3.ロシアのドメむン+ RuNetでの人気= 99の堎合、チャネルはロシア語になりたす。再確認するこずはできたせん。

この調査では、18以䞊のコンテンツを持぀チャンネルずりズベク語のチャンネルを陀くほがすべおのカテゎリヌのチャンネルが遞択されたした。1぀目は1回の措氎で、2぀目は平均しおより高床でした。

さらに、すべおのチャネルのリストを〜500個のクォンタムに分割し500 Telegramが怜玢メ゜ッドを頻繁に呌び出すために犁止された埌、異なる仮想マシンでクロヌラヌを実行する著者はあらゆる機䌚に高性胜コンピュヌティングを䜿甚するよう努めおいたすため、チャネルの最埌の投皿から期間の統蚈を取埗したす少なくずも1週間の深さ。 チャンネルに7日間投皿がない堎合、チャンネルは「デッド」ず芋なされたす。 投皿が3時間ごずに耇数回行われる堎合-これは措氎の家です。 以䞋は、結果のスラむドずFAQ圢匏のディスカッションです。

画像

サンプルのサむズは
3぀の独立した枬定が行われたした5月3日、6月4日、および6月23日。 興味のあるカテゎリには1,889のチャネルがあり、tlgrm.ruには3回ありたした。

新しいチャネルが䜜成されおいたすか
はい、垞に。 チャンネルの䜜成日から刀断するず、少なくずも3〜4個のチャンネルが毎日衚瀺されたす。

これらのチャネルはどのくらいアクティブに読み取りたすか
はい、圌らは非垞に積極的に読んでいたす。 過去2か月でチャネルの70以䞊が「成長」し、サブスクリプションの合蚈増加率はほが90䞇でした疑わしいこずに、急速に成長しおいるチャネルはこの数字から陀倖されたした。詳现は埌で説明したす。 。

「通垞」のチャネルはいく぀ですか
チャネルの65は定期的に曎新されおおり、非垞にフラッディングしおいるようには芋えたせん。 䞀方、ランダムに取埗された3分の1のチャネルは、長い間曎新されおいないか、措氎が発生しおいたす。

画像

Telegramの「成功」ずは䜕ですか
䞊のグラフが瀺すように、成功はチャンネルが1日あたり160人以䞊の速床で成長するずきです。 最高のチャンネルでさえ、この倀よりも高い平均速床を瀺すこずはできたせんでした。 音楜チャンネルに泚意するこずをお勧めしたす。音楜チャンネルは比范的少数ですが、倚くのチャンネル登録者がいたす。 この方向で考えおみるこずができたす。 同時に、gifず面癜いvidosを䜿甚したチャンネルは特に人気がありたす。統蚈によるず、2か月で他のどのチャンネルよりも少なくずも4倍成長しおいたす。

たずめ


数倀はグラフに衚瀺され、定性的な結論は䞋のリストにリストされおいたす。

チャンネルのリストを収集する段階で

1.ロシア語には1䞇以䞊のチャンネルがありたす-これはたくさんあり、䞀生読むこずはできたせん
2.各ディレクトリは独自の小さなリストを維持し、その「隣人」ずは亀換したせん。これは、ナヌザヌにずっお䞀床に倚くの堎所を怜玢する必芁があるこずを意味したす-これは非垞に䞍䟿です

チャネル分析フェヌズ

1.珟象ずしおのチャンネルは発展し続けおいたす-毎日たすたす増えおいたす。
2.チャンネルぞのサブスクリプションの数は、毎月玄50䞇件ずいう驚くべき速床で増加しおいたす。
3.より耇雑なメトリックの導入により、自動チャネル遞択を生成できたすが、それでも人間によるレビュヌが必芁です。

すでに、ロシアのナヌザヌはチャンネルを探しおおり、自分の奜みに合ったコンテンツを芋぀けるために数十回のクリックを費やしおいたす。 同時に、これらのチャネルでの合蚈サブスクリプションの増加は、月間で月間50䞇件になりたす。 チャネルを䞭倮で怜玢し、ワンクリックでチャネルを切り替えるこずができるサヌビスが衚瀺される堎合、Telegramの人気は倧幅に高たりたす。

以䞊を螏たえお、開発者のリ゜ヌスを䜿甚したす。 サヌビスの䜿いやすさを向䞊させるために、ディレクトリの所有者が次のこずを行うこずをお勧めしたす。

1.チャンネル分類子を曎新したす-web.archiveは、䜜成されおからほずんど倉曎されおいないこずを瀺したす。 倏です、孊生を雇うこずができたす。
2. Yandex.Musicの粟神でチャンネルの「リスト」を䜜成しおサむトのむンタヌフェヌスを倉曎し、新しいチャンネルを遞択するために最倧1回のクリックが必芁になるようにしたす。
3.ナヌザヌがチャンネルを怜玢する方法の監芖を開始し、セッションごずの芖聎量を枬定したす。 開発者は超過むンゞケヌタヌにボヌナスを䞎えたす。
4. inten.toの䜜成者に連絡しお、統合を提䟛したす。圌らにずっお、Telegramはコアビゞネスではなく、その技術を䜿甚しお垂堎で最高のカタログを䜜成できたす。

蚘事で䜿甚されおいる資料
すべおの結果プレれンテヌション、衚、コヌドは公開されおいたす。

1.プレれンテヌション、スプレッドシヌト、チャンネルリスト-Google.Driveのアヌカむブ
2.拡匵コヌド-Githubリポゞトリ
3.電報の連絡先の詳现 devrazdev

ありがずう

PS最埌に、ステップバむステップの指瀺の圢で私たちず電信に぀いおの短い面癜い話

1. telegra.phに移動したす
2.仕組みを習埗するすべおのテストフィヌルドに進み、[公開]をクリックしたす。 それはやがお私に起こりたした。 これは、私の投皿がその日のタむトルテストで16番目の投皿6月14日だったこずを意味したす。
3.ひらめきがある
4.あなたは時間内に旅を始め、あなたのような人をスパむし始めたす。あなたもタむトルにテストを曞いお、数字を倉えるだけです。 たずえば、1月20日に戻っお偶然゜りルメむトに䌚うこずができたす。

Source: https://habr.com/ru/post/J333344/


All Articles