実甚的な分析の玹介、たたはダむ゚ット薬ず共通するニュヌラルネットワヌクずは

今日、すべおの村や村でニュヌロ革呜が起こっおいるずき、私たちはニュヌラルネットワヌクが玔粋な魔法であり、倩からのマナであるずたすたす確信しおいたす。 それらはどこでもどこでも䜿甚され始め、さらにExcelに組み蟌たれたした 。 暗黙のうちに、困難なタスクを芋るず、次の図が倚くの人に衚瀺されたす。



そしお、今日は楜しいものず有甚なものを組み合わせたす興味深い実甚的な分析問題を分析するず同時に、ニュヌラルネットワヌクの分析問題ぞの非適甚性を決定する倚くの芁因を分析したす。

あなたがHabréぞの登堎を気にかけおいる䌚瀟でアナリストずしお働いおいるず想像しおくださいMail.comず呌びたす。 そしお、PR郚門の女の子があなたのずころにやっお来お、こう蚀いたす。「マネヌゞャヌず私は、䌚瀟のHabra栌付けをブランドの重芁なKPIであるず特定したした。それに圱響を䞎える重芁な芁因を特定し、最も合理的な戊略を導き出すために、そこでニュヌラルネットワヌクを詊しおください。」

このスピヌチの最䞭に、目は痙攣し始めたすが、数分埌に分析のための質問のリストを䜜成したす。


蚘事の構造

  1. 朜圚的な芁因を特定する
  2. デヌタ収集
  3. カルマの効果ず加入者ず埓業員の評䟡
  4. 最終匏
  5. ニュヌラルネットワヌクの適甚性分析
  6. 最適戊略分析

黄色のオフトピックHabra瀟のブログに関する真剣な情熱
たずえば、このような叀い議論のように、䌁業ブログを取埗する方法に぀いおの議論が展開される堎合がありたす。

元のコメント


そしお答え ここから 


䞀般に、このアプロヌチの深刻さは、このトピックに関する䌚瀟のプレれンテヌションですでに明らかになっおいたす。




朜圚的な芁因を特定したす


䌚瀟のプロフィヌルを芋るず、次の候補が印象的です。




さらに、パラメヌタは、カルマず埓業員の評䟡、芖聎回数、お気に入り、蚘事のプラス、およびその数など、倉数のグルヌプ党䜓で構成されたす。

そしお、ここで最も興味深い瞬間機胜の構築、そしお実際にHabraむンデックスを決定する芁因は䜕ですか そしおなぜこれがそんなに重芁なのでしょうか たずえば、機械孊習アルゎリズムが実際の゜ヌス関数を「孊習」するには、゜ヌス関数を正しいスペヌスで定矩する必芁がありたすが、これはありたせん

ある意味、これは悪埪環です。䟝存性を回埩するための重芁な芁玠がスペヌスたたはサブスペヌスに含たれおいるこずを知っおおく必芁がありたす。 しかし、この状況では、重芁な芁玠たたはそのスヌパヌセットがわかっおいれば、問題は実際に解決されたす。


特城空間の真の衚珟


もう少し圢匏的には、次のように説明できたす。デヌタ衚珟にはロヌカルパタヌンが存圚したす。぀たり、孊習したい関数のすべおのパラメヌタヌの「正しい衚珟」がありたす。 実関数がfX、Y、Zで、衚珟にXずYしかない堎合、Zを考慮に入れない明らかに誀ったクラスFX、Yの関数を探したす。この堎合、実際の問題はKaggleずは倧きく異なりたす。䜕も䞎えられたせん。


科孊的な突く方法


どの芁因が重芁かを刀断する方法は 䟝存性は決定論的であるこずがわかりたす。぀たり、TMがむンデックスを明確に考慮する分析関数がありたす。 むンデックス関数をfで衚すず、 fは因子x iに䟝存したす。 ただし 、任意のx iに察しお以䞋のこずが圓おはたる堎合に限りたす。



そしお、効果の倧きさを呌び出したす。

この定矩は、倉数間の独立性を意味するものではありたせん。 倉数が䟝存しおいる堎合、 i番目の因子のcは他の倉数に応じお異なる可胜性があるこずを意味したす。

たた、経隓から、関数は境界条件を満たさなければならないこずもわかっおいたす。





重芁なポむントニュヌラルネットワヌクで関数がどうあるべきかに぀いおの先隓的な匷力なアむデアの統合は、完党に重芁なタスクです。

したがっお、質問Q 1の重芁な芳察結果䌁業プロファむルたずえば、䞊蚘のものからデヌタを適切に倉換し、圱響を枬定しお、亀絡倉数を1぀ず぀削陀する必芁がありたす。 たた、分解条件をチェックする必芁がありたす。぀たり、倉数は互いに独立しおいたす。




デヌタ収集


最埌のペヌゞのアドレスhttps://habrahabr.ru/companies/にアクセスしお、最も䟡倀のある資料をご芧ください。





フォロワヌ


これは、出版物がなく、少数の埓業員1人たたは2人ず少数の加入者を持぀䌁業のセットです。 xPrecisionずPocket DSの 2぀の䌚瀟を遞択したしたが、埓業員数が同じで加入者が1人違いであるため、Habraむンデックスにれロ以倖の違いが芋぀かりたした。

ビンゎHabraむンデックスを決定する最初の芁因は、 サブスクラむバヌの数です  成長は明らかに盎線的ではないこずに泚意しおください。リストの最初、䞭、最埌の䌚瀟を芋おください。 関数が十分な数のサブスクラむバヌで飜和し、マヌクアップがなく、䞀般にサブスクラむバヌ芁因が蚘事自䜓を支配しないようにするのが論理的です。 したがっお、関数はゆっくりず成長し、ある時点でほが䞀定になりたす。 うヌん、察数

log2= 0.69
log4= 1.39
log5= 1.61
.....

合蚈、関数が次の圢匏であるこずを確認したす。



log8= 2.08であるため、関数はサブスクラむバヌのカルマに䟝存しないこずに泚意しおください。





さらに、䌚瀟に出版物がない堎合、係数は1であり、出版物がある堎合は3です詳现な分析で瀺されおいるように。


埓業員


15ペヌゞを怜蚎し、加入者数ず埓業員数が異なる2぀の䌚瀟を取り䞊げたす。


2番目の芁因 埓業員数の察数 。 繰り返したすが、これは論理的であり、埓業員の存圚が蚘事を支配するこずは䞍可胜です。 さらに、察数の前の係数は他のパラメヌタヌにも䟝存したす。

匏は次の圢匏を取りたす。





叀いメリットの圱響蚘事ごず


叀い蚘事のプラス〜1か月以䞊は評䟡に圱響したせん




叀い蚘事を芋るず、倧きなプラスであっおも効果はありたせん。


デヌタ䞍足


ニュヌラルネットワヌクを䜿甚するための最も重芁な条件は、「信号がノむズよりも匷い」倧量のデヌタの存圚であり、特城空間が適切でなければなりたせん。 ぀たり、倚くのノむズポむントがあったずしおも、既存のパタヌンはノむズによっお決定されたす。 ご芧のずおり、実際にはデヌタはたったくなく、パタヌンをより明確に瀺しおいたす。 たた、フィヌチャのスペヌスは小さく、いく぀かの単玔な構造を持っおいたすほずんど因数分解されおいたす。 したがっお、 Q 2は、適切にラベル付けされた倧量のデヌタがない堎合は、ニュヌラルネットワヌクを䜿甚しないこずを瀺しおいたす。

結論デヌタはどこかから取埗する必芁がありたす。 非垞に少量でも、仮説の正確な圢成に必芁です。

高品質の履歎デヌタがない堎合、どこで入手できたすか むンタヌネットタむムマシン 

たずえば、䌁業ブログのランキングの時定数は玄1か月であるず刀断し、䌚瀟の歎史を調べたす。
http://web.archive.org/web/20151220201116/http://habrahabr.ru/company/oda/

たた、蚘事の利点がどのように圱響するかを理解したいず思いたす。 これを行うには、蚘事のプラスが考慮されなくなった盎埌に䌚瀟の栌付けを知る必芁がありたす-蚘事ぞのプラスを陀き、ほずんどすべおのパラメヌタヌが䞀臎するはずなので、リスト内の䌁業間でそのようなデヌタを芋぀けるこずは事実䞊䞍可胜です。



したがっお、匏は次の圢匏を取りたす。




さらに、投皿が衚瀺される前ず埌に評䟡を分析するず、䌚瀟に少なくずも1぀の投皿がある堎合、賌読者ず埓業員からの評䟡は3倍になり、係数は次のようになるこずがわかりたす。




線圢項の係数の掚定倀は抂算ですが、絶察的に正確な係数の倀よりも䟝存関係の性質が重芁です。


カルマの効果ず加入者ず埓業員の評䟡を決定したす



埓業員の評䟡


この効果を分析するには、ここではむンタヌネットタむムマシンでさえも無力であるような重芁なデヌタを収集する必芁がありたす。 しかし、絶望するこずはできたせん。私はある䌚瀟のコントロヌルパネルにアクセスしただけで、評䟡をすぐに芋るこずができたす。





これらのポむントは、他の蚘事から評䟡を埗た瞬間に察応しおいたす。 そのため、劎働者の栌付けはHabra指数に圱響したす。分析では、係数が玄9の察数であるこずが瀺されおいたす。




䌁業のポストで受け取った埓業員のカルマ


埓業員のカルマの効果を次のように枬定したす。Mosigraの投皿は1人によっお䜜成され、これらの投皿でカルマを受け取っおいるこずがわかっおいるため、アクティブな蚘事がないたったく些现ではない時点でむンゞケヌタヌを枬定したした。次のものを埗たした

name,blog,employees,subscribers,rating,size ..... mos_igra,115,10,4877,59.48,101_200 

著者のカルマは〜850皋床であったため、これらの投皿で埗られたカルマぞの䟝存性も察数であり、係数は〜3にほが等しくなりたす。

ご芧のずおり、䌚瀟の芏暡に関する情報も収集されたした。 䌁業芏暡がむンデックスに䞎える圱響はれロでした。


サブスクラむバヌの評䟡




このこずから、成長は加入者の評䟡の芳点からも察数的であり、蚘事の存圚䞋で以前に芳察された係数3がここにも珟れるこずがわかりたす。





最終匏


したがっお、公開ケヌスの匏は次のずおりです。



さらに、倧きな括匧の前の係数すべおの察数の合蚈は、䌚瀟に出版物がある堎合は3、出版物がない堎合は1です。 投皿ぞのプラスは、ナヌザヌ投皿ぞのプラスず同じず芋なされたす぀たり、30日間保持されたす。

品質デヌタを収集するこずの重芁性


この蚘事を簡単に芋るず、デヌタの収集は非垞に二次的なステップであるように思えるかもしれたせん。 実際、これは実際に問題を解決するための重芁なステップです。これにより、仮説のスペヌスを倧幅に狭め、むンデックスに圱響を䞎えない二次的な芁因を取り陀くこずができたした。

䞻芁な芁因を導き出すためにHabrむンデックスの䟝存性を分析する最初の詊み2015幎8月を行ったずきに十分ではなかったのは、Internet Time Machineず䌚瀟の時系列パネルからのデヌタでした。 たずえば、パラメヌタヌの盞互䜜甚蚘事の可甚性に䟝存する係数は、パラメヌタヌのグルヌプにすぐに圱響したす。


ニュヌラルネットワヌクの適甚性分析


問題がニュヌラルネットワヌクによっお朜圚的に解決できるこずを認識できる重芁なポむントの短いリスト


私たちが分析した問題では、これらの条件はいずれも満たされおいたせん 。

それでも、ダむ゚ットピルはそれず䜕の関係がありたすか
これは救助に来お問題を解決する「魔法の薬」のほのめかしにすぎたせん。 重芁なのは、実生掻ではタスクは倚面的であり、1぀の汎甚ハンマヌで解決されるのではなく、分析ず適切なツヌルの遞択が必芁であるずいうこずです。 2぀のケヌスで症状が䞀臎した堎合でも、因果関係が異なる堎合があり、2぀の完党に異なる解決策が必芁になる堎合がありたす。

そうでなければ、これはすべおパンツノヌムのアプロヌチに䌌始めたす




最適戊略分析


Habraむンデックスを決定する䞻な芁因を含む匏があれば、質問3-さたざたなブログ戊略の有効性を評䟡するための質問に答えるこずができたす。

重芁な芳察 線圢項は、+ 10皋床の小さな倀であっおも、残りの察数項を簡単にメゞャヌ化したす。 10プラスの1぀の蚘事に䌌た効果を埗るたたは150人の埓業員を登録するには、25,000人のサブスクラむバヌが必芁です。 賌読者だけで蚘事の効果を+20から埗るこずは事実䞊䞍可胜です。

戊略1毎週など、倚くの小さな蚘事を定期的に〜+ 10で曞く。 次に、䌚瀟の栌付けはプラス3〜5 * 10〜= 150になり、他のパラメヌタヌに少なくずもある皋床の珟実的な倀たずえば、5人の埓業員ず100人の加入者がある堎合、最初のペヌゞに簡単に移動したす。この戊略は非垞に効果的です。ランキングの1䜍になったMicrosoftの戊略をご芧ください。 あなたが倧䌁業であり、倚くの情報ラむンがある堎合、戊略は合理的に芋えたす。

戊略1いく぀かの小さな蚘事



2番目の戊略月に1぀か2぀の思慮深い蚘事を50〜100プラスで曞く。 䌁業のトップペヌゞず最初のペヌゞにいるこずが保蚌されおいたす。 戊略の欠点は、このような数の蚘事を非垞に難しい数で曞くこずです。 これは、たずえば、Mosigreで凊理されたす。以䞋の芖芚化を参照しおください。

戊略21぀たたは2぀の拡匵蚘事



加入者を獲埗しようずする詊みは、察数がすぐに䞀定に達するため合理的な数の加入者に察しお、特に効果的な戊略ではありたせん。 すべおの埓業員をブログに登録するのは理にかなっおいたすが、非垞に限られた効果しかありたせん。ここに577人の埓業員がいるYandexでも、その効果は+ 12〜13の「垞蚭」蚘事に匹敵したす。

Source: https://habr.com/ru/post/J278409/


All Articles