確率に぀いお

画像
 ゜ヌス 


機械孊習、特にニュヌラルネットワヌクの仕組みを他の人に䌝えなければならないこずもありたす。 通垞、募配降䞋ず線圢回垰から始め、埐々に倚局パヌセプトロン、自動゚ンコヌダヌ、畳み蟌みネットワヌクに移行したす。 党員が頭をうなずきながらうなずきたすが、ある時点で、抜け目のない人は必ず尋ねたす


そしお、なぜ線圢回垰の倉数が独立しおいるこずがそれほど重芁なのでしょうか

たたは


たた、通垞の完党に接続されたネットワヌクではなく、画像に畳み蟌みネットワヌクが䜿甚されるのはなぜですか

「ああ、簡単です」ず答えたいです。 -「倉数が䟝存しおいる堎合、倉数間の条件付き確率分垃をモデル化する必芁があるため」たたは「小さなロヌカル゚リアでピクセルの共同分垃を孊習する方がはるかに簡単であるため」 しかし、ここに問題がありたす。生埒はただ確率分垃ず確率倉数に぀いお䜕も知らないので、他の方法で出お、より耇雑に説明したすが、抂念ず甚語は少なくなりたす。 たた、バッチに関する正芏化モデルたたは生成モデルに぀いお説明するように求められた堎合はどうすればよいかわかりたせん。


ですから、自分自身や他人を苊しめるのではなく、確率論の基本抂念を芚えおおいおください。


ランダム倉数


幎霢、身長、性別、子䟛の数が瀺されおいる人々のプロファむルがあるず想像しおください。


幎霢身長性別子どもたち
3217512
2818011
1716400
..............

このようなテヌブルの各行はオブゞェクトです。 各セルは、このオブゞェクトを特城付ける倉数の倀です。 たずえば、最初の人は32歳で、2人目の人は身長180 cmです。 しかし、すべおのオブゞェクトに察しお倉数を䞀床に蚘述したい堎合、぀たり 列党䜓を取りたすか この堎合、1぀の特定の倀ではなく、䞀床に耇数の倀があり、それぞれに固有の発生頻床がありたす。 可胜な倀のリスト+察応する確率は、 ランダム倉数 ランダム倉数、rvず呌ばれたす。


離散および連続確率倉数


これを頭に留めおおくために、もう䞀床繰り返したす。ランダム倉数は、その倀の確率分垃によっお完党に決定されたす。 ランダム倉数には、離散型ず連続型の2぀の䞻なタむプがありたす。


離散倉数は、明確に分離可胜な倀のセットを取るこずができたす。 通垞、私はそれらを次のように描写したす確率質量関数、pmf



ゞュリアコヌド
Pkg.add("Plots") using Plots plotly() plot(["0","1"], [0.3, 0.7], linetype=:bar, legend=false) 

テキストでは、これは通垞次のように曞かれおいたすg-性別


pg=0=0.3pg=1=0.7




぀たり サンプルからランダムな人が女性になる確率 g=0 は0.3で、男 g=1 -0.7、これは女性の30ず男性の70がサンプルに含たれおいたずいう事実に盞圓したす。


離散倉数には、1人あたりの子䟛の数、テキスト内の単語の出珟頻床、映画が芖聎された回数などが含たれたす。 ちなみに、有限数のクラスぞの分類の結果も、離散確率倉数です。


連続倉数は、特定の間隔で任意の倀を取るこずができたす。 たずえば、身長が175cmであるず蚘録した堎合でも、぀たり 1センチメヌトルに䞞めたす。実際には175.8231 cmになりたす。 連続倉数は通垞、確率密床関数pdf曲線を䜿甚しお描かれたす。



コヌド
 Pkg.add("Distributions") using Distributions xs = 140:0.1:200 ys = [pdf(Normal(172, 10), x) for x in xs] plot(xs, ys; xlabel="h", ylabel="p(h)", legend=false, show=true) 

確率密床のグラフは泚意が必芁です各列の高さがそのような倀を埗る確率を盎接瀺す離散倉数の確率質量のグラフずは異なり、確率密床は特定のポむント呚蟺の盞察的な確率量を瀺したす。 この堎合、確率自䜓は区間に぀いおのみ蚈算できたす。 たずえば、この䟋では、サンプルから無䜜為に抜出された人の身長が160〜170 cmになる確率は玄0.3です。


コヌド
 d = Normal(172, 10) prob = cdf(d, 170) - cdf(d, 160) 

質問ある時点での確率密床は1よりも倧きくなりたすか もちろん、答えはむ゚スです。䞻なこずは、グラフの䞋の総面積たたは数孊的に蚀えば、確率密床積分が1に等しいこずです。


連続倉数のもう1぀の難点は、その確率密床が垞にうたく衚珟できるずは限らないこずです。 離散倉数の堎合、倀のテヌブル->確率がありたした。 連続の堎合、これらは䞀般に無限の数の意味を持぀ため、機胜したせん。 したがっお、圌らは通垞、よく研究されたパラメトリック分垃によっおデヌタセットを近䌌しようずしたす。 たずえば、䞊のグラフはいわゆる䟋です。 正芏分垃。 その確率密床は次の匏で䞎えられたす。


px= frac1 sqrt2 pi sigma2e− fracx− mu22 sigma2




どこで  mu mat。期埅、平均および \シグマ2シグマ 分散-分垃パラメヌタヌ。 ぀たり 2぀の数倀しかないため、分垃を完党に蚘述し、任意の点での確率密床たたは2぀の倀間の合蚈確率を蚈算できたす。 残念ながら、どのデヌタセットからも遠く離れお、それを矎しく衚珟できる分垃がありたす。 これに察凊するには倚くの方法がありたす少なくずも正芏分垃の混合を取りたすが、これは完党に異なるトピックです。


継続的分垃の他の䟋人の幎霢、画像内のピクセルの匷床、サヌバヌからの応答時間など。


共同分垃、呚蟺分垃、条件付き分垃


通垞、オブゞェクトのプロパティは䞀床に1぀ではなく、他のプロパティず組み合わせお考慮されたす。ここでは、いく぀かの倉数の共同分垃の抂念が衚瀺されたす。 2぀の離散倉数の堎合、テヌブルの圢匏でそれを衚すこずができたすg-性別、c-子の数


c = 0c = 1c = 2
g = 00.10.10.1
g = 10.20.40.1

この分垃によるず、デヌタセットで2人の子䟛を持぀女性に䌚う確率は次のずおりです。 pg=0、c=2=0.1、 ず子䟛のない男- pg=1、c=0=0.2、 。


たずえば、身長ず幎霢などの2぀の連続倉数の堎合、再び分析分垃関数を定矩する必芁がありたす ph、a、 それを抂算し、
たずえば、 倚次元法線 。 これをテヌブルに曞くこずはできたせんが、描くこずができたす



コヌド
 d = MvNormal([172.0, 30.0], [10 0; 0 5]) xs = 160:0.1:180 ys = 22:1:38 zs = [pdf(d, [x, y]) for x in xs, y in ys] surface(zs) 

共同分垃がある堎合、残りの倉数を単玔に合蚈離散の堎合たたは積分連続の堎合するこずで、各倉数の分垃を個別に芋぀けるこずができたす。


pg= sumcpg、cph= intpa、hda

、、


これは、テヌブルの各行たたは列の合蚈ずしお衚され、結果をテヌブルのフィヌルドに入れるこずができたす。


c = 0c = 1c = 2
g = 00.10.10.10.3
g = 10.20.40.10.7

だから再び pg=0=0.3 そしお pg=1=0.7 。 マヌゞンプロセスは、結果の分垃自䜓に名前を䞎えたす-限界確率。


しかし、倉数の1぀の倀がすでにわかっおいる堎合はどうでしょうか たずえば、目の前に男性がいお、その子䟛の数の確率分垃を取埗したいこずがわかりたすか 共同確率衚もここで圹立ちたす前に男がいるこずを確実に知っおいるので、 g=1 、他のすべおのオプションを考慮から砎棄し、1行のみを考慮するこずができたす。


c = 0c = 1c = 2
g = 10.20.40.1

 barpc=0|g=1=0.2 barpc=1|g=1=0.4 barpc=2|g=1=0.1




確率は䜕らかの方法で1぀に合蚈する必芁があるため、結果の倀を正芏化する必芁がありたす。


pc=0|g=1=0.29pc=1|g=1=0.57pc=2|g=1=0.14




既知の倀を持぀別の倉数の分垃は、条件付き確率ず呌ばれたす。


チェヌンルヌル


そしお、これらのすべおの確率は、チェヌンルヌルず呌ばれる1぀の簡単な公匏によっお結び付けられおいたすチェヌンルヌル、差別化においおチェヌンルヌルず混同しないでください。


px、y=py|xpx

、


この匏は察称であるため、これも実行できたす。


px、y=px|ypy

、


ルヌルの解釈は非垞に簡単ですif px -私が赀信号に行く確率、そしお py|x -赀信号に目を向ける人がヒットする確率、赀信号に移動しおヒットする共同確率は、これら2぀のむベントの確率の積に正確に等しくなりたす。 しかし、䞀般的に、緑になりたす。


埓属倉数ず独立倉数


すでに述べたように、共同分垃衚がある堎合、システムに関するすべおを知っおいたす。倉数の限界確率を蚈算したり、ある倉数を別の既知の倉数で条件付きで分垃したりできたす。 残念ながら、実際には、このようなテヌブルをコンパむルするたたは連続分垃のパラメヌタヌを蚈算するこずはできたせん。 たずえば、1000個の単語の出珟の共同分垃を蚈算する堎合は、次の衚が必芁です。


107150860718626732094842504906000181056140481170553360744375038837035105112493612
249319837881569585812759467291755314682518714528569231404359845775746985748039345
677748242309854210746050623711418779541821530464749835819412673987675591655439460
77062914571196477686542167660429831652624386837205668069376


1e301を少し超えるセル。 比范のために、芳枬可胜な宇宙の原子数は玄1e81です。 おそらく、远加のメモリバヌを賌入するだけでは十分ではありたせん。


ただし、詳现が1぀ありたす。すべおの倉数が互いに䟝存しおいるわけではありたせん。 明日雚が降る確率は、私が道路を暪断しお赀信号になるかどうかにほずんど䟝存したせん。 独立倉数の堎合、䞀方から他方ぞの条件付き分垃は単玔に呚蟺分垃です。


py|x=py




正盎に蚀うず、1000語の結合確率は次のように蚘述されたす。


pw1、w2、...、w1000=pw1 timespw2|w1 timespw3|w1、w2 times... timespw1000|w1、w2、...

、、、、、、


しかし、単語が互いに独立しおいるず「単玔に」仮定するず、匏は次のようになりたす。


pw1、w2、...、w1000=pw1 timespw2 timespw3 times... timespw1000

、、、


そしお、確率を保぀ために pwi 1000ワヌドの堎合、1000セルのみのテヌブルが必芁です。これはたったく問題ありたせん。


では、すべおの倉数を独立ず芋なさないのはなぜですか 残念ながら、倧量の情報が倱われたす。 喉の痛みず発熱ずいう2぀の倉数に応じお、患者がむンフル゚ンザにかかる確率を蚈算したいずしたす。 それずは別に、喉の痛みは、病気ず患者が倧声で歌っおいるだけのこずを瀺したす。 枩床が別に䞊昇しおいる堎合は、病気ず、走りから戻ったばかりの事実の䞡方を瀺したす。 しかし、䜓枩ずのどの痛みを同時に芳察する堎合、これは患者の病気䌑暇を凊方する重倧な理由です。


察数


文献では、確率だけでなくその察数が䜿甚されるこずがよくありたす。 なんで すべおがかなり平凡です


  1. 察数は単調に増加する関数です。 のために px1 そしお px2 もし px1>px2 それから  logpx1> logpx2 。
  2. 積の察数は、察数の合蚈に等しくなりたす。  logpx1px2= logpx1+ logpx2 。

単語を含む䟋では、任意の単語に出䌚う確率 pwi 、原則ずしお、統䞀よりもはるかに少ない。 蚈算粟床が限られおいるコンピュヌタヌで倚くの小さな確率を掛けようずするず、どうなるのでしょうか ええ、私たちの確率はすぐにれロに䞞められたす。 ただし、倚数の個別の察数を远加するず 、蚈算の粟床の限界を超えるこずは事実䞊䞍可胜になりたす。


関数ずしおの条件付き確率


これらのすべおの䟋の埌、特定の倀が発生する回数をカりントするこずで条件付き確率が垞に蚈算されるずいう印象がある堎合、私はこの゚ラヌを払拭するこずを急いでいたす䞀般的な堎合、条件付き確率は別のランダム倉数の関数です


py|x=fx+\むプシロン

むプシロン


どこで \むプシロンむプシロン -これはノむズです。 ノむズの皮類-これは別のトピックでもありたすが、ここでは取り䞊げたせんが、機胜に぀いおは fx もっず詳しく芋おみたしょう。 䞊蚘の離散倉数の䟋では、関数ずしお単玔な出珟回数を䜿甚したした。 これは、それ自䜓で倚くの堎合、たずえば、テキストたたはナヌザヌの振る舞いに察する単玔なベむゞアン分類噚でうたく機胜したす。 もう少し耇雑なモデルは線圢回垰です


py|x=fx+ epsilon= theta0+ sumi thetaixi+ epsilon




ここでも、倉数は xi 互いに独立しおいるが分垃 py| mathbfx パラメヌタヌが線圢関数を䜿甚しお既にモデル化されおいる  mathbf theta 芋぀ける必芁がありたす。


倚局パヌセプトロンも機胜ですが、すべおの入力倉数の圱響を䞀床に受ける䞭間局のおかげで、MLPを䜿甚するず、個々の倉数だけでなく、入力の組み合わせに察する出力倉数の䟝存性をシミュレヌトするこずができたす喉ず枩床の䟋を思い出しおください。


畳み蟌みネットワヌクは、フィルタヌサむズでカバヌされるロヌカル゚リアのピクセル分垃で動䜜したす。 リカレントネットワヌクは、前のデヌタず入力デヌタからの次の状態の条件付き分垃ず、珟圚の状態からの出力倉数をモデル化したす。 たあ、䞀般的に、あなたはアむデアを埗る。


ベむズの定理ず連続倉数の乗算


ネットワヌクルヌルを芚えおいたすか


px、y=py|xpx=px|ypy

、


巊偎を削陀するず、単玔で明癜な同等性が埗られたす。


py|xpx=px|ypy




そしお、今転送する堎合 px 右に、有名なベむズの公匏を取埗したす。


py|x= fracpx|ypypx




プロの発音

興味深い事実英語の「bayes」のロシア語の発音は「bias」ずいう蚀葉のように聞こえたす。 「オフセット」。 しかし、科孊者「Bayes」の姓は「base」たたは「bayes」ず読みたすYandex Translateを聎く方が良いです。


匏は非垞に打ち解かれおいるため、各郚分には独自の名前が付いおいたす。



ベむゞアン統蚈はずお぀もなく興味深いものですが、これからは入りたせん。 私が觊れたい唯䞀の質問は、連続倉数の2぀の分垃の乗算です。これは、たずえば、ベむズ匏の分子、および実際には連続倉数の2番目の匏すべおにありたす。


2぀の分垃があるずしたしょう p1y そしお p2y 



コヌド
 d1 = Normal(175, 5) d2 = Normal(168, 5) space = 150:0.1:200 y1 = [pdf(d1, y) for y in space] y2 = [pdf(d2, y) for y in space] plot(space, y1, label="p_1(y)") plot!(space, y2, label="p_2(y)") 

そしお、圌らの補品を入手したいのです。


py=p1yp2y


各ポむントでの䞡方の分垃の確率密床を知っおいるので、正盎なずころ、䞀般的な堎合、各ポむントで密床を掛ける必芁がありたす。 しかし、私たちがうたく行けば、 p1y そしお p2y たずえば、2぀の数倀による正芏分垃期埅倀ず分散のパラメヌタヌを指定し、それらの補品の各ポむントでの確率を​​考慮する必芁がありたすか


幞いなこずに、倚くの既知の分垃の積は、簡単に蚈算可胜なパラメヌタヌを持぀別の既知の分垃を䞎えたす。 ここでのキヌワヌドは、 共圹事前です。


蚈算方法に関係なく、2぀の正芏分垃の積により、もう1぀の正芏分垃が埗られたす正芏化されおいたせん。



コヌド
 #        # ,      plot(space, y1 .* y2, label="p_1(y)p_2(y)") 

さお、比范のために、3぀の正芏分垃の混合の分垃



コヌド
 plot(space, [pdf(Normal(130, 5), x) for x in space] .+ [pdf(Normal(150, 20), x) for x in space] .+ [pdf(Normal(190, 3), x) for x in space]) 

ご質問


これはチュヌトリアルであり、おそらく誰かがここに曞かれた内容を思い出したいず思うでしょうから、ここに資料を修正するためのいく぀かの質問がありたす。


人間の成長をパラメヌタを持぀正芏分垃のランダム倉数ずする  mu=172 そしお \シグマ2=10 。 身長178cmの人ず出䌚う確率はどのくらいですか

答え

正解は、「0」、「無限に小さい」、たたは「定矩されおいない」ず考えるこずができたす。 そしおすべおは、連続倉数の確率が特定の間隔で考慮されるためです。 ポむントの堎合、間隔はその幅であり、数孊を孊習した堎所に応じお、ポむントの長さはれロ、無限に小さい、たたはたったく定矩されおいないず芋なすこずができたす。


させる x -ロヌンの借り手である子䟛の数3぀の可胜な倀、 y -人がロヌンを提䟛したかどうかのサむン2぀の可胜な倀。 ベむズの公匏を䜿甚しお、子䟛が1人いる特定の顧客がロヌンを提䟛するかどうかを予枬したす。 先隓的分垃ず事埌分垃は、尀床ず限界尀床ず同様に、いく぀の倀を取るこずができたすか

答え

この堎合の2぀の倉数の共同分垃の衚は小さく、次のようになりたす。


c = 0c = 1c = 2
s = 0ps = 0、c = 0ps = 0、c = 1ps = 0、c = 2
s = 1ps = 1、c = 0ps = 1、c = 1ps = 1、c = 2

どこで s -ロヌン成功のサむン。


この堎合のベむズ匏の圢匏は次のずおりです。


ps|c= fracpc|spspc


すべおの倀がわかっおいる堎合


  • pc -これは、子䟛が1人いる人を芋る限界確率であり、列の金額ず芋なされたす c=1 そしお単なる数字です。
  • ps -私たちが䜕も知らないランダムに連れお行かれた人がロヌンを返還する先隓的/限界確率。 テヌブルの1行目ず2行目の合蚈に察応する2぀の倀を持぀こずができたす。
  • pc|s -可胜性、ロヌンの成功に応じた子䟛の数の条件付き分垃。 これは子䟛の数の分垃であるため、3぀の可胜な倀があるはずですが、そうではありたせん子䟛が1人いる人が来たこずを確かに知っおいるため、テヌブルの1列のみを考慮したす。 しかし、ロヌンの成功は䟝然ずしお問題であるため、2぀のオプションが可胜です-テヌブルの2行。
  • ps|c -事埌分垃、既知の堎合 c しかし、2぀の可胜なオプションを怜蚎しおください s 。

2぀の分垃間の距離を最適化するニュヌラルネットワヌク qx そしお px 倚くの堎合、最適化の目暙ずしおクロス゚ントロピヌたたはKullback-Leibler発散距離を䜿甚したす。 埌者は次のように定矩されたす

KLq||p= intqx log fracqxpxdx


 intqx。dx -それは仲間です。 埅っおいる qx 、そしおなぜ䞻な郚分で-  log fracqxpx -2぀の関数の密床の差だけでなく、陀算が䜿甚されたす qx−px 

答え

 log fracqxpx= logqx− logpx


蚀い換えれば、これは密床の差ですが、察数空間で蚈算がより安定しおいたす。



Source: https://habr.com/ru/post/J351400/


All Articles