または:P値の公開から尤度関数の公開への移行は、再現性の危機(Eliezer Yudkovskyの個人的な意見)への対処にどのように役立ちますか。翻訳者のコメント:HPMORの著者、 Lesswrongおよびその他の著者であるYudkowskyは、自然科学におけるベイジアン統計の利点に関する立場を対話の形で表明しました。 そのような対話は、古代またはルネサンスの古典であり、登場人物はアイデアを表現し、バーブを絡み合った議論と必然的に愚かなシンプリツィオと共有します。 対話は非常に長く、読むのに約20分かかりますが、私の意見では価値があります。免責事項- この対話は、ベイジアン支持者によって書かれました 。 以下のダイアログでの科学者の発言は、 チューリングの熱狂主義のイデオロギーテストに合格しない場合があります。 彼らは、確率への頻度アプローチの支持者の議論と反論に敬意を払わない可能性があります。
- 著者は、以下に説明する提案が今後10年間で幅広い科学界に受け入れられるとは考えていません。 しかし、書く価値はありました。
ベイジアン規則に詳しくない場合は、アービタルのWebサイトに
詳細な紹介があります。
モデレーター:こんばんは。 今日、私たちのスタジオで:
科学者 、化学心理学などの分野の専門家を練習しています。 科学の再現性の危機をP値をベイジアン統計の何かで置き換えることで、どうにかして克服できることを証明しようとする相手の
Bayesovets ...
学生:すみません、つづりはどうですか?
モデレーター: ...そして、最後に、私の右の理解の学生。
モデレーター:Bayesovets 、最初にあなたの提案の本質を教えてください。
Bayesovets:大まかに言って、ポイントはこれです。 コインがあるとしましょう。 私たちはそれを6回投げて、シリーズ「LLCOOR」を観察し
ます(およそ:Per .:以降O-Oryol、R-Reshka) 。 コインに何か問題があると疑うべきですか?
科学者:なし。
Bayesovets:ここのコインはほんの一例です。 ボランティアのサンプルに、2つのCookieを含むプレートを提供するとします。1つは緑のスプリンクル、もう1つは赤です。 最初の5人は緑のクッキーを取り、6人目は赤のクッキーを取ります。 人々が緑の振りかけるクッキーを好むというのは本当ですか、それともそのような結果はランダムと見なされる方が良いのでしょうか?
学生:おそらく、人々は緑の散水を好むのではないかと
疑う可能性があります。 少なくとも、緑色のスプリンクルのような奇妙な実験に志願する傾向のある心理学の学生は多い。 6回の観察の後でも、これを疑うことができますが、ある種の捕獲があると思われます。
科学者:これは疑わしいとは思いません。 多くの仮説はN = 6で有望に見えますが、N = 60では確認されません。
Bayesovets:個人的には、私たちのボランティアは
赤いトッピングを好まないか、少なくともあまり
好まないと思うでしょう。 しかし、一般に、これらの例は、P値が現代の科学統計でどのように考慮されているか、そしてベイズの観点からそれらの何が間違っているかを示すためだけに思いつきました。
科学者:しかし、30人のボランティアでより現実的な例を思いつくことはできませんか?
Bayesovets:可能ですが、生徒は
すでに何も理解し
ていません。
学生:それは確かです。
Bayesovets:だから、親愛なる専門家:ワシ、ワシ、ワシ、ワシ、ワシ、尾。 重要なのは、この結果を「統計的に有意」と呼ぶかどうかです。
科学者:マスター、これは重要ではありません。 コインが公正であるという帰無仮説(またはスプリンクルの色がクッキーの選択に影響を与えないという同様の帰無仮説)では、64のケースのうち14で同じまたはより顕著な結果が得られます。
学生:うん。 私は正しく理解しています。これは、LLCOOOとRRORRRの結果が「同じかそれ以上に顕著」であると考えているためです。合計14回あり、6スローの結果の合計数は2
6 = 64です。 14/64は22%であり、5%よりも高いため、結果はp <0.05のレベルでは有意とは見なされません。 だから?
科学者:そうです。 また、実際には、LLCOOOの結果であっても、実験を中止して、ワシによって常にコインが脱落するという事実に関する記事を書くべきではないことに注意してください。
Bayesovets:事実、いつでもコインを投げるのを
止めることができるなら、あなたは自問する必要があります:「ワシの数が公に見える実験を止めるそのような瞬間を見つける可能性はどれくらいあるでしょうか?」そしてこれはP値パラダイムですまったく異なる話。
科学者:私は6つの実験だけを意味しました-クッキーの色を研究しても、これは深刻ではありません。 しかし、はい、あなたも正しいです。
学生:どうしてそれが重要なのですか、コインを投げるのをやめることができますか?
Bayesovets:すばらしい質問です。
科学者:実際、P値は複雑なものです。 数字を取得してプログラムに入れ、このプログラムが提供するものを公開することはできません。 コインを正確に6回フリップし、結果に関係なく停止することを事前に決定した場合、LLCOOOまたはRRRRRRの結果は64回のうち平均2回、またはケースの3.1%で取得されます。 これはp <0.05で重要です。 しかし、あなたが実際に欺ce的で不cru慎な偽造者であると仮定します。 または、自分が何をしているかを理解していない無能な学生。 ロールの数を事前に選択する代わりに、統計的に有意な結果が得られるまでコインを投げます。 コインをまったく同じ回数投げることを前もって決めた
場合、統計的に重要
です 。 しかし、実際には、事前にこれを決定していません。 結果が得られてから停止することにしました。 これはできません。
学生:さて、どこかで読んだのですが、ここで何が悪いのか理解できませんでした。 これは私の研究であり、十分なデータがあるかどうかをよく知る必要があります。
科学者: P値の要点は、帰無仮説が合格しないというテストを作成することです。 言い換えれば、火のない煙があまり一般的でないことを確認します。 これを行うには、目的の現象がない場合に「統計的に有意な」発見を生成しないように研究を整理する必要があります。 コインを正確に6回ひっくり返す(そしてこの数を事前に決定する)場合、フェアコインから6個のワシまたは6個の尾を得る確率は5%未満です。 コイン
を好きなだけ投げて、各投げの後にP値を数えた場合(ロールの数が事前にわかっている
ふりをしている場合)、遅かれ早かれp <0.05未満になるチャンス
は 5%を
はるかに超えます。 したがって、このような実験では、20ケース中1ケースよりもはるかに頻繁に火災のない煙が検出されます。
Bayesovets:個人的には、この問題を次のように定式化するのが好きです。コインを投げて、OOOOORを獲得したとしましょう。 同時にあなたがアッラーにのみ知られている心の奥深くにいるなら(アッラーは賢明であり、知っている)
、事前の投げの数で、結果は重要ではありません。 p = 0.22 3か月後、セントフランシスに誓いを立てて
尾が抜けるまでコインを投げた場合、この結果は統計的に有意であり、p = 0.03が非常に良好です。 確率が1の場合、1テールは1/32の6回以上のスローを待つ必要があるためです。
学生:何?
科学者:もちろんパロディのようなものです。 実際には、1つの尾が描かれるまで誰もコインを投げません。 しかし、実際にはBayesovetsは正しいです。P値はそのように機能します。 厳密に言えば、得られる結果の中で結果がどれほどまれであるかを見つけようとしています。 最初の尾の前にコインを投げる人は、結果を得ることができます{P、OR、OOR、LLC、OOOR、LLCOOR ...}など。 6回以上のショットが行われる結果のクラスは{LLCOOOR、LLCOOOR、LLCOOOOR ...}であり、その合計確率は1/64 + 1/128 + 1/256 ... = 1/32です。 そして、コインを正確に6回投げた人は、クラス{、、、...}の結果の1つを受け取ります。 実験の目的上、LLCOOORはLLCOROやLLCOROOなどと同等です。 そのため、これらはすべて直感に反します。 最初の実験を実際に行った場合、LLCOORは重要な結果になり、正直なコインではありそうにありません。 2番目の実験を実施する場合、LLCOORは重要ではありません。正直なコインを使用し
ても、同様のことが時々発生するからです。
Bayesovets:実験の結果があなたの考えに依存しているという事実に悩まされることがありますか?
科学者:これは良心の問題です。 結果についてうそをつく、つまり、コインがどちらの側に落ちたかについて文字通りうそをつくなら、どんな種類の研究でも費用はかかりません。
どのような実験が行われたかについてうそをつくと-効果は同じになります。 だから、あなたはそれを受け取って、どのルールでスローが行われたかを正直に言う必要があります。 もちろん、科学者の頭の中身は、コインがどちらの面にあるかよりも明白ではありません。 したがって、被験者の数がどのように決定されたかを記述するのではなく、分析パラメーターを微調整することは常に可能であり、お気に入りの仮説を確認する統計的検定を選択します...あなたが望むなら多くのことが考えられます。 また、ソースデータを改ざんするよりも簡単です。 英語では、これはPハッキングと呼ばれます。 そして実際には、もちろん、事実の後に発明された愚かな帰無仮説よりもはるかに少ない方法で火を使わずに煙を生成します。 これは深刻な問題であり、再現性の危機がある程度関連していますが、どの問題かは明確ではありません。
学生:これは...合理的ですか? おそらくこれはあなたが長い間対処し、多くの例を整理する必要があるものの1つであり、その後すべてが明らかになりますか?
Bayesovets:なし。
学生:つまり?
Bayesovets: 「学生、あなたは最初から正しかった」という意味で。 実験者が
考えるものが、コインがどちらの側に落ちるかに影響しない場合、彼の考えは、投げの結果が宇宙について教えてくれるという事実に影響を与えるべきではありません。 私の親愛なる学生、あなたに教えられる統計は、あなたが内部的に一貫性を保つことさえ気にしていない、曲がった松葉杖の過度に複雑な束にすぎません。 天国のために、彼女はあなたの頭で何が起こっているかに応じて
異なる間違った結果を出します! そして、これは一部の科学者が「材料と方法」を少しだまそうとする傾向よりもはるかに深刻な問題です。
科学者:これは...控えめに言っても深刻な声明です。 しかし、教えてください、私はあなたに尋ねます:不幸なことに、私たちは何をしますか?
Bayesovets:次のように分析します
。LLCOORのこの特定の結果は、1/64または約1.6%の確率で、完全にバランスの取れたコインを6回投げることで取得できます。 コインのバランスが不完全であるとすでに疑っていたとします。 そして不完全であるだけでなく、6回のうち平均5回ワシを落とすような方法で。 これは、もちろん単純な単純化ですが、少し後で現実的な仮説に進みます。 したがって、この仮想の不正なコインは、(5/6)
5 *(1/6)
1の確率でLLCOORシーケンスを生成します。 これは約6.7%です。 したがって、2つの仮説があります。「コインは最も一般的です」と「コインは5/6ケースでワシによって落とされます。」 2番目のケースのこの特定の結果は、最初のケースの
4.3倍の可能性があります。 別の仮想の不正なコインのLLCOORシーケンスの確率は、6個のうち5個がテールである場合、0.01%です。 だから誰かが突然、これが私たちの目の前にある2番目のコインだと思ったら、彼の仮説に反論することができます。 この特定の結果は、6回のうち1回だけイーグルによって落とされるコインよりも、公正なコインの方が146倍高い可能性があります。 同様に、私たちの仮想の赤いクッキー愛好家は、緑を食べる可能性がはるかに低いでしょう。
学生:さて、私は数学を理解しているようです。 しかし、率直に言って、その意味がわからない。
Bayesovets:これから説明しますが、まず、これに注意してください。私の計算の結果は
、コインが正確に6回反転した
理由に依存しません。 たぶん、6回目の投球の後に、データがすでに十分であると判断したかもしれません。 5回連続で投げた後、
Namagiri Tayyarが夢の中であなたに現れて、もう一度コインを投げるようにアドバイスしました。 コインは気にしません。 事実は残っています。この特定のLLCOORシリーズは、イーグルによって6回のうち5回落とされるコインよりも正直なコインの方が4倍少ない可能性があります。
科学者:あなたの計算の少なくとも1つの有用な機能があることに同意します。 次は?
Bayesovets:そして、結果を雑誌に掲載します。 誰でも仮説の可能性を計算できるため、生データと一緒に使用することが望ましいです。 誰かが「コインが6のうち5倍ではなく10から9倍落下する」という仮説に予期せず興味を持ったとしましょう。この場合、LLCOOR観測シリーズの確率は5.9%で、これは6投からの5についての仮説よりわずかに低いです(6 、7%)が、コインのバランスが完全に保たれているという仮説の3.7倍(1.6%)です。 すべての可能な仮説を事前に考え出すことは不可能であり、必要ではありません。 完全なデータを公開するだけで十分です。仮説を立てれば誰でも簡単に必要な可能性を計算できます。 Bayesianパラダイムでは、生データの公開が必要です。これは、主に
特定の結果に焦点が当てられており、同一の結果と思われるクラスに焦点が当てられていない
ためです。
科学者:これに同意します。完全なデータセットの公開は、再現性の危機を克服するための最も重要なステップの1つです。 しかし、個人的には、これらすべての「AはBよりも何倍も可能性が高い」をどうすればよいかわかりません。
学生:私も。
ベイジアンの男:これは完全に些細なことではありません...
ベイズのルールの紹介を読んでいますか?
学生:すばらしい。 統計のもう300ページの教科書がここにありますが、私は十分ではありませんでした。
Bayesovets: 1時間で実際に
読む ことができます。 これはすべて文字通り
些細なことでは
ない 、つまり説明が必要
なだけです。 しかし、わかりました、完全な紹介がないので、私は何かを考えようとします。 ほとんどの場合、これは合理的に
聞こえます -そして、ロジックは
本当に正しい-しかし、自明な事実ではありません。 行こう 次の推論の正しさを証明する定理があります。
(ベイジアンは空気を得ています)Bayesovets:教授のPlumeとMiss Scarletは殺人の疑いがあるとしましょう。 両方の伝記を研究したので、教授が男性を殺すのはミススカーレットの2倍簡単だと思います。 この仮定から始めます。 しかし、故人は毒殺されていたことがわかりました。 プルーム教授が誰かを殺そうとする場合、彼は10%の確率で毒を使用することを知っています(そして、10の中で9の場合、例えばリボルバーを好むでしょう)。 ミススカーレットは、彼女が殺すことに決めた場合、60%の確率で毒を使用します。 言い換えれば、教授による毒の使用は、ミス・スカーレットの毒の使用よりも
6倍少ない可能性があります。 新しい情報、つまり殺人の方法があるため、仮定を更新し、Plumeがキラーになる可能性が約3倍低いと仮定する必要があります:2 * 1/6 = 1/3。
学生:わかりません。 「教授プルームは、ミス・スカーレットよりも殺す可能性が3倍少ない」というフレーズはどういう意味ですか?
Bayesovets:他に容疑者がいない場合、犠牲者を殺したのはPlumeである確率は1/4であることを意味します。 残りの3/4は、キラーがスカーレット嬢である確率です。 したがって、教授の罪悪感の確率は、ミス・スカーレットの罪悪感の確率の3分の1です。
科学者:そして今、私はあなたが「罪悪感の可能性」とはどういう意味か知りたいです。 プルームは殺人を犯したか、彼が犯さなかった。 私たちは殺人のサンプルを見ることができず、Plumeが彼らの4分の1を本当に担当していることがわかります。
Bayesovets:私はそれに入らないことを望んでいましたが、まあまあです。 私の良き科学者よ、もしあなたが私にプルームが犠牲者を殺したかどうかについての賭け1:1で賭けを提供したならば、私は彼がそうしなかったと賭けるでしょう。 しかし、賭け金の条件の下で、彼の無実の場合に1ドルを支払い、彼の罪の場合に5ドルを支払うなら、私は喜んで責任を負います。 2012年の大統領選挙は一度だけ行われ、オバマの勝利のチャンスは、プルームの罪悪感のように概念的に明確ではありません。 しかし、11月7日にオバマに10ドルを賭け、彼が勝った場合は1000ドルを約束するとしたら、そのような賭けを拒否することはほとんどありません。 一般に、予測市場と大規模なリキッドベットプールが、あるイベントで6時4分にベットする場合、このイベントはケースの約60%で発生します。 市場とプールは、この範囲の確率で
十分に調整されています。 それらのキャリブレーションが不十分な場合、つまり、ケースの80%で6:4のベットを受け入れるイベントが発生した場合、誰かがこれに気付き、そのようなベットのために金持ちになる可能性があります。 同時に、市場が適切に調整されるまで、彼はレートの価格を引き上げます。 市場確率の推定値が70%のイベントは実際には10回のうち約7回発生するため、そのような確率が意味をなさないと主張する理由がわかりません。
学生:納得できそうですね。 しかし、確かにそれは私には思えます。実際、賛否両論のargumentsな議論がたくさんあります。
Bayesovets: 本当に たくさんの議論が
ありますが、それからの一般的な結論は、あなたの直観が真実にかなり近いということです。
科学者:さて、私たちはそれに戻ります。 しかし、2つのエージェントがあり、両方とも「よく調整されている」が、そのうちの1つが「60%」、もう1つが「70%」だとしたらどうでしょうか。
Bayesovets:コインを投げて、どちらが落ちたのか見ていないとしましょう。 この場合、私の無知はコインに関する情報ではなく、これは私の情報です。 地図上の白い斑点がこの場所に領土がないことを意味しないように、それは周囲の世界ではなく頭に存在します。 あなたがコインを見たが、私がそうしなかった場合、あなたと私がそれについて異なる不確実性の状態にあることは非常に合理的です。 私が100%確信がないので、確率の観点から不確実性を表現するのは理にかなっています。 誰かの不確実性の表現が実際に確率分布では
ない場合、一般に、それが必要であると述べる
約300の定理があります。 何らかの理由で、エージェントが不確実性の条件で思考が確率理論の標準公理のいずれかに違反すると、地球が開き、水が血に変わり、支配的な戦略と明らかに失われた賭けが天から注がれることが常に起こります。
科学者:さて、ここで私は間違っていました。 これにも戻りますが、まず、私の質問に答えてください。受け取った後、信頼性をどうすればよいでしょうか?
Bayesovets:確率論の法則によれば、これらの妥当性
は証拠です。
プルームに有利な2:1からスカーレットに有利な3:1に私たちの先験的確率を変えるのは彼らです。 2つの仮説と両方のデータの可能性がある場合、上記のように考えを変える必要があります。何らかの方法で変更すると、天が開き、戦略が注ぎ込まれます。ベイズの定理:これは単なる統計的手法ではなく、法律です。学生:すみませんが、まだわかりません。実験を行っているとします。そして、たとえば、プルーム教授が彼女の劇団を殺した場合、彼女がミススカーレットの殺人犯だった場合よりも、得られる結果は6倍高い可能性があります。教授を逮捕するかどうか?科学者:まず第一に、あなたは多かれ少なかれ現実的なアプリオリ確率を考え出す必要があると思います。例えば、「アプリオリ、トループプルームを殺す確率は20%だと思います」。次に、6:1の尤度比を乗算し、プルームが一団を殺した事後確率の比3:2を取得する必要があります。そうすると、Plumeは60%の確率で有罪であると言えます。検察庁はそれを理解する必要があります。Bayesovets: なし。天国のために!ベイジアン統計はそのように働くと本当に思いますか?科学者:それは間違って動作しますか?私は常に、その主な利点は、P値が実際に与えない事後確率を与えることであり、主な欠点は、このためにアプリオリ確率が必要であることであると信じていました。それらは天井から多かれ少なかれ取らなければならないので、事後確率の正しさは時間の終わりまで議論される可能性があります。Bayesovets:記事は信頼性を公開する必要があります。より正確には、生データを公開し、興味のあるいくつかの妥当性を計算する必要があります。しかし、確かに事後確率ではありません。学生:私は再び混乱しています。事後確率とは何ですか?Bayesovets:事後 確率-これは、「60%の確率でHerr TroupeがPlume教授によって殺された」という声明です。私の同僚がすでに指摘したように、このようなステートメントはP値からは続きません。そして、私の意見では、これらは実験結果ではないので、実験記事には掲載されません。学生:しかし...わかりました、科学者、あなたへの質問:p <0.01の結果が得られたとしましょう。つまり、「プルーム教授はHerr Troupeを殺さなかった」という帰無仮説で1%未満の確率を持つものです。彼を逮捕すべきかどうか?科学者:まず、これは現実的な帰無仮説ではありません。ほとんどの場合、帰無仮説は、「誰も彼女の集団を殺したことはない」または「すべての容疑者は等しく有罪である」というようなものになるでしょう。しかし、あなたが説明した帰無仮説が働いたとしても、p <0.01でPlumeの無実を拒否できたとしても、Plumeが99%の確率で有罪であると言うことはできません。 P値はこれを教えてくれません。学生:そしてそれ彼らはその後、報告?科学者:観測されたデータは可能な結果のクラスの一部であり、帰無仮説が真である場合、このクラスの結果は1%未満のケースで観測されると報告しています。より多くのP値は何も意味しない。 p <0.01から「教授Plumeは99%の確率で有罪」に移行することはできません。おそらく私よりもベイジアンがその理由を説明できるでしょう。一般に、科学では、あるものを別のものとして解釈することは不可能です。数字はそれらが意味するものを正確に示し、それ以上でもそれ以下でもありません。学生:一般的に優れています。最初、私はもっともらしさをどうするか理解していませんでしたが、今はまだP値をどうするかわかりません。プルームを最終的に刑務所に送るにはどのような実験が必要ですか?科学者:実際には?他の実験室でさらに2、3の実験でp <0.01の罪悪感を確認した場合、彼は本当に有罪である可能性が高いです。Bayesovets:「再現性の危機は、」 -問題が提起され、後でそれが彼がなかったことが判明したときにこれはない殺人を犯します。科学者:ええ、はい。学生:どういうわけか不快になります。科学者:人生は一般的に不快なものです。学生:だから... Bayesovets、あなたはおそらく同様の答えを持っていますか?尤度比が十分に大きい場合、たとえば100:1である場合、実際には、対応する仮説を真と見なすことができますか?Bayesovets:はい。ただし、やや複雑です。コインを20回投げて、OOOOOOROOOROROROOOOOOOOOORORを取得するとします。キャッチは、「コインがシーケンスLLCOROOORORORROOOOOOORORORを与えることが保証されている」という仮説の可能性が、仮説「コインはワシまたは尾によって同様に蓋然性がある」の可能性よりも約100万回高いということです。実際には、実験の開始前に封印された封筒でこの仮説を渡さなかった場合、高度に再訓練されたと考えます。シーケンスの記述だけでも20ビットかかるため、この仮説に少なくとも 2 20:1の複雑さのペナルティを与える必要があります。言い換えれば、尤度の利点を補う以上にアプリオリ確率を下げます。そして、これが唯一の落とし穴ではありません。しかし、それでも、ベイズルールがどのように、なぜ機能するかを理解すれば、特定のケースごとにその過程で理解できます。 Plumeの妥当性比が他の容疑者1000:1に対するものであり、容疑者が6人しかない場合、彼が殺人者であるという事実に対する先験的確率は10:1をはるかに超えていなかったと想定できます。もしそうなら、99%の確率で彼が有罪であると仮定できます。科学者:しかし、それでも、記事に書く価値はないのですか?Bayesovets:そうです。どのように定式化するか...ベイジアン分析の重要な条件は、すべてが関連情報。気に入らないという理由だけで、データを分析から除外することはできません。これは、使用される統計に関係なく、実際に科学の重要な条件です。いくつかの記事があり、それらの結論は、いくつかの要因が考慮されなかったか、サンプルがいくつかのパラメーターで代表的ではなかったためにのみ得られました。私は何について話しているのですか?そして、(実験者として)どのようにして「すべての関連情報」が何であるかを知ることができますか?事後確率を計算するのは誰ですか?誰かが私が考慮すべき追加のデータと追加の信頼性がある記事を公開したかもしれませんが、私はまだそれを読んでいません。ですから、データと尤度関数を公開するだけです-それだけです!私はすべてを考慮したと主張することはできません引数と今私は信頼できる事後確率を提供することができます。たとえできたとしても、1週間後に別の記事が出てくる可能性があり、これらの確率は時代遅れになります。学生:大まかに言って、実験者は自分のデータを公開し、それらのいくつかの妥当性を計算するだけでよいのですが、それだけですか?そして、それから他の誰かがそれらをどうするかを決定するでしょうか?:Bayesovets等しい、または最大エントロピーと、または困難に対する罰則、あるいは任意の- -誰かが事前確率を選択する必要があります、結果はことを確認してください、可能性を計算するために可能なすべてのデータを収集しようとクレイジーではない、と他とその他。また、1週間以内に新しい記事がリリースされた場合は、まだカウントする必要があります。学生:かなり時間がかかりそうですね。Bayesovets: P値のメタ分析を行うと、さらに悪化します。ベイジアン確率の更新ははるかに簡単です。古い事後確率に新しい尤度関数を掛けて正規化するだけで十分です。それだけです
実験1が仮説AとBの尤度比4:1を与え、実験2がそれらに9:1の尤度比を与える場合、それらは一緒に36:1の比を与えます。 以上です。
学生: P値でこれを行うことはできませんか? p = 0.05の1つの実験とp = 0.01の別の実験は、実際にはp <0.0005を意味しませんか?科学者: なし。Bayesovets:親愛なる視聴者、私のmy 慢な笑顔に注意してください。科学者:しかし、先験的な確率を考え出す必要性についてはまだ心配しています。Bayesovets:そして、誰もが1つの実験と、p <0.01が真実の基準である2つの複製を検討することに決めたという事実よりも、なぜあなたを悩ますのですか?科学者:先験的な値の選択は、P値の解釈ほど主観的ではないと言いたいですか?ふむ
たとえば、p <0.001の要件が客観性を保証する必要があると述べたいと思いました。しかし、その後、あなたは(0.1または1e-10の代わりに)0.001という数字が同様に指から吸い込まれると答えます。Bayesovets:さらに、任意のP値を要求する方が、同じ指から事前確率を吸い出すよりも効率が悪いことを付け加えます。エジプトの罰を伴う確率の公理の違反者を脅かす最初の定理の1つは、1947年にアブラハムウォルドによって証明されました。彼はすべての受け入れられる戦略を説明しようとし、あなたが観察していることに反応する戦略を何らかの方法で呼び出しました。もちろん、さまざまな状況下でのさまざまな戦略は、多かれ少なかれ収益性があります。許容可能な戦略彼はすべての可能な条件の下で他の戦略によって支配されていないものを呼び出しました。そのため、Waldは、許容可能な戦略のクラスが確率分布を含む戦略のクラスと一致し、ベイジアン規則による観測に基づいて更新し、効用関数を最適化することを発見しました。学生:すみません、ロシア語を話せますか?Bayesovets:あなたが観察していることに関連して何かをし、多かれ少なかれ、例えばお金を得るなら、現実世界が何であるかに応じて、2つのうちの1つは真実です。いずれかのいくつかの意味であなたの戦略は、確率分布が含まれており、ベイズルールにそれを更新したり決してあなたに屈することなく、時にはそれを上回る戦略がいくつかあります。つまり、たとえば、「喫煙とがんの関係を証明する記事がp <0.0001で表示されるまで喫煙をやめません」と言います。少なくとも理論的には、「私の意見では、喫煙とがんの関係は0.01%の確率で存在します。あなたのもっともらしさは何ですか?」、そのような接続の確率が先験的に存在したとしても、それは最初の定式化より悪くありません。科学者:本当ですか?Bayesovets:うん。ベイジアン革命はこの定理から始まりました。それ以来、徐々に勢いを増しています。 WaldがP値の発明から数十年後に彼の定理を証明したことは注目に値します。これは、私の意見では、すべての現代科学が明らかに非効率的な統計に結びついていることが判明した理由を説明しています。科学者:それでは、P値を捨てて、代わりに尤度関係のみを公開することを提案しますか?Bayesovets:要するに、はい。科学者:どんな条件にも適した理想的なソリューションを本当に信じていないこと。私はあなたを理想主義者だと思う-please辱とは思わないでください。私の経験では、さまざまな状況でさまざまなツールが必要であり、1つを除いてすべてを捨てるのは不合理です。Bayesovets:さて、私は私が理想主義者であるものとそうでないもので説明する準備ができています。尤度関数だけでは、再現性の危機を解決することはできません。より効果的な統計を使用するように全員に単純に命令するだけでは、完全に解決することはできません。オープンアクセス雑誌の人気は、尤度とP値の選択に依存しません。レビューシステムの問題もそれとは無関係です。科学者:そして、他のすべて、それは依存しますか?Bayesovets:ないすべてのものが、彼らは何をたくさん持って助けにします。数えましょう。
Bayesovets:まず第一に。尤度関数は、「統計的に有意な」結果と「有意でない」結果の区別を強制しません。実験の結果を「ポジティブ」または「ネガティブ」にすることはできません。帰無仮説と呼ばれるものは、仮説の1つに過ぎず、原則として他のすべての仮説と変わりません。コインを投げてOORORRROOOを取得した場合-実験が「p <0.05で帰無仮説を拒否」または「以前に取得した結果を再現」できなかったとは言えません。彼は、3.75の尤度比を持つ「5/6イーグルス」仮説に対する正直なコイン仮説をサポートするデータを追加しました。したがって、ベイジアン統計の大規模な採用により、そのような実験の結果はテーブルに送信されにくくなります。まったくない雑誌の編集者は正直なコインよりもまだ面白い結果を持っているので、これに直接対処しなければなりません。しかし、P値はこのアプローチに苦労しているだけでなく、刺激する! p-ハッキングが一般的に存在するのは彼のためです。したがって、信頼性への移行は、誰にでも幸福をもたらすわけではありませんが、間違いなく役立ちます。Bayesovets:第二に。尤度システムは、ソースデータの重要性をより強調し、可能な場合は常に公開を促進します。これは、ベイジアン分析が特定のモデルにおけるこれらの特定の結果の可能性に基づいているためです。それどころか、P値システムは、研究者に、データを「同等に極端な」結果のクラスのメンバーの1つにすぎないと見なすことを強制します。一部の学者は、貴重なデータをすべて一緒に保管したいと考えています。統計だけではありません。しかし、P値は刺激しますこれは、データ自体は記事にとって重要ではなく、特定のクラスの一部であるかどうかによるものです。これが確立されると、それらに含まれるすべての情報は、「重要」または「重要でない」単一ビットに崩壊するようです。Bayesovets:第三に。確率論の観点から、ベイジアンの観点から、効果のサイズが異なると仮説が異なります。異なる尤度関数とそれに対応して観測データの異なる確率が対応するため、これは論理的です。 1つの実験で0.4の効果値が見つかり、別の実験で0.1の同じ効果の「統計的に有意な」値が見つかった場合、実験は再現しませんでした何が本当にあるのか分かりませんこれにより、「統計的に有意な」効果の大きさがサンプルサイズの増加に伴って減少および減少するかなり一般的な状況が回避されます。Bayesovets: 4番目。信頼性関数は、データの集約とメタ分析を大幅に簡素化します。それらは、データが不均一な条件下で収集されていることや、真の仮説を考慮していないことに気付くのに役立つ場合があります。この場合、考えられるすべてのパラメーターに対してすべての関数がゼロに近くなるか、最良の仮説により、結合されたデータ自体が予測するよりもはるかに低い可能性が得られます。再現性へのより厳密なアプローチにより、そのような実験がそのようなものの繰り返しと見なすことができるかどうかをすばやく理解できます。Bayesovets: 5番目。尤度関数は、彼らが考えていることに依存しません。これらは、データに関する客観的な記述です。尤度値を公開する場合、読者をだます方法は1つしかありません。データ自体を改ざんする方法です。 Pハッキングは機能しません。科学者:まあ、私はそれを強く疑います。実際、それは正直ですが、ワシによってコインがより頻繁に落とされることをあなたに納得させると決めたとします。コインを受け取り、偶然にイーグルをもう少し手に入れるまで投げてから、停止します。それで何?
Bayesovets:どうぞ。データを改ざんしなければ、私をだますことはありません。科学者:問題は、投げるたびに尤度比をチェックし、お気に入りの理論を裏付けるとすぐに停止するとどうなるかということでした。Bayesovets:確率論の欺 probability的な美しさに魅了された理想主義者として、私はあなたに答えます:あなたは私に正直な生データを与えますが、私は1つのことしかできません-ベイジアンのルールに従って乗算します。科学者:本当ですか?Bayesovets:まじで。科学者:それで、好きになるまで尤度比をチェックできるかどうか気にしませんか?Bayesovets:どうぞ。科学者:わかったそれから、Pythonで、たとえば300回までのコインフリップをシミュレートするスクリプトを作成し、「コインがケースの55%でワシによって落とされる」という仮説を支持して、20:1の比率を獲得できる頻度を確認します。Bayesovets:はい、面白い偶然です。私はそれについてすべてを発見し、尤度関係がトリッキーな方法でだまされないことを疑ったとき、私は同じプログラムをPythonで書いた。その後、私の友人も尤度関係について知り、Pythonで何らかの理由で同じプログラムを書いた。彼はそれを開始し、55%イーグルス仮説の20:1の比率がキャストシリーズの1.4%で少なくとも1回見つかったことを発見しました。たとえば、30:1または50:1を要求する場合、周波数はさらに速く低下します。科学者:あなたが1.5パーセントのP値を考慮すれば、それはよさそうです。しかし、これは分析をだます非常に失礼な方法です。おそらくもっと複雑で効率的ですか?Bayesovets:私は...約5歳でした。私の最も初期の思い出の一つ。私は座って、3から5を追加し、8にならないようにいくつかの方法を考え出そうとしました。これはもちろん、加算(および数学全般)を理解するための非常に素晴らしく一般的に重要なステップです。しかし、これはまさにかわいいものです。私たちは大人であり、5プラス3は必然的に8に等しいことを理解しているからです。絶えず尤度比をチェックするスクリプトは、子供の頃と同じことをします。理論を理解し、ベイズのルールをだまそうとするのは明らかであることに気づきました運命。 3をトリッキーな方法で2と1に分解し、それらを個別に5に追加するか、最初の1を追加してから2に追加しようとするようなものです。加算の結果は定理であり、実行する操作の順序は関係ありません。 3から5を加算するのと本当に等しい場合、出力は8以外になりません。確率論の定理も定理です。スクリプトが実際に機能する場合、これは、確率理論の矛盾を意味し、したがって、有理数を使用した確率分析が基づくペアノ算術の矛盾を意味します。あなたと私がしようとした- 正確に算術の標準公理学で3と5を追加して7を得るのと同じくらい難しい。学生: E、なぜ?科学者:私も理解していません。ベイジアン:eが観測を表し、Hが仮説を表し、!Xが「not X」を表し、P(H)が仮説の確率を表し、P(X | Y)が X の条件付き確率を表します(Yが真の場合)。P(H)= P(| E H * P()E))+(P(H!| E)(* P !eは)その結果、確率関数のためにそこに何もありませんベイズのエージェントに知られている手順は、意図的に間違った方向に彼のアプリオリ確率を更新することを強制しないため、データの改ざんを含まないpハッキングの任意に複雑な類似物。私たちが見ているから得ることができることを全ての変更についてEを、観測から期待できる逆の変化がある!eは。学生:何?科学者:私も理解していません。Bayesovets:わかりました。今のところ数学を先送りして、ええ、再現性の危機を見てみましょう。科学者は、彼が理想的な普遍的な解決策を疑っていると言った。しかし、私の意見では、尤度関数への移行は本当にすべきです一度に多くの問題を解決します。考えてみよう...今考えよう。企業が会計に関して大きな問題を抱えているとします。これらの問題は、すべてのアカウンティングが浮動小数点数を使用するという事実に関連しています。トラブルの半分になりますが、3つの異なる実装(各企業の約3分の1)が使用されるため、神が何を知っているかがわかります。たとえば、誰かが1.0をとり、1,000回0.0001を加算し、0.1を減算して0.999999999999989を取得します。その後、彼は別のフロアに行き、コンピューターで計算を繰り返して、1000000000000004を取得します。そして誰もがそうだと思います。そして、エラーは本当に巨大であると仮定しましょう。3つの認識はすべて、洞窟絵画とローマ数字の不自然な結合の結果です。したがって、それらの違いにより、結果にかなり明確な違いを得ることができます。もちろん誰もが四半期ごとのレポートを作成できるように売上を選択します。したがって、部門の予算が少なくともそれ自体と矛盾しない場合、良い結果とみなされ、認知プライミング部門はおそらく20年前に破産した可能性が高いです。そして、私は外に出て、すべて白で、こう言います。しかし、3つの認識の代わりに、この方法で操作することができず、問題の半分を解決するこのクールなものを使用するとどうなるでしょうか。」この方法では操作できず、問題の半分を解決できます。」この方法では操作できず、問題の半分を解決できます。」(Bayesovets、科学者の声で):「私はそのような普遍的な解決策を疑っています」と、主任会計士は私に答えます。 「それをconsider辱とは思わないでください。しかし、老人のあなたは理想主義者です。私の経験では、さまざまな浮動小数点表記法はさまざまな操作に適しているため、1つを除くすべてのツールをすぐに捨ててはいけません。 '' Bayesovets:私が答えるところ:あなたにぴったり分数の表現。結果は、数値を追加する順序や計算が行われるコンピューターに依存しません。たぶん1920年、システムが作成されたばかりだったときに、必要なメモリが多すぎました。しかし、今は1920年ではないので、コンピューティングリソースを節約する余裕はありません。特にあなたがそこにいるので、3000万の銀行口座?これは実際にはナンセンスです。はい、私の見解には欠点があります。たとえば、平方根ははるかに難しくなります。しかし、正直に言うと、他人の給料の平方根を取る必要がある頻度はどれくらいですか?ほとんどの実際のタスクでは、このシステムはあなたのシステムに劣りません。また、入力値を偽造せずにだまされることはありません。メモリ内の任意の長さの整数を表現する方法と、2つの整数の比の形で有理数を表現する方法。それは、今私たちが表現する自明の方法と呼ぶものですコンピュータメモリ内の実有理数。浮動小数点数が単なる近似である有理数に関する唯一のユニークな定理。そして、不幸な3000万の請求書を処理する場合; 実際に、近似値が互いに一致しない場合、または自分自身と一致しない場合。誰もがあなたのお金を盗むことを許可する場合;最後に、1920年ではなく、通常のコンピューターを購入する余裕があれば、アカウンティングを実際の有理数に移行する必要性は明らかです。同様に、ベイズの規則とその結果は、公理に基づいて厳密に証明された唯一の確率定理のシステムです。したがって、Pハッキングは機能しません。科学者:これは...大胆です。あなたが言うことがすべて真実であったとしても、実際的な困難はまだあります。現在使用している統計情報は、10年以上にわたって具体化されています。彼女は自分の価値を証明しました。あなたの明るいベイジアンパスが実際にどのように証明されましたか?Bayesovets:自然科学では、ほとんど使用されませんでした。控えめに言っても、機械学習では、モデルが間違っていることに気付くのは非常に簡単です-モデルに基づくAIが機能しないため-そして、機械学習では、確率への頻度アプローチを最後に見たのは10年前でした。そして、私は1つを思い出すことができませんAIがいくつかの仮説のP値を考慮する作業。研究で確率が少なくとも何らかの形で現れる場合、ほぼ確実にベイジアンです。ユニタリコードに基づいて何かが分類されている場合、クロスエントロピーは最小化され、そうではありません... AIのP値の類似物は何かさえ知りません。これがポイントであることを提案しようと思います。機械学習の統計は機能するかどうかのいずれかであり、すぐに明らかになります。AIは、必要な処理を行うか、クラッシュします。そして自然科学では、誰もがまず出版物を必要とします。記事でP値を示すのが慣例であるが、取り返しのつかない結果を罰しないことがたまたま起こったので、我々は持っているものを持っている。科学者:それで、あなたはむしろ博物学者の実験者というより数学者やプログラマーですか?何らかの理由でこれは私を驚かせません。より成功した統計装置が存在することは間違いありませんが、P値を使用した経験も価値があります。はい、今ではそれらはしばしば何らかの形でねじれていますが、私たちはそれを行う方法を知っており、それに対処する方法を理解し始めています。ピットの落とし穴は少なくとも知られています。新しいシステムでは、それらも同様になります。しかし、ここがまさにその場所です。数十年後に初めて明らかになります。おそらく、彼らは現在のものよりもさらに危険になるでしょう。Bayesovets:はい、盗む会計士はおそらく合理的な数字でいくつかの新しいエキサイティングな操作を思い付くでしょう。特に、正確な操作が依然として計算コストがかかりすぎることが判明し、何らかの形で近似する必要がある場合に。しかし、今でも同じ実験心理学が再現性の危機によって引き裂かれ、この危機が明らかにP値の使用に関連している場合、それは率直に言って、衝突する松葉杖の束にすぎない場合、少なくとももっと使用しようとします合理的な方法。私はまた、すべてを破壊し、再建することを促しませんが。実際には、初心者にとっては、1つの領域(心理学であっても)でP値を放棄して、何が起こるかを確認できます。科学者:そして、どのように心理学者をそのような実験に話そうとしていますか?Bayesovets:わかりません。率直に言って、私は誰かが本当に何かを変えることを本当に望んでいません。ほとんどの場合、人々は時間の終わりまで単純にP値を使用します。そのようなこと。
しかし、アイデアがまだ人気がある可能性があります。 Open Accessがどれほど早く定着したのか、私はうれしい驚きを覚えました。再現性の危機が一般的に認識され、さらに人々がそれを気にしていることを嬉しく思いました。おそらく、P値はまだ市場に引き出され、大勢の人々で上向きにされるでしょう(約Per:2015年に少なくとも1つの心理学雑誌が帰無仮説の検証を拒否しました)。もしそうなら、私はうれしい驚きになります。この場合、ベイズのルールと信頼性の普及に関する私の仕事は無駄ではなかったことがわかります。科学者:実験科学の可能性を好む人はいないことも判明するかもしれません。、およびP値は誰にとっても便利で有用であると考えられています。Bayesovets:大学の統計学コースが非常に怪物だったので、確率論を非常に考えて、彼らは震えを持っています-はい、変更は外部から来なければなりません。親愛なる学生がベイジアン確率理論の短くて魅力的な紹介を読んで、統計に関する彼の素晴らしい教科書と比較し、今後6か月間おねがいすることを個人的に望みます。「まあ、お願いします、信頼性を計算してください。 「。学生:ええと...まあ、最初にそれを読みました、いいですか?Bayesovets:親愛なる学生、あなたの選択について考えてください。科学のいくつかの変化は、学生がさまざまなアイデアに囲まれて成長し、それらから適切なアイデアを選択するためにのみ発生します。これは有名なMax Planckの格言であり、Max Planckはナンセンスを語らないでしょう。エルゴ、悪いアイデアと良いアイデアを区別する科学の能力は、生徒の知性に完全に依存しています。科学者:ええ、それはすでにです...モデレーター:そして、ここで転送を完了します。ご清聴ありがとうございました!