予枬モデルが圹に立たないこずを理解する方法

機械孊習に基づいお補品を䜜成する堎合、回避したい状況が発生したす。 このテキストでは、仕事で遭遇した8぀の問題を分析したす。


私の経隓は、クレゞットスコアリングモデルず産業䌁業向けの予枬システムです。 このテキストは、開発者ずデヌタ科孊者が有甚なモデルを構築し、マネヌゞャヌがプロゞェクトに倱敗しないようにするのに圹立ちたす。


画像


このテキストは、䌚瀟を宣䌝するためのものではありたせん。 これは、LLC「カモミヌル」ずいう䌚瀟でのデヌタ分析の実践に基づいおいたす。 「私たち」ずは、自分ず想像䞊の友人のチヌムを意味したす。 私たちが䜜成したすべおのサヌビスは、特定のクラむアント向けに䜜成されたものであり、他の人に販売たたは譲枡するこずはできたせん。


どのモデルず䜕のために


予枬モデルを、予枬を行うアルゎリズムずし、履歎デヌタに基づいおビゞネスに優しい意思決定を自動的に行うこずを可胜にしたす。


私は考慮したせん



私は教垫ず孊習アルゎリズムに぀いお話したす。 「芋た」ペアの倚くの䟋X、Yがあり、Xに぀いおYの芋積もりを䜜成できるようになりたした。Xは、予枬時に既知の情報ですたずえば、クラむアントが蚘入したロヌン申蟌み。 Y-これは、決定を䞋すために必芁な以前は䞍明な情報ですたずえば、クラむアントが期限内にロヌンを支払うかどうか。 決定自䜓は、モデル倖の単玔なアルゎリズムたずえば、デフォルトの予枬確率が15を超えない堎合にロヌンを承認するによっお行うこずができたす。


モデルを䜜成するアナリストは、原則ずしお、予枬゚ラヌの指暙 、たずえば平均誀差MAEや正解の割合粟床に䟝存したす 。 このようなメトリックにより、2぀のモデルのどちらがより正確に予枬するかおよび、たずえばロゞスティック回垰をニュヌラルネットワヌクに眮き換える必芁があるかどうかをすばやく理解できたす。 しかし、䞻な質問、 およびモデルの有甚性は 、圌らが垞に答えを䞎えるずは限りたせん。 たずえば、クレゞットスコアリングのモデルでは、98の顧客が「良い」デヌタで98の粟床を非垞に簡単に達成でき、党員を「良い」ず連続しお呌びたす。


起業家たたはマネヌゞャヌの芳点から、どのモデルが有甚であるかは明らかです。 来幎の新しいスコアリングモデルの導入により、5,000䞇ルヌブルの損倱をもたらす3,000人の顧客を拒吊し、1,000䞇ルヌブルの利益をもたらす5,000人の新芏顧客を承認するこずが可胜である堎合、モデルは明らかに良奜です。 もちろん、モデル開発の段階では、これらの量を正確に知るこずはほずんどありたせんそれでも-事実ずはほど遠い。 しかし、プロゞェクトの経枈的利益をより早く、より正確か぀正盎に評䟡するほど、より良い結果が埗られたす。


問題


非垞に倚くの堎合、䞀芋良奜な予枬モデルを構築しおも、期埅される成功に぀ながりたせん実装されおいないか、長い遅延で実装されおいるか、数十のリリヌス埌にのみ正垞に動䜜を開始するか、実装埌数か月で正垞に動䜜を停止するか、たったく動䜜したせん...アナリストはデヌタから最倧の予枬力を絞り出し、開発者はモデルが超高速で動䜜し、クラッシュしない環境を䜜成し、マネヌゞャヌはあらゆる努力をしたした 最初の2人が時間通りに䜜業を完了できるようにしたす。 なぜ圌らはトラブルに巻き蟌たれたのですか


1.モデルはたったく必芁ありたせん


成熟埌のビヌルの匷さを予枬するモデルを構築したした実際、ビヌルでもアルコヌルでもありたせんでしたが、本質は䌌おいたす。 タスクは次のように蚭定されたした。発酵の開始時に蚭定されたパラメヌタヌが最終ビヌルの匷さにどのように圱響するかを理解し、それをよりうたく管理する方法を孊びたす。 このタスクは楜しくお有望に思えたので、実際には最終的な芁塞は顧客にずっおそれほど重芁ではないこずがわかりたした。 たずえば、ビヌルが必芁な8の代わりに7.6になったずき、圌はそれを単に匷いものず混ぜお、望たしい皋床を達成したす。 ぀たり、完璧なモデルを構築したずしおも、利益はありたせん。


この状況はかなりばかげおいるように聞こえたすが、実際には垞に発生しおいたす。 マネヌゞャヌは「面癜いから」、たたは単にトレンドになっおいるため、機械孊習プロゞェクトを開始したす。 これは本圓に必芁ではないずいう認識はすぐには来ないかもしれたせんし、その埌長い間拒吊されたす。 時間が無駄になったこずを認めお喜んでいる人はほずんどいたせん。 幞いなこずに、このような障害を回避する比范的簡単な方法がありたす。プロゞェクトを開始する前に、理想的な予枬モデルの効果を評䟡しおください。 未来を正確に知っおいるオラクルを提䟛された堎合、いくら支払う぀もりですか 結婚による損倱がすでに少額である堎合、おそらく結婚の割合を最小限に抑えるために耇雑なシステムを構築する必芁はありたせん。


か぀お、クレゞットスコアリングチヌムに新しいデヌタ゜ヌスが提䟛されたした。倧芏暡な食料品チェヌンからの小切手です。 「あなたが䜕を買っおいるか教えおください。あなたが誰であるかを蚀いたす。」 しかし、賌入者がロむダルティカヌドを䜿甚した堎合にのみ、賌入者の身元を特定できるこずがすぐに刀明したした。 そのようなバむダヌのシェアはわずかであり、銀行の顧客ずの亀差点で、圌らは入っおくるロヌン申請の5未満になりたした。 さらに、それらは最高の5でした。ほずんどすべおのアプリケヌションが承認され、それらの間の「デフォルト」のシェアはれロに近くなりたした。 たずえそれらのすべおの「悪い」アプリケヌションを拒吊できたずしおも、これによりクレゞット損倱は非垞にわずかに枛少したす。 圌女は、モデルの構築、その実装、および店舗のリアルタむムデヌタベヌスずの統合のコストをほずんど回収できなかったでしょう。 したがっお、圌らは1週間チェックをいじり、セカンダリ販売郚門に枡したした。そのようなデヌタからより倚くの利益が埗られるでしょう。


しかし、私たちはただビヌルモデルを完成させお導入したした。 結婚を枛らすこずはできたせんが、プロセスの䞀郚を自動化するこずで人件費を削枛できるこずがわかりたした。 しかし、これは顧客ずの長い議論の埌で初めお理解できたした。 そしお、正盎なずころ、私たちは幞運でした。


2.モデルは率盎に蚀っお匱い


理想的なモデルが非垞に有益であったずしおも、それに近づくこずができるずいう事実ではありたせん。 Xには、Yの予枬に関連する情報がない堎合がありたす。もちろん、Xからすべおの有甚な兆候を匕き出したこずを完党に確信できるこずはほずんどありたせん。 数か月間続く可胜性のある機胜予枬は、通垞、予枬の最倧の改善をもたらしたす。 しかし、あなたは反埩的に䜜業するこずができたすブレむンストヌミング-属性の䜜成-プロトタむプモデルのトレヌニング-プロトタむプのテスト。


プロゞェクトの最初の段階で、倧䌁業を集めおブレヌンストヌミングを行い、さたざたな兆候を考え出すこずができたす。 私の経隓では、最も匷力な属性は、倚くの堎合、完党なモデルから埗られた粟床の半分をもたらしたした。 埗点に぀いおは、それはクラむアントの珟圚のロヌン負荷であるこずが刀明したした。ビヌルに぀いおは、同じグレヌドの以前のバッチの芁塞でした。 数サむクル埌に良奜な兆候を芋぀けるこずができず、モデルの品質がれロに近い堎合、プロゞェクトを最小化するか、緊急に远加デヌタを探すこずをお勧めしたす。


予枬の粟床だけでなく、それに基づいお行われた意思決定の質もテストする必芁があるこずが重芁です。 テスト環境でオフラむンモデルの利点を垞に枬定できるずは限りたせん。 しかし、金銭的圱響の評䟡に䜕らかの圢で近づくメトリックを思い付くこずができたす。 たずえば、信甚リスク管理者がアプリケヌションの少なくずも50の承認を必芁ずする堎合そうでない堎合、販売蚈画は倱敗したす、モデルの芳点から50の「悪い」顧客の割合を掚定できたす。 これは、ロヌンの未返枈により銀行が被る損倱にほが比䟋したす。 このようなメトリックは、最初のプロトタむプモデルの䜜成盎埌に蚈算できたす。 その実装の利点の倧たかな評䟡があなた自身の人件費をカバヌしない堎合、それは考慮する䟡倀がありたす私達はよい予枬を埗るこずさえできたすか


3.モデルを実装できたせん


アナリストによっお䜜成されたモデルは、予枬の粟床ず経枈効果の䞡方の良い尺床を瀺しおいるこずがありたす。 しかし、実皌働環境に導入し始めるず、予枬に必芁なデヌタがリアルタむムで利甚できないこずがわかりたす。 時々、これは「未来からの」実際のデヌタであるこずがありたす。 たずえば、ビヌルの匷さを予枬する堎合、重芁な芁因は発酵の最初の段階の埌の密床の枬定ですが、この段階の最初で予枬を䜿甚したいず思いたす。 この機胜の正確な性質に぀いお顧客ず話し合っおいなければ、圹に立たないモデルを䜜成しおいたでしょう。


予枬の時点でデヌタが利甚可胜な堎合はさらに䞍愉快になりたすが、技術的な理由によりモデルにロヌドできたせん。 昚幎、私たちは、期限内に別のロヌンの支払いに倱敗したクラむアントず察話するための最適なチャネルを掚奚するモデルに取り組みたした。 ラむブオペレヌタヌただし、それほど安くはないたたはロボット安いが、それほど効果的ではなく、顧客を激怒させるは、債務者に電話をかけるこずができたす。 匷力な芁因の1぀は、昚日の電話の結果です。 しかし、䜿甚できないこずが刀明したした。コヌルログは1日に1回、倜間にデヌタベヌスに転送され、昚日のデヌタがわかっおいる今日の明日のコヌルプランが䜜成されたす。 ぀たり、予枬が適甚される前に2日の遅れでコヌルデヌタが利甚可胜になりたす。


私の実践では、リアルタむムデヌタにアクセスできないため、粟床の高いモデルが棚䞊げされたり、すぐに砎棄されたりするこずが䜕床かありたした。 時々、圌らはれロからそれらをやり盎さなければならず、「未来から」のサむンを他のサむンに眮き換えようずしたした。 これを防ぐには、モデルの最初の圹に立たないプロトタむプを、できるだけ実際のデヌタストリヌムに近いデヌタストリヌムでテストする必芁がありたす。 これにより、テスト環境の開発に远加コストが発生するように思われるかもしれたせん。 しかし、ほずんどの堎合、「戊闘䞭」にモデルを起動する前に、いずれにしおもモデルを䜜成する必芁がありたす。 モデルをできるだけ早くテストするためのむンフラストラクチャの構築を開始するず、おそらく倚くの興味深い詳现を時間内に孊習できたす。


4.モデルの実装は非垞に難しい


モデルが将来のデヌタに基づいおいる堎合、それに察しおできるこずはほずんどありたせん。 しかし、利甚可胜なデヌタがあっおも、モデルの実装は簡単ではないこずがよくありたす。 実装が非垞に困難なため、このための人的資源が䞍足しおいるため、実装が無期限に遅れたす。 モデルがすでに䜜成されおいる堎合、開発者はこれたで䜕をしたすか


ほずんどの堎合、すべおのコヌドをれロから曞き盎したす。 この理由はたったく異なる堎合がありたす。 システム党䜓がJavaで蚘述されおおり、Pythonでモデルを䜿甚する準備ができおいない可胜性がありたす。2぀の異なる環境を統合するず、コヌドを曞き換えるよりも倚くの頭痛の皮になりたす。 たたは、パフォヌマンス芁件が非垞に高いため、すべおのプロダクションコヌドはC ++でのみ蚘述できたす。そうしないず、モデルの動䜜が遅くなりすぎたす。 たたは、SQLを䜿甚しおモデルをトレヌニングするための属性の前凊理を行い、デヌタベヌスからそれらをアンロヌドしたすが、デヌタベヌスは存圚せず、デヌタはjsonリク゚ストの圢匏で送信されたす。


モデルが1぀の蚀語Pythonである可胜性が高いで䜜成され、別の蚀語で適甚される堎合、その転送の痛みを䌎う問題がありたす。 たずえばPMML圢匏などの既成の゜リュヌションがありたすが、それらの適甚可胜性には倚くの芁望が残されおいたす。 これが線圢モデルの堎合、係数のベクトルをテキストファむルに保存するだけで十分です。 ニュヌラルネットワヌクたたはデシゞョンツリヌの堎合、より倚くの係数が必芁になり、それらの曞き蟌みおよび読み取りでミスを犯しやすくなりたす。 完党にノンパラメトリックなモデル、特に耇雑なベむゞアンモデルをシリアル化するこずはさらに困難です。 しかし、これでも、コヌドの䜜成は完党に任意であるサむンの䜜成ず比范するず簡単です。 さたざたなプログラミング蚀語の無害な関数log()でさえ、さたざたなこずを意味し、写真やテキストを操䜜するためのコヌドは蚀うたでもありたせん


すべおがプログラミング蚀語で正垞に機胜しおいおも、パフォヌマンスの問題ず、トレヌニングず戊闘のデヌタ圢匏の違いは残りたす。 別の考えられる問題の原因モデルを䜜成するずき、アナリストは倧芏暡なデヌタテヌブルを操䜜するツヌルを積極的に䜿甚したしたが、戊闘では、芳枬ごずに個別に予枬を行う必芁がありたす。 n * mマトリックスず1 * mマトリックスを䜿甚しお実行される倚くのアクションは、非効率的たたは無意味です。 したがっお、プロゞェクトの最初からアナリストが必芁な圢匏でデヌタを受信する準備をし、個々の芳枬倀を凊理できるようにするこずは有甚です。 教蚓は前のセクションず同じです。パむプラむン党䜓のテストをできるだけ早く開始しおください。


プロゞェクトの最初から、生産的なシステムの開発者ず管理者がモデルが動䜜する環境に぀いお考えるこずは有甚です。 最小限の倉曎でデヌタサむ゚ンティストのコヌドを実行させるのが圌らの力です。 予枬モデルを定期的に実装する堎合、負荷管理、フォヌルトトレランス、およびデヌタ転送を提䟛するプラットフォヌムを䞀床䜜成するたたは倖郚プロバむダヌで探す䟡倀がありたす。 その䞊で、新しいモデルをサヌビスずしお起動できたす。 これを行うこずが䞍可胜たたは䞍採算である堎合は、モデル開発者ず事前に制限に぀いお話し合うこずが圹立ちたす。 おそらくあなたは圌ずあなた自身を長時間の䞍必芁な仕事から救うでしょう。


5.実装䞭に愚かな゚ラヌが発生する


私が銀行に来る数週間前に、圌らは第䞉者プロバむダヌから信甚リスクモデルを立ち䞊げたした。 サプラむダから送信された回顧サンプルでは、​​モデルのパフォヌマンスが良奜であり、承認された顧客の䞭で非垞に貧匱な顧客を匷調しおいたす。 したがっお、リアルタむムで予枬が届き始めるず、すぐに予枬を適甚し始めたした。 数日埌、誰かが予想よりも倚くのアプリケヌションを拒吊しおいるこずに気付きたした。 その埌-入っおくる予枬の分垃は、テストサンプルにあったものずは異なるこず。 圌らは理解し始め、予枬には反察の笊号が付いおいるこずに気付きたした。 借り手が悪い確率を受け取るのではなく、圌が良い確率を受け取りたした。 数日間、私たちは最悪ではなく最高の顧客ぞの信甚を拒吊したした


このようなビゞネスロゞックの違反は、ほずんどの堎合、モデル自䜓ではなく、兆候の準備、たたはほずんどの堎合、予枬の適甚で発生したす。 それらが暙識の間違いよりも明癜でない堎合、それらは非垞に長い間芋぀けるこずができたせん。 この間、明確な理由はありたせんが、モデルは予想よりもうたく機胜したせん。 これを防ぐための暙準的な方法は、意思決定戊略のあらゆる郚分に察しお単䜓テストを行うこずです。 さらに、意思決定システム党䜓モデル+その環境党䜓をテストする必芁がありたすはい、はい、これを3぀のセクションで繰り返したす。 しかし、これはすべおの人をトラブルから救うわけではありたせん。問題はコヌドにあるのではなく、デヌタにある可胜性がありたす。 このようなリスクを軜枛するために、デヌタストリヌム党䜓この堎合はロヌンアプリケヌションではなく、その小さな代衚的なシェアたずえば、ランダムに遞択されたアプリケヌションの10に重倧なむノベヌションを開始できたす。 A / Bテストは䞀般的に䟿利です。 そしお、あなたのモデルが本圓に重芁な決定に責任がある堎合、そのようなテストは倚くの時間をかけお行われる可胜性がありたす。


6.モデルは䞍安定です。


モデルはすべおのテストに合栌し、単䞀の゚ラヌなしで実装されたした。 あなたは圌女が最初に䞋した決定を芋お、それらはあなたにずっお意味があるように芋えたす。 圌らは完璧ではありたせん-ビヌルの17番目のバッチはかなり匱いこずが刀明し、14番目ず23番目のビヌルは非垞に匷かったが、䞀般的にはすべおが悪くはありたせんでした。 1〜2週間経぀ず、A / Bテストの結果を芋続け、匷すぎるパヌティが倚すぎるこずを理解したす。 これに぀いお顧客ず話し合うず、圌は最近、麊汁を沞隰させるためにタンクを亀換したため、ホップの溶解レベルが䞊がる可胜性があるず説明しおいたす。 あなたの内なる数孊者はinりたす。「どうしおそうなのあなたは私に䞀般集団を代衚しない蚓緎サンプルをくれたこれはデマだ」 しかし、あなたは自分自身をたずめお、トレヌニングサンプル過去3幎間で溶解したホップの平均濃床が安定しおいないこずに気付きたした。 はい、今ではか぀おないほど高くなっおいたすが、以前は急激なゞャンプず萜䞋がありたした。 しかし、圌らはあなたのモデルに䜕も教えたせんでした。


別の䟋2007幎の危機の埌、統蚈手法に察する投資家コミュニティの信頌は倧きく損なわれたした。 その埌、アメリカの䜏宅ロヌン垂堎は厩壊し、䞖界経枈党䜓を匕っ匵った。 信甚リスクの評䟡に䜿甚されたモデルは、すべおの借り手が同時に支払いを停止できるこずを瀺唆しおいたせんでした。トレヌニングサンプルにそのようなむベントがなかったためです。 しかし、䞻題に粟通しおいる人は、粟神的に既存の傟向を継続し、そのような結果を予枬するこずができたす。


モデルを適甚するデヌタストリヌムが静止しおいる、぀たり 統蚈的特性は時間ずずもに倉化したせん。 次に、最も䞀般的な機械孊習法、ニュヌラルネットワヌク、および決定的なツリヌに察する募配ブヌスティングがうたく機胜したす。 これらの方法は䞡方ずも、トレヌニングデヌタの補間に基づいおいたす。ニュヌロン-ロゞスティックカヌブ、ブヌスティング-区分的定数関数による。 それらは䞡方ずも、倖挿のタスク-トレヌニングセットより正確には、 凞包 の倖偎にあるXの予枬-に非垞にうたく察凊できたせん。


画像


Python画像生成
 # coding: utf-8 #  ,    import numpy as np import matplotlib.pyplot as plt from matplotlib import rc rc('font', family='Verdana') from sklearn.ensemble import GradientBoostingRegressor from sklearn.neural_network import MLPRegressor from sklearn.linear_model import LinearRegression #   np.random.seed(2) n = 15 x_all = np.random.randint(20,size=(n,1)) y_all = x_all.ravel() + 10 * 0.1 + np.random.normal(size=n) fltr = ((x_all<=15)&(x_all>=5)) x_train = x_all[fltr.ravel(),:] y_train = y_all[fltr.ravel()] x_new = x_all[~fltr.ravel(),:] y_new = y_all[~fltr.ravel()] x_plot = np.linspace(0, 20) #   m1 = GradientBoostingRegressor( n_estimators=10, max_depth = 3, random_state=42 ).fit(x_train, y_train) m2 = MLPRegressor( hidden_layer_sizes=(10), activation = 'logistic', random_state = 42, learning_rate_init = 1e-1, solver = 'lbfgs', alpha = 0.1 ).fit(x_train, y_train) m3 = LinearRegression().fit(x_train, y_train) #   plt.figure(figsize=(12,4)) title = {1:'     ', 2:',     '} for i in [1,2]: plt.subplot(1,2,i) plt.scatter(x_train.ravel(), y_train, lw=0, s=40) plt.xlim([0, 20]) plt.ylim([0, 25]) plt.plot(x_plot, m1.predict(x_plot[:,np.newaxis]), color = 'red') plt.plot(x_plot, m2.predict(x_plot[:,np.newaxis]), color = 'green') plt.plot(x_plot, m3.predict(x_plot[:,np.newaxis]), color = 'orange') plt.xlabel('x') plt.ylabel('y') plt.title(title[i]) if i == 1: plt.legend(['', '', ' '], loc = 'upper left') if i == 2: plt.scatter(x_new.ravel(), y_new, lw=0, s=40, color = 'black') plt.show() 

䞀郚のより単玔なモデル線圢モデルを含むは、より適切に掚定されたす。 しかし、それらが必芁であるこずをどのように理解するのですか 盞互怜蚌 盞互怜蚌が圹立ちたすが、すべおのデヌタがランダムに混合されるクラシックではなく、 skelearnのTimeSeriesSplitのようなものです。 その䞭で、モデルは瞬間tたでのすべおのデヌタでトレヌニングされ、この瞬間以降のデヌタでテストされたす。 このようなテストの品質が良いこずは、たずえ過去ずわずかに異なっおいおも、モデルが未来を予枬できるこずを願っおいたす。


線圢䟝存など、匷力な䟝存関係をモデルに導入するだけで、プロセスの倉曎に十分に適応できる堎合がありたす。 これが望たしくないか十分でない堎合は、より普遍的な適応性の䜜成方法を考えるこずができたす。 最も簡単な方法は、定数に察しおモデルを范正するこずです。予枬から、以前のn個の芳枬倀の平均誀差を枛算したす。 加法定数だけではない堎合、モデルをトレヌニングするずきに、芳枬倀を再重み付けできたすたずえば、 指数平滑法の原理により。 これは、モデルが最新の過去に焊点を圓おるのに圹立ちたす。


モデルが単玔に安定しおいる必芁があるず思われる堎合でも、自動監芖を開始するず䟿利です。 圌は、予枬倀のダむナミクス、予枬自䜓、モデルの䞻な芁因、およびあらゆる皮類の品質指暙を説明できたす。 モデルが本圓に良ければ、それは長い間あなたず共にありたす。 したがっお、毎月手動でモデルのパフォヌマンスを確認するよりも、テンプレヌトを1回操䜜する方が適切です。


7.トレヌニングサンプルは実際には代衚的なものではありたせん


サンプルの非代衚性の原因は、時間の倉化ではなく、デヌタを生成したプロセスの特城であるこずがありたす。 私が働いおいた銀行は以前にポリシヌを持っおいたした。぀たり、珟圚の債務の支払いが収入の40を超える人々に融資をするこずはできたせん。 䞀方で、これは合理的です。なぜなら、特に危機の際には、高い信甚負荷がしばしば砎産に぀ながるからです。 䞀方、収入ずロヌンの䞡方の支払いを抂算するこずしかできたせん。 おそらく、私たちの請求されおいないクラむアントの䞀郚は、実際にはるかに優れおいたのでしょう。 いずれにせよ、月に20䞇を皌ぎ、そのうち100人が䜏宅ロヌンを提䟛するスペシャリストは、有望なクラむアントになり埗たす。 そのようなクレゞットカヌドを拒吊するこずは利益の損倱です。 このモデルが非垞に高いクレゞット負荷でも顧客を適切にランク付けするこずを期埅できたす...しかし、これは正確ではありたせん。トレヌニングサンプルにそのようなものがないためです


幞運なこずに、私の同僚は、到着の3幎前に、恐ろしいずはいえ単玔なルヌルを導入したした。ほずんどすべおの政治家を迂回しお、クレゞットカヌドのランダムに遞択されたアプリケヌションの玄1を承認したす。 この1は銀行に損倱をもたらしたしたが、モデルをトレヌニングおよびテストできる代衚的なデヌタを取埗するこずができたした。 したがっお、私は䞀芋非垞に貞されおいる人々の間でさえあなたが良い顧客を芋぀けるこずができるこずを蚌明するこずができたした。 その結果、クレゞットロヌドの掚定倀が40から90である人々にクレゞットカヌドを発行し始めたしたが、予想されるデフォルトの確率に察するカットオフしきい倀はより厳しくなりたした。


そのような玔粋なデヌタのストリヌムがなければ、モデルが通垞40を超える負荷を持぀人々をランク付けするこずを経営者に玍埗させるこずは困難です。 おそらく、0〜20の負荷のサンプルで圌女をトレヌニングし、20〜40の負荷のテストデヌタでモデルが適切な決定を䞋せるこずを瀺したす。 しかし、フィルタリングされおいないデヌタの狭い现流は䟝然ずしお非垞に有甚であり、゚ラヌの䟡栌がそれほど高くない堎合、それを持っおいる方が良いです。 GoogleのML開発者であるMartin Zinkevichが、機械孊習に関するマニュアルで同様のアドバむスを提䟛しおいたす 。 たずえば、電子メヌルをフィルタリングする堎合、アルゎリズムによっおスパムずしおマヌクされた電子メヌルの0.1を匕き続きナヌザヌに衚瀺できたす。 これにより、アルゎリズム゚ラヌが远跡および修正されたす。


8.予枬が非効率的に䜿甚されおいる


原則ずしお、モデル予枬に基づいお䞋される決定は、ビゞネスプロセスのごく䞀郚であり、奇劙な方法でそれず察話するこずができたす。 たずえば、自動アルゎリズムによっお承認されたほずんどのクレゞットカヌドアプリケヌションは、カヌドが発行される前に、匕受人によっお承認される必芁がありたす。 クレゞットの負担が倧きいアプリケヌションの承認を開始したずき、匕受䌚瀟は匕き続きそれらを拒吊したした。 おそらく、圌らはすぐに倉曎に぀いお孊習しなかったか、たたは単に珍しい顧客に責任を負わないず決めたのでしょう。 このようなアプリケヌションの承認を開始するために、「高負荷のためこのクラむアントを拒吊しないでください」などのクレゞットスペシャリストのラベルに匕き枡す必芁がありたした。 しかし、この問題を特定し、解決策を考え出しお実装したしたが、銀行が受け取る利益が少なくなるたでに倚くの時間が経過したした。 道埳事前にビゞネスプロセスの他の参加者に同意する必芁がありたす。


モデルを導入たたは曎新する利点を無効にするために、別のナニットが䞍芁な堎合がありたす。 自分のマネヌゞャヌず蚱容限床に同意するのは十分に悪いです。 おそらく、圌はモデルで遞択された顧客の承認を開始する準備ができおいたすが、アクティブなロヌンが1぀しかない堎合にのみ、延滞は䞀床もありたせんでした。 説明したセグメントのほが党䜓がすでに承認されおいる堎合、モデルはあたり倉わりたせん。


ただし、モデルを適切に䜿甚すれば、ヒュヌマンファクタヌが圹立ちたす。 衣料品店の埓業員に、既存の泚文に基づいおクラむアントに他に提䟛できるものを䌝えるモデルを開発したずしたす。 このようなモデルは、非垞に効果的にビッグデヌタを䜿甚できたす特に店舗がネットワヌク党䜓である堎合。 ただし、モデルには、たずえばクラむアントの倖芳に関する関連情報の䞀郚は含たれおいたせん。 したがっお、クラむアントずたったく同じ衣装を掚枬する粟床は䜎いたたです。 ただし、人工知胜ず人間を組み合わせるのは非垞に簡単です。モデルは売り手に3぀のアむテムを䌝え、圌はそれらから最も適切なものを遞択したす。 すべおの売り手にタスクを正しく説明するず、成功するこずができたす。


おわりに


予枬モデルを䜜成しおビゞネスに統合する際に発生した䞻芁な障害のいく぀かを経隓したした。 ほずんどの堎合、これらは数孊的な問題ではなく、組織的な問題です。モデルはたったく必芁ないか、曲がったサンプルに基づいお構築されおいるか、既存のプロセスやシステムに統合するのが困難です。 単玔な原則を順守すれば、このような倱敗のリスクを枛らすこずができたす。


  1. 予枬の粟床ず経枈効果の合理的で枬定可胜な尺床を䜿甚したす。
  2. 最初のプロトタむプから始めお、時系列のデヌタストリヌムでテストしたす。
  3. 予枬だけでなく、デヌタの準備から意思決定たでのプロセス党䜓をテストする

このテキストが、誰かが自分のプロゞェクトをよく芋お、愚かな間違いを避けるのに圹立぀こずを願っおいたす。


ROC-AUCずEr-squaresに感謝したす



Source: https://habr.com/ru/post/J337722/


All Articles