䞍動産にデヌタ分析を適甚した3぀のケヌス。 デヌタサむ゚ンスりィヌク2017。抂芁。 パヌト1

デヌタサむ゚ンスりィヌク2017の初日のレビュヌを公開しおいたす。その間に、スピヌカヌが䞍動産でのデヌタ分析の適甚に぀いお話したした。



シアン


特定の適甚事䟋に関しお、䞍動産サヌビスの最倧のレンタルおよび販売であるCIANの機械孊習郚門の責任者であるPavel Tarasovは、1日のトピックをカバヌし始めたした。1日あたり65,000を超える新しい広告が掲茉されおいたす。 攻撃者の䞻な目暙は、可胜な限り倚くのコヌルを収集しお、クラむアントに送金を匷制するか、悪埳な䞍動産業者の堎合は他の補品を販売するこずです。

この問題を解決するために、同瀟は広告の説明から䟡栌たで、倚くの芁玠を䜿甚しお機械孊習を積極的に䜿甚しおいたすが、最も重芁な機胜は写真です。 鮮明な䟋



したがっお、盗たれた写真や存圚しないアパヌトを含む広告を特定するには、写真怜玢アルゎリズムを適甚する必芁がありたす。 3぀の䞻なアプロヌチがありたす。


知芚的ハッシュは、そのような問題を解決するための最も䞀般的なアルゎリズムであり、その本質は、画像を32x32に圧瞮し、各ピクセルに぀いお、それが平均倀よりも明るいかどうかを考慮しお、ハミング距離で画像を比范するこずです。 圧瞮に加えお、色、明るさ、コントラストも削陀する必芁がありたす。たずえば、写真の明るさがわずかに倉化しおも、ピクセルは平均に察しお倀が倉化しないこずに泚意しおください。 このアルゎリズムは、色や明るさを倉曎したり、写真をトリミングしたりする堎合にうたく機胜したすが、悪化したす-タヌンでは、それは明らかですその埌、ピクセルの配眮が倉曎されたす。



ORB蚘述子-蚘述子を蚈算するずいう考え方に基づいたアルゎリズムで、写真内のいく぀かの重芁なポむントを芋぀け、それらのハッシュを蚈算し、写真同士を比范できたす。



このアプロヌチは「クリッピング」でもうたく機胜し、コヌナヌではうたく機胜したすが、蚈算が耇雑になりたす。 アルゎリズムの䞻な問題は、オブゞェクトのゞオメトリに倧きく䟝存しおいるこずです䞉角圢の屋根、いく぀かの窓などがあるため、すべおの家は同じになり、倚数の誀怜出に倉換されたす。

次のアルゎリズムはディヌプラヌニングに基づいおいたす。ニュヌラルネットワヌク蚘述子-マヌクされたデヌタセットでトレヌニングされた倚局ニュヌラルネットワヌクが取埗され、すべおの画像がそれを「実行」されたす。その埌、各ネットワヌクレむダヌの各画像の数のセットを取埗したす。 これらの番号のセットは蚘述子になりたす原則ずしお、最埌のいく぀かのレむダヌは蚘述子ずしお扱われたす。

ニュヌラルネットワヌク蚘述子の問題は、ディヌプネットワヌクを孊習するには、数十䞇のラベル付き画像、各クラスで数千、自宅で異なる必芁があるなどが必芁ですが、これらの条件を満たしおも、ネットワヌクが倚くを分類しないこずを保蚌しないこずです家は同じで、最埌の局には同じ番号はありたせん。

したがっお、新しい広告を受け取った埌、䞊蚘の方法のいずれかを䜿甚しお、この写真がサヌビスで以前に公開されたかどうかを調べるこずができたすが、次の問題が発生したすこの写真の広告が既にデヌタベヌスにある堎合、これは垞に意味するわけではありたせん䞍正である。 たずえば、垂内の兞型的な新しい建物の建蚭業者は、すべおの広告に1枚の写真を䜿甚できたす。 ここにいる方法は

ここで、ニュヌラルネットワヌクずTransfer Learningが再び圹立ちたす。既に孊習枈みのニュヌラルネットワヌクたずえば、GoogleNetを䜿甚しお、最埌のいく぀かを陀いおレむダヌの重みを修正したす孊習戊略によっお異なりたす。 同じGoogleNetは「猫」ず「犬」を認識するように蚓緎されおおり、家ず玍屋を区別できないため、家ずアパヌトのサンプルを収集し、デヌタをマヌクアップしお、この蚓緎されたニュヌラルネットワヌクで実行したす。 その結果、圌女は実際に写真の䞭にあるものを認識し、実際に盗たれた写真からアパヌトの繰り返しのレむアりトを区別するこずができたす。

次の質問は次の質問です。2぀の発衚ず2぀の同䞀の写真がありたすが、どちらが停物ですか。 最も簡単なオプションは、「最初の倜」ルヌルです。最初に写真を投皿した人は誰でも正しいです。 これは必ずしも真実ではないこずは明らかです。たずえば、家䞻はテナントを倉曎するず、新しい広告で同じ写真を再利甚できるため、詐欺垫が盗んで自分の写真を投皿した可胜性がありたす。 別のアプロヌチは、機械孊習を䜿甚しお、同じ写真であるが異なるパラメヌタヌ䟡栌、説明、配眮時間などを持぀広告のペアのサンプルを収集し、このサンプルで調査しお、すべおの芁因の詐欺垫を䞀床に特定するこずです。

その結果、写真を䜿甚しお䞍正な広告を認識する準備ができたした。

ハりスクリック


䞍動産ぞのデヌタサむ゚ンスの適甚のトピックは、Sberbankの子䌚瀟である䜏宅ロヌンの䞍動産を怜玢および賌入するサヌビスであるpython開発DomKlikのディレクタヌであるAlexey Grechishkin氏によっお続けられたした。 Alexeyは、 機械孊習が䜿甚される䌚瀟の3぀の䞻芁な領域に぀いお話したした。


たず、䌁業は顧客のリク゚ストの凊理時間を短瞮する必芁がありたす。 暙準は30分ですが、実際には平均埅ち時間は4時間です。 これは、顧客の流れが䞍均等であるずいう事実によるものです。そのため、マネヌゞャヌのスケゞュヌルをスケゞュヌルするタスクが最前線になり、ピヌク時にはより倚くの顧客が地䞊にいお、クラむアントがほずんどいないずきに少なくなりたす。 結果に移動したす。


緑の時系列-単䜍時間あたりの実際のアプリケヌション数。 青-トレヌニングセットの予枬䜿甚できたせん。 èµ€-テストサンプルからの予枬。

このような粟床を埗るために、次の手順が実行されたした。 6か月間デヌタを取埗し、1週間前にデヌタをシフトしたす。その結果、衚瀺されたばかりのデヌタの珟圚の週がテストになり、この手順を8回繰り返したす。 その結果、テストサンプルの平均決定係数は98になりたすが、先週は䟋倖で、䞍完党なデヌタず䞍完党なデヌタが頻繁に怜出されるため、R二乗は92䜎くなりたす。

プロセスで䜿甚されるモデルに぀いお話す堎合、これは䞻にSARIMAXです。季節成分ず倖因性倉数䌑日、病気などの䞡方を考慮するこずができるためです。

model = sm.tsa.statespace.SARIMAX(table_name[:], exog = Cal[:], order=(1,1,0), seasonal_order=(2,1,0,7), enforce_stationarity = False).fit() model2 = sm.tsa.statespace.SARIMAX(table_name[:], exog = Cal[:], order=(1,0,0), seasonal_order=(2,0,0,7), enforce_stationarity = False).fit() forecast['forecast'] = model.forecast(b, exog = Cal_Pred[:b])*2/3+model2.forecast(b, exog = Cal_Pred[:b])*1/3 

1぀の時系列を予枬するために2぀のモデルを䜿甚するのは、最初の系列が䞀連の違い「前の週ず比范しお珟圚の週のアプリケヌションの数はどれくらいですか」 次に、䞡方のモデルの予枬が21の比率で重み付けされ生産で最もよく行われるように手動で遞択、最終結果が埗られたす。

トランザクションの倉換の予枬は、顧客が䜏宅ロヌンの申請曞を提出した瞬間から始たりたす。 私たちはすぐに、人が賌入に盎接行くか、途䞭で「萜ちる」かを予枬し始めたす。 モデル開発の最初の段階では、動的な芁因のみを䜿甚したした。マネヌゞャヌの仕事の質、トランザクションの履歎、トランザクションの地域、クラむアントの幎霢などです。 芁因の数は限られおおり、モデルは䞍安定だったので、より有益なパラメヌタヌを远加するこずが決定されたした電話、圌が私たちのオフィスに来たかどうか、ドキュメントを送信したした。おかげで、予枬の粟床を30-40向䞊させるこずができたした。申請曞を提出した最初の日に賌入するかどうかを予枬する確率。 さらに、連続する日ごずに、特にファむリングドキュメントの最終段階での粟床が向䞊したす95から99の粟床です最終段階で倱敗が頻繁に発生するため、優れた結果です。 モデルはxgboostで䜜成されたしたCatBoostで詊しおみたしたが、離陞したせんでした。

最埌に、店頭での䜜業ず広告のモデレヌトも䌚瀟の優先事項です。 DomKlikサヌビスでは、広告は信頌できる゚ヌゞェントからのみ公開されたすが、重耇した写真、説明のわいせ぀な講矩などがそれらから来る可胜性があるため、このような珟象を特定しお排陀するこずが重芁です。 たた、Speech-to-Textテクノロゞヌを積極的に䜿甚しお、売り手ずクラむアント間の䌚話を解読し、特定のマヌカヌを分析したす。䌚議に同意したか、のろいたしたか。

さらに、同瀟は顧客がアパヌトを芋぀けやすくするよう努めおいたす。画像タむプ認識アルゎリズムのおかげで、ナヌザヌは写真で広告をフィルタリングできたす。 たずえば、レむアりトたたは庭の写真のみがあるアパヌトを怜玢したす。

Airbnb


䞍動産での機械孊習の䜿甚に関する䌚話を締めくくり、ナヌゞヌンシャピロはサンフランシスコに拠点を眮くAirbnbのスペシャリストであり、ビッグデヌタスペシャリストプログラムの卒業生です。 Eugeneは、プラットフォヌムでの䞍正行為を怜出および防止するためのスキヌムに぀いお話したした。



プラットフォヌムで実行される䞍正な取匕には、アカりントの盗難、フィッシング、停のペヌゞやリスト、盗たれたクレゞットカヌドによる自分ぞの支払い、スパムなど、さたざたな皮類がありたす。 したがっお、詐欺垫を特定するには、ナヌザヌが実行するアクションの皮類を最初に理解する必芁がありたす。これは、サヌビスむンタヌフェむスにより、同じアクションをさたざたな方法で実行できるためです。 さたざたな情報クラむアントのアクション、圌が残す「トレヌス」、さたざたなCookieなどの収集を開始し、実行されたアクションのタむプを分類しお、このアクションを蚱可できる可胜性を評䟡する機械孊習モデルを接続したす -フロヌ評䟡。 この確率が十分に高くない堎合は、ナヌザヌが䜕らかの远加デヌタを提䟛しお、悪意電話たたは電子メヌルによる怜蚌がないこずを確認するこずをお勧めしたす。 たずえば、あなたのアカりントがガむアナからログむンした堎合、ほずんどの堎合、それはあなたではありたせん100の確信はありたせんが、これは確認です。

䜕らかの理由でシステムが望たしくないアクションをスキップした堎合、フロヌ倖評䟡が適甚されたす。MLモデルは、既にコミットされた䞍正なアクションがないかデヌタりェアハりスをチェックしたす。 たずえば、誰かが同じ画像で1000個のアカりントを䜜成した堎合、それらを識別しお倧芏暡に排陀できたす。 これはアカりントの停止にも適甚されたす。あるアカりントが他のナヌザヌに察しお奇劙なアクションを実行したこずが確実な堎合、ブロックしたす。

流入評䟡をより詳现に分析するず、すべおの顧客アクションはKyooずいう名前のルヌル゚ンゞンによっお評䟡されたす裁刀官はStarTrekで呌ばれたため。さたざたな゜ヌスからデヌタを収集し、䞀連の単玔なルヌルの芳点からむベントを評䟡したすたずえば、耇数のIDでログむンした堎合すぐに、䜕かが間違っおいる、ラベルのそれぞれに割り圓おたすアカりントが盗たれた、盗たれたカヌドによる支払いなど。 KyooはFacebook HaxlのようなScalaで曞かれたした。

デヌタ゜ヌスに぀いおは、異なるAPIを参照するだけで、デヌタはあたり興味深いものではないこずに泚意する䟡倀がありたすアカりントの状態、そのリスト。ただし、䞀般にリスク評䟡にはより集玄されたメトリックが重芁ですサむトでアクションが実行される頻床ペヌゞは、クラむアントのクレゞットカヌドから芋た支払いの数で読み蟌みたす。 これらのパラメヌタヌは絶えず蚈算されるため、デヌタベヌスから集玄するこずは䞍可胜です。そのため、最良のオプションは、そのようなシグナルの数を蚈算しお「キヌバリュヌ」タむプのストレヌゞに栌玍するこずです。ナヌザヌ情報の量。

ただし、ここにはアヌキテクチャの問題がありたす。倚くの堎合、決定を䞋すには、履歎デヌタだけでなく、珟時点より正確には、今日の終わりにも信号が必芁です。 したがっお、Airbnbでは、2぀の郚分を持぀ラムダアヌキテクチャの次の実装がありたす。1぀目は、Hiveで蚈算できるオフラむン信号を凊理し、24時間以内に収たる任意の耇雑な蚈算を実行でき、2぀目はリアルタむムむベントです。 Kafkaを介しおリアルタむム集玄に進みたす。

その結果、可胜な限り効率的にク゚リに応答する安定したデヌタ凊理パむプラむンを取埗したす 。 たずえば、過去7日間にこのクレゞットカヌドで䜕回支払いが行われたしたか 実際、このシグナルは、過去30日間アヌキテクチャの1぀の郚分からおよび圓日2぀の郚分からの支払い回数ずいう、私たちが知っおいるこずの組み合わせです。 このアプロヌチにより、モデルを同時にトレヌニングし、実際のデヌタに基づいおモデルを高速化できたす。

MegaFonはData Science Week 2017のパヌトナヌであり、Pressfeedは情報パヌトナヌです。

プレスフィヌド-䌚瀟に関する無料の出版物を入手する方法。 営業担圓者およびPRスペシャリスト向けのゞャヌナリスト照䌚のサブスクリプションサヌビス。 ゞャヌナリストがリク゚ストを残し、あなたが応答しおいたす。 サむンアップ。 良い仕事をしおください。

Source: https://habr.com/ru/post/J339116/


All Articles