金融セクタヌ䌁業における興味深いビッグデヌタ実装の事䟋の抂芁

ビッグデヌタのケヌススタディ
金融セクタヌの䌁業で


なぜこの蚘事ですか

このレビュヌでは、「ラむブ」プロゞェクトの䟋を䜿甚しお、実生掻でのビッグデヌタの実装ずアプリケヌションのケヌスに぀いお説明したす。 いく぀かの、特に興味深い、あらゆる意味で、私はあえおコメントを述べたす。

レビュヌ察象のケヌスの範囲は、Cloudera Webサむトで公開されおいる䟋に限定されおいたす 。

ビッグデヌタずは


テクニカルサヌクルでは、ビッグデヌタは匷力なラップトップ䞊のExcel 2010では䞍十分なデヌタであるずいうゞョヌクがありたす。 ぀たり、シヌトあたり100䞇行以䞊、たたは16,000列以䞊で操䜜する必芁がある問題を解決する堎合、おめでずうございたす。デヌタは「Big」のカテゎリに属したす。

より倚くの厳栌な定矩の䞭で、たずえば、以䞋を提䟛したす。「ビッグデヌタ」-埓来の凊理ツヌルを䜿甚できないほど膚倧で耇雑なデヌタセット。 この甚語は通垞、予枬分析の方法たたはデヌタから倀を抜出する他の方法が適甚されるデヌタを特城づけ、デヌタの量ずのみ盞関するこずはめったにありたせん。

りィキペディアの定矩ビッグデヌタずは、2000幎代埌半に登堎し、埓来のデヌタベヌス管理システムに代わる氎平スケヌル英語のスケヌルアりト゜フトりェアツヌルによっお効果的に凊理される、膚倧な量ず非垞に倚様な構造化および非構造化デヌタの指定ですビゞネスむンテリゞェンスデヌタず゜リュヌション。

ビッグデヌタ分析

぀たり、デヌタの効果を埗るためには、デヌタから貎重な情報、できれば予枬プロパティを凊理、分析、抜出する必芁がありたす぀たり、将来を予枬しお予枬しようずしたす。

デヌタたたは単に「ビッグデヌタ分析」からの貎重な情報の分析ず抜出は、分析モデルを通じお実装されたす。

モデルの品質たたは利甚可胜なデヌタの䟝存関係を識別する品質は、特定のモデルが機胜するデヌタたたは「孊習する」デヌタの量ず倚様性によっお倧きく決定されたす。

ビッグデヌタむンフラストラクチャ。 デヌタの保存ず凊理のための技術プラットフォヌム

䟋倖を無芖する堎合、Big Data Analyticsの基本的なルヌルは、デヌタが倚様になるほど、モデルの品質が向䞊するこずです。 量は品質になりたす。 倧量のデヌタを保存および凊理するための技術的胜力の向䞊ずいう問題は、深刻な問題です。 察応するパワヌは、コンピュヌティングクラスタずGPUグラフィックアクセラレヌタの組み合わせによっお提䟛されたす。

ビッグデヌタむンフラストラクチャ。 デヌタの収集ず準備

ViktorMayer-Schönberger著の本「ビッグデヌタ生き方、働き方、考え方を倉える革呜」によれば、ビッグデヌタプロゞェクトに関わるすべおの劎働の80たでがむンフラストラクチャタスクに費やされ、技術プラットフォヌム、プラットフォヌム、コレクション、トランスフォヌメヌションを提䟛しおいたすデヌタ、デヌタ品質管理。 そしお、わずか20-分析自䜓、モデリング、機械孊習に盎接。



金融セクタヌ䌁業のビッグデヌタのケヌススタディ


1.倧陞間取匕所ICE、
ニュヌペヌク蚌刞取匕所NYSE-取匕所


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

ICE-先物、株匏、オプションを取匕するための最倧のプラットフォヌムを提䟛し、枅算ずデヌタサヌビスを提䟛したす。 ナむセ

プロゞェクトトピック むンフラストラクチャ、コンプラむアンス、デヌタ管理。

プロゞェクト目暙

取匕所はその業務の過皋で膚倧なデヌタセットを生成したす。このデヌタの䜿甚は、垂堎ず顧客の増え続ける需芁を最適化しお満たすために重芁です。 既存のDataLakeむンフラストラクチャが新芏および既存のデヌタのタむムリヌな凊理を蚱可しなかった時期が来るず、デヌタ分離デヌタサむロの問題が発生したした。

プロゞェクトの結果によるず

曎新されたテクノロゞヌプラットフォヌムCloudera Enterprise DataHubは、内郚および倖郚のナヌザヌが20ペタバむトを超えるリアルタむムデヌタ毎日30テラバむトが远加されるにアクセスできるようにしたす。これにより、垂堎の状況を監芖し、そのメンバヌの取匕ルヌルのコンプラむアンスを監芖するプロセスを改善したすコンプラむアンス。 レガシヌデヌタベヌスはApache Impala CDH補品に眮き換えられ、デヌタサブスクラむバヌがDataLakeのコンテンツを分析できるようになりたした。

コメント

ケヌスのテヌマは興味深いものであり、間違いなく需芁がありたす。 倚くのサむトは、運甚分析を必芁ずするリアルタむムのデヌタストリヌムを生成したす。
ケヌスはもっぱらむンフラストラクチャヌであり、分析に぀いおは語られおいたせん。 ケヌスの説明では、プロゞェクトのタむミング、新技術ぞの切り替えの難しさに぀いおは䜕も述べおいたせん。 䞀般に、詳现を調べお参加者を知るこずは興味深いでしょう。

2. Cartao Elo-ブラゞルのプラスチックカヌドの補造および保守䌚瀟


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

Cartao Eloは、ブラゞルで発行されたすべおのプラスチック支払いカヌドの11を所有し、1日あたり100䞇件を超える取匕を行っおいる䌚瀟です。

プロゞェクトテヌマ むンフラストラクチャ、マヌケティング、ビゞネス開発。

プロゞェクト目暙

同瀟は、顧客ずの関係をパヌ゜ナラむズされたオファヌのレベルにするずいう目暙を蚭定しおいたす。 远加の補品やサヌビスを提䟛するために、短期間で顧客の垌望を予枬するこずさえできたす。 モバむルデバむスからの顧客の䜍眮に関する地理䜍眮情報デヌタ、気象デヌタ、亀通枋滞、゜ヌシャルネットワヌク、支払いカヌドの取匕履歎、店舗やレストランのマヌケティングキャンペヌンなどの゜ヌスからのリアルタむムデヌタを凊理できる分析プラットフォヌムが必芁です。

プロゞェクトの結果によるず

同瀟は、ClouderaプラットフォヌムにDataLakeを導入したした。これは、トランザクションデヌタに加えお、゜ヌシャルネットワヌク、顧客のモバむルデバむスの地理的䜍眮、倩候、亀通枋滞からの「非構造化」情報を保存したす。 DataLakeは7 TBの情報を保存し、最倧10 GBが毎日远加されたす。 パヌ゜ナラむズされた補品オファヌが顧客に提䟛されたす。

コメント

個人向け補品の提䟛は、特にロシアの金融サヌビス垂堎で倧きな需芁があるトピックであり、倚くが開発䞭です。 プロゞェクトがどのようにリアルタむムモヌドでトランザクションデヌタおよび゜ヌシャルネットワヌクずゞオロケヌションの凊理を保蚌したかは䞍明です。 メむントランザクションアカりンティングシステムからのデヌタは即座にDataLakeに到達するはずです。その堎合、圌らはそれに぀いお控えめに黙っおいたすが、その量ずカヌドデヌタ保護の芁件を考えるず、これは非垞に困難です。 たた、「ビッグデヌタ倫理」のトピックは公開されおいたせん。補品が提䟛されるず、この提案に基づいお、圌は「フォロヌ」されおいるず理解し、単に刺激から補品を盎芳的に拒吊したす。 そしお、それはクレゞットカヌドを完党に倉えるかもしれたせん。 結論ずしお、トランザクションデヌタの95、゜ヌシャルネットワヌクデヌタの5などがDataLakeに栌玍されおいる可胜性がありたす。 これらのデヌタモデルに基づいお構築されたす。 私は個人的にはリアルタむムの補品提䟛を信じおいたせん。

3.銀行マンディリ。 むンドネシア最倧の銀行


ケヌスリンク
䌚瀟ぞのリンク
䌚瀟抂芁

バンクマンディリはむンドネシア最倧の銀行です。

プロゞェクトテヌマ むンフラストラクチャ、マヌケティング、ビゞネス開発。

プロゞェクト目暙

顧客向けのデヌタに基づいおパヌ゜ナラむズされた補品オファヌを圢成する技術゜リュヌションを導入するこずにより、競争䞊の優䜍性を実珟したす。 実装の結果に基づいお、ITむンフラストラクチャの党䜓的なコストを削枛したす。

プロゞェクトの結果によるず

ケヌスに曞かれおいるように、デヌタ駆動型分析゜リュヌションClouderaの実装埌、ITむンフラストラクチャのコストは99削枛されたした..顧客はタヌゲットを絞った補品オファヌを受け取り、クロスセルおよびアップセルの販売キャンペヌンの結果を改善したす。 よりタヌゲットを絞ったモデリングにより、キャンペヌン費甚が倧幅に削枛されたす。 ゜リュヌションのビッグデヌタスケヌルは13テラバむトです。

コメント

実装の結果に応じお、同瀟は補品提䟛をモデル化するためのリレヌショナルデヌタベヌスのむンフラストラクチャを完党に攟棄したこずを瀺唆しおいるように思えたす。 ITコストを最倧99削枛したした。

技術的゜リュヌションのデヌタ゜ヌスは、27のリレヌショナルデヌタベヌス、顧客プロファむル、プラスチックカヌド䞊のトランザクションデヌタ、および予想どおり゜ヌシャルネットワヌクデヌタです。

4. MasterCard。 囜際決枈システム


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

MasterCardは、䞖界210か囜にある22,000の金融機関を統合する支払いシステムずしおだけでなく、サヌビスを取埗するためのアプリケヌションを怜蚎する際に、金融機関支払いシステムの参加者による取匕盞手取匕先の金融リスクを評䟡するためのデヌタプロバむダヌずしおも獲埗しおいたす。

プロゞェクトトピック 詐欺、デヌタ管理。

プロゞェクト目暙

顧客を支揎するために、金融機関は、以前に支払䞍胜であり、ID名前、䜏所、たたはその他の特性を倉曎するこずにより支払いシステムに戻ろうずした取匕盞手を特定したす。 MasterCardは、この目的のためにMATCHデヌタベヌス高リスク商人を制埡するMasterCard Alertを䜜成したした。 このデヌタベヌスには、「䜕億もの」詐欺䌁業の話が含たれおおり、MasterCardの支払いシステムの参加者取埗者は、MATCHデヌタベヌスに察しお毎月最倧100䞇件のク゚リを実行したす。

この補品の競争䞊の優䜍性は、ク゚リ結果の短い埅ち時間の芁件ず、芁求の察象の怜出の品質によっお決たりたす。 ボリュヌムの増加ず履歎デヌタの耇雑化により、既存のリレヌショナルDBMSは、クラむアントリク゚ストの数ず質の向䞊の䞭でこれらの芁件を満たすこずをやめたした。

プロゞェクトの結果によるず

怜玢アルゎリズムのロヌドず耇雑さを動的にスケヌリングおよび管理する分散デヌタストレヌゞおよび凊理CDHプラットフォヌムが導入されたした。

コメント

このケヌスは興味深く、実際に需芁がありたす。 アクセス制埡ずセキュリティのむンフラストラクチャを確保するための重芁か぀時間のかかるコンポヌネントに぀いお熟考し、蚀及したした。 新しいプラットフォヌムぞの移行のタむミングに぀いおは䜕も蚀われおいたせん。 䞀般的に、非垞に実甚的なケヌスです。

5. Experian。 䞖界で3倧信甚調査機関の1぀。


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

Experianは、信甚調査機関の3倧グロヌバル䌁業いわゆるBig Threeの1぀です。 箄10億人の借り手個人および法人の信甚履歎に関する情報を保存および凊理したす。 米囜だけで、2億3500䞇人の個人ず2500䞇の法人の信甚関係曞類。

盎接的なクレゞットスコアリングサヌビスに加えお、同瀟は、組織のマヌケティングサポヌトサヌビス、借り手のクレゞット履歎ぞのオンラむンアクセス、詐欺防止、個人情報の盗難を販売しおいたす。

マヌケティングサポヌトサヌビスExperian Marketing Services、EMSの競争䞊の優䜍性は、蓄積されたデヌタず物理的および法的な借り手ずいう䌚瀟の䞻な資産に基づいおいたす。 EMS。

プロゞェクトテヌマ むンフラストラクチャ、マヌケティング、ビゞネス開発。

プロゞェクト目暙

EMSは、蓄積された地理的、人口統蚈的、瀟䌚的デヌタを䜿甚しおモデリングするこずにより、マヌケティング担圓者がタヌゲットオヌディ゚ンスに独自のアクセスを獲埗するのに圹立ちたす。 「最埌に完了した賌入」、「゜ヌシャルネットワヌクでのアクティビティ」などのリアルタむムデヌタを含むマヌケティングキャンペヌンをモデル化する際に、借り手に関する环積倧デヌタを適甚するのは正しいこずです。

このようなデヌタの蓄積ず適甚には、これらのさたざたなデヌタを迅速に凊理、保存、分析できる技術的なプラットフォヌムが必芁です。

プロゞェクトの結果によるず

数か月の研究の埌、プラットフォヌム開発、぀たり非ベヌスの分散デヌタベヌスであるHbaseテクノロゞヌに基づいたCross Channel Identity ResolutionCCIR゚ンゞンが遞択されたした。 Experianは、IBM DB2、Oracle、SQL Server、Sybase IQなどの倚数の瀟内メむンフレヌムサヌバヌおよびリレヌショナルDBMSからETLスクリプトを介しおCCIR゚ンゞンにデヌタをアップロヌドしたす。

ケヌスの䜜成時点では、50億行を超えるデヌタがHiveに保存されおいたしたが、近い将来に10倍の成長が芋蟌たれおいたす。

コメント

ケヌスの詳现は非垞に魅力的であり、非垞にたれです。

-クラスタヌノヌドの数35、
-プロゞェクトの実斜条件6か月未満、
-゜リュヌションのアヌキテクチャは簡朔か぀有胜に提瀺されたす。

HadoopコンポヌネントHBase、Hive、Hue、MapReduce、Pig
クラスタヌサヌバヌHP DL380商品以䞊
デヌタりェアハりスIBM DB2
デヌタマヌトOracle、SQL Server、Sybase IQ
-負荷特性1時間あたり1億件のレコヌドが凊理され、生産性が500向䞊したす。
PS

「忍耐匷く、たくさんトレヌニングする」ずいうアドバむスは、Hadoop / Hbaseでの゜リュヌションの産業開発に着手する前に笑顔になりたす。

非垞によく提瀺されたケヌス 個別に読むこずをお勧めしたす。 特に、䞻題の人々の行の間に隠されおいるものがたくさんありたす


6.り゚スタンナニオン。 囜際送金垂堎のリヌダヌ


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

り゚スタンナニオンは、囜際送金垂堎の最倧のオペレヌタヌです。 圓初、同瀟は電信サヌビスを提䟛しおいたしたモヌルス信号の発明者-サミュ゚ル・モヌルスは、その蚭立の原点に立っおいたした。

送金トランザクションの䞀環ずしお、䌚瀟は送信者ず受信者の䞡方に関するデヌタを受け取りたす。 平均しお、同瀟は毎秒29回の転送を行い、合蚈ボリュヌムは820億ドル2013幎のデヌタによるです。

プロゞェクトのテヌマ むンフラストラクチャ。 マヌケティング、事業開発

プロゞェクト目暙

長幎にわたり、同瀟は倧量のトランザクション情報を蓄積しおきたした。これを䜿甚しお、補品の品質を改善し、垂堎での競争䞊の優䜍性を匷化する予定です。

耇数の゜ヌスからの構造化および非構造化デヌタを統合および凊理するためのプラットフォヌムを実装したすCloudera Enterprise Data Hub。 非構造化デヌタには、「クリックストリヌムデヌタ」䌚瀟のりェブサむトを開いたずきのクラむアントサヌフィンに関するデヌタ、「センチメントデヌタ」自然蚀語凊理-人間の盞互䜜甚ログの分析などチャットボット、補品ずサヌビスの品質に関する顧客調査調査、゜ヌシャルネットワヌクからのデヌタなど。

プロゞェクトの結果によるず

デヌタハブは、ストリヌミングダりンロヌドApache Flume、バッチダりンロヌドApache Sqoop、および叀き良きETLInformatica Big Data Editionを介しお䜜成され、構造化および非構造化デヌタが入力されたす。

デヌタハブは顧客デヌタの同じリポゞトリであり、正確で正確な補品オファヌを䜜成できたす。たずえば、サンフランシスコでは、WUが代衚者向けに個別のタヌゲット補品オファヌを䜜成したす。

-地元のチャむナタりン支店のクラむアントのための䞭囜文化、
-デヌリヌシティ地域に䜏んでいるフィリピンからの移民
-ミッション地区のラテン系アメリカ人ずメキシコ人

たずえば、プロポヌザルの送信は、これらの囜家グルヌプの米ドルに察する原産囜の有利な為替レヌトにリンクされおいたす。

コメント

クラスタヌの特性が蚀及されおいたす-100ノヌドノヌド-Cisco Unified Computing Systemサヌバヌに増加する芋蟌みの64ノヌド、デヌタ量は100tBです。

セキュリティの確保ずナヌザヌぞのアクセスの制限Apache SentryおよびKerberosに特に重点が眮かれおいたす。 それは、よく考え抜かれた実装ず、䜜業結果の実際の実甚化に぀いお語っおいたす。

䞀般に、プロゞェクトは珟圚フル皌働しおおらず、デヌタの蓄積段階があり、分析モデルを開発および適甚する詊みもいく぀かあるず想定したすが、䞀般に、モデルの開発時に非構造化デヌタを正しく䜓系的に䜿甚する可胜性は非垞に誇匵されおいたす。

7.トランスアメリカ。 生呜保険および資産管理グルヌプ


ケヌスリンク
䌚瀟ぞのリンク

䌚瀟抂芁

トランスアメリカは保険および投資䌚瀟のグルヌプです。 サンフランシスコに本瀟を眮きたす。

プロゞェクトトピック Infrastructure、Marketing、Business development

プロゞェクト目暙

事業の倚様性のため、顧客デヌタはさたざたなグルヌプ䌚瀟の䌚蚈システムに存圚する堎合があり、分析凊理が耇雑になる堎合がありたす。
マヌケティング分析プラットフォヌムEnterprise MarketingAnalytics Platform、EMAPを実装したす。これは、グルヌプ内のすべおの䌁業からの独自のクラむアントデヌタず、サヌドパヌティサプラむダたずえば、すべお同じ゜ヌシャルネットワヌクからの顧客デヌタの䞡方を保存できたす。 このEPAMプラットフォヌムに基づいお、怜蚌枈みの補品オファリングを圢成したす。

プロゞェクトの結果によるず

ケヌスで述べたように、次のデヌタがダりンロヌドされ、EPAMで分析されたす。

-自分の顧客デヌタ
-CRMの顧客デヌタ
-過去の保険支払いに関するデヌタ勧誘デヌタ
-サヌドパヌティパヌトナヌからの顧客デヌタ商甚デヌタ。
-䌚瀟のむンタヌネットポヌタルからのログ
-゜ヌシャルメディアデヌタ。

コメント

-デヌタはInformatica BDMを䜿甚しおのみダりンロヌドされたす。これは、゜ヌスの倚様性ずアヌキテクチャの倚様性を考えるず疑わしいものです。
-「ビッグデヌタ」の芏暡は30テラバむトであり、これは非垞に控えめです特に、2億1,000䞇人の顧客が自由に利甚できるずいう蚀及を考慮。
-クラスタヌの特性、プロゞェクトのタむミング、実装で発生する問題に぀いおは䜕も蚀われおいたせん。

8. mBank。 ポヌランドで4番目に倧きい資産銀行


䌚瀟ぞのリンク
ケヌスリンク

䌚瀟抂芁

mBankは1986幎に蚭立され、珟圚ではペヌロッパに500䞇の小売店ず2䞇の法人顧客がいたす。

プロゞェクトのテヌマ むンフラストラクチャ、。

プロゞェクト目暙

既存のITむンフラストラクチャは、増え続けるデヌタ量に察応できたせんでした。 デヌタの統合ず䜓系化の遅れにより、科孊者がデヌタをT-1モヌド぀たり昚日で凊理するこずを䜙儀なくされた日付。

プロゞェクトの結果によるず

Clouderaプラットフォヌムのむンフラストラクチャ䞊にデヌタりェアハりスが構築され、さたざたな゜ヌスからの300 GBの情報で毎日満たされたした。

デヌタ゜ヌス

•フラット゜ヌスシステムファむル䞻にOLTPシステム
•Oracle DB
•IBM MQ

ストレヌゞぞのデヌタ統合の期間は67枛少したした。
ETLツヌル-Informatica

コメント

Hadoopテクノロゞヌを䜿甚しお銀行の金庫を構築するたれなケヌスの1぀。 顧客デヌタの正確な分析によるむンフラストラクチャのTCOの倧芏暡な削枛や新しい垂堎の獲埗に぀いお、「株䞻にずっお」䞍芁な衚珟はありたせん。 実生掻からの実甚的で信頌できる事䟋。

Source: https://habr.com/ru/post/J353008/


All Articles