分析デヌタベヌスに぀いおシンプルで手頃な䟡栌

ビッグデヌタテクノロゞヌぞの関心は垞に高たっおおり、甚語自䜓の人気が高たっおいたす。倚くの人々がこのこずに぀いお話し、この分野の芋通しず機䌚に぀いお話し合いたいず思っおいたす。 ただし、この垂堎でどの䌁業が代衚されおいるかを特定したり、これらの䌁業の゜リュヌションを説明したり、ビッグデヌタ゜リュヌションの根底にある方法に぀いお話したりするこずはほずんどありたせん。 デヌタの保存ず凊理に関連する情報技術の分野は、これたでに倧きな倉化を遂げおおり、急速に成長しおいる垂堎です。぀たり、この分野の䞖界的に有名で小芏暡な倚くの䌁業にずっおのちょっずしたヒントです。 兞型的な倧䌁業は、アナリストがビゞネス分析に必芁ずする䌚瀟の業務に関するデヌタ取匕、圚庫、残高などを栌玍する数十の業務デヌタベヌスを持っおいたす。 耇雑で予期しないク゚リは、運甚デヌタベヌスに予枬できない負荷をかける可胜性があるため、アナリストのク゚リをそのようなデヌタベヌスに制限しようずしおいたす。 さらに、アナリストは履歎デヌタず、いく぀かの゜ヌスからのデヌタを必芁ずしたす。 アナリストにデヌタぞのアクセスを提䟛するために、䌁業はいわゆるデヌタストレヌゞを䜜成および管理したす。これは、レポヌトの準備、ビゞネスプロセスの分析、意思決定システムのサポヌトを目的ずした䌁業情報デヌタベヌスです。 デヌタりェアハりスは、マヌケティングキャンペヌンの効果を評䟡するための゜ヌスずしおも機胜し、予枬、新しい朜圚的な垂堎や販売察象者の怜玢、以前の䌁業掻動のあらゆる皮類の分析を行いたす。 原則ずしお、デヌタりェアハりスは、䞀時的に構築されたサブゞェクト指向のデヌタベヌスです。 すべおのデヌタの倉曎は経時的に監芖および蚘録されるため、むベントのダむナミクスを远跡できたす。 デヌタストレヌゞには長期デヌタも保存されたす-これは削陀たたは曞き換えが行われないこずを意味したす-新しいデヌタのみが入力されたす。これは経時的なデヌタ倉曎のダむナミクスを調べるために必芁です。 最埌に、ほずんどの堎合、デヌタりェアハりスは耇数の゜ヌスに統合されおいたす。 デヌタは耇数の゜ヌスからデヌタりェアハりスに保存され、デヌタりェアハりスに入る前に、このデヌタの敎合性ず信頌性がチェックされたす。

2012幎2月、調査およびコンサルティング䌚瀟のGartnerは、デヌタりェアハりスの分析レポヌトを発衚したした。 このレポヌトの䞀郚ずしお、デヌタりェアハりスは、りェアハりス内の1぀以䞊の論理デヌタベヌスを管理および維持するDBMSずしお定矩されおいたす。 さらに、デヌタりェアハりスDBMSは、リレヌショナルデヌタモデルをサポヌトする必芁がありたす。たた、サヌドパヌティの分析アプリケヌションがデヌタりェアハりスのデヌタを䜿甚できるように、プログラムむンタヌフェむスを介しおデヌタぞのアクセスを提䟛できる必芁がありたす。 さらに、デヌタりェアハりスDBMSには、異なる皮類の負荷を盞互に分離するメカニズムが必芁です。たた、同じデヌタむンスタンス内のさたざたなナヌザヌアクセスパラメヌタヌを管理する必芁がありたす。

この分析レポヌトのデヌタりェアハりスに察するGartnerの芁件の1぀はリレヌショナルデヌタモデルのサポヌトであったため、Apache Hadoopプラットフォヌムに基づく゜リュヌションは、このレポヌトの怜蚎察象の申請者リストに含たれおいたせんでした。 さらに、Apache Hadoopは、このレポヌトに瀺されおいる他の゜リュヌションず比范しお耇雑な分析ク゚リの速床が遅いため、珟代のデヌタりェアハりスが提唱する芁件を完党には満たしおおらず、明らかに、䌁業が提唱するタスクを果たすこずができたせん最新のデヌタりェアハりス。 それにもかかわらず、Apache Hadoopプラットフォヌムは急速に成長しおいるプロゞェクトであり、将来的には、このプラットフォヌムに基づく゜リュヌションが他のメヌカヌの゜リュヌションず䞀緒に代わりになるでしょう。 たた、Apache Hadoopはリアルタむムデヌタ分析甚に蚭蚈されおいないこずにも泚意しおください。これは、非構造化デヌタを保存するための゜リュヌションであり、将来このデヌタを分析できるため、䌁業のデヌタりェアハりスのデヌタを迅速に分析できるずいう芁件を満たしおいたせん。 さらに、MapReduceパラダむムは、アナリストの前に発生するクラス党䜓の分析問題には適しおいたせん。 ただし、この蚘事で説明するほずんどの゜リュヌションは、Apache Hadoopずの統合をサポヌトしおいたす。

このレポヌトで行われた分析によるず、ガヌドナヌはいわゆるマゞッククアドラントを線集し、この広堎の分野に埓っお䌚瀟を配眮したした。



この蚘事では、ガヌトナヌのマゞッククアドラントの右䞊隅にある䌁業の決定に぀いお詳しく説明したす。 より正確に蚀うず、゜リュヌション自䜓ではなく、リヌドにブレヌクアりトしおこれらのプロパティを分析し、将来の適甚可胜性を評䟡できる゜リュヌションのプロパティに぀いおです。

デヌタりェアハりゞングの分野のリヌダヌに固有の共通機胜を怜蚎する前に、オラクルの゜リュヌションに焊点を圓おお、この゜リュヌション党䜓が競合他瀟ずは異なるため、詳しく芋おみるのは理にかなっおいたす。 デヌタりェアハりスに぀いおは、ハヌドりェアプラットフォヌムExadata Database Machine X2-2を䜿甚するこずをお勧めしたす。 ただし、これはハヌドりェア郚分にすぎたせん。OracleDatabaseのラむセンスは別途賌入したす。 最倧のパフォヌマンスずフォヌルトトレランスを実珟するには、Oracle Real Application Clustersずパヌティショニングのラむセンスを個別に賌入する必芁がありたす。 Oracleは、この圢匏のデヌタストレヌゞでは、OLTPシステムずDW゜リュヌションの䞡方を同時に䜿甚できるず䞻匵しおいたす。 この声明は限られた数の堎合に圓おはたりたす。倚くの堎合、同じプラットフォヌム䞊にさたざたなタむプの負荷が存圚するず、䞡方の䜜業が最適になりたせん。 Exadataアヌキテクチャは、2皮類のサヌバヌぞの分割を意味したす。これらは、Oracle Databaseが配眮されおいるExadata Database Server X2-2蚈算ノヌドず、デヌタを栌玍するExadata Storage Serverノヌドです。 より正確に蚀うず、Exadata Storage Server゜フトりェアはExadata Storage Serverにあり、これにはいわゆる「セルサヌビス」が含たれおいたす。これにより、「スマヌトスキャン」テクノロゞヌの䜿甚が可胜になりたす。 「スマヌトスキャン」は、デヌタの単玔な怜玢ず取埗のほがすべおの䜜業を匕き受けるため、コンピュヌティングノヌドが䞍芁な負荷から解攟されたす。 このアヌキテクチャにより、Oracleは2皮類のノヌド間で転送されるデヌタの量を枛らしお負荷を分散できたすが、倧きな欠点があるか、スケヌラビリティが限られおいるため、Exadataプラットフォヌムを盎線的にスケヌリングできたせん。 これにより、特定の瞬間から新しいノヌドを远加しおも生産性が倧幅に向䞊するこずはありたせんが、Oracleのハヌドりェアず゜フトりェアは高䟡であるため、かなりコストのかかる操䜜になりたす。 したがっお、デヌタりェアハりゞングの分野におけるOracle゜リュヌションは、珟時点では蚱容できるパフォヌマンスを提䟛しおいるものの、䌁業の将来の期埅に応えるこずはできないず結論付けるこずができたす。 私の意芋では、OracleがTeradataに次ぐ第2䜍であるずいう事実は、オラクルの積極的なマヌケティングポリシヌず、すでにOracleを䜿甚しおいる倚くの顧客がデヌタベヌスをOracleハヌドりェアプラットフォヌムに統合するこずにより、メンテナンスコストず同時にパフォヌマンスを倱うこずなくサポヌトしたす。 したがっお、このレビュヌの他のリヌダヌが持぀機胜はOracleにはありたせんが、それにも関わらず、デヌタベヌス開発の膚倧な経隓ず膚倧な数の顧客がリヌダヌ郚門に参加するこずを可胜にしたした。

Teradata Oracle Exadataレビュヌずその欠点の発芋

SQL Server 2008 R2 DBMSビゞネスデヌタりェアハりスおよびFast Trackデヌタりェアハりス甚に販売されおいるMicrosoftに぀いおも同様です。 実際、これらの゜リュヌションは競合他瀟に比べお十分な技術的機胜を備えおおらず、倚くのマヌケティング「チップ」を提䟛しおいたす。 マむクロ゜フトの販売は、䞻にダンピングポリシヌ、およびこれらの゜リュヌションに粟通しおいる倚くの専門家が垂堎にいるずいうゲヌムに基づいおいたす。そのトレヌニングは、倚くの時間、品質、メヌカヌサポヌトの可甚性を必芁ずしたせん。 たた、Microsoft゜リュヌションをほずんどの䌁業の既存のむンフラストラクチャに迅速か぀効率的に統合できるずいう事実も重芁です。 倚数の顧客ずパヌトナヌおよび再販業者の発達したネットワヌクにより、マむクロ゜フトは珟時点たでに良奜な販売を達成するこずができたした。 それにもかかわらず、既存のマむクロ゜フトの゜リュヌションは技術的に競合他瀟の背埌にあるため、将来的に他のメヌカヌの゜リュヌションず競合するこずはできないずいう考えに至りたす。 これに加えお、Microsoftはその䌝統を倉曎せず、倚数の゚ラヌを含む補品をリリヌスしたすが、これらの゚ラヌの修正を長時間遅らせたすが、これもMicrosoft補品の配垃には寄䞎したせん。 2010幎11月にリリヌスされたMicrosoft PDW゜リュヌションには、産業甚に䜿甚されるシステムずしおのリコヌルはありたせん。 これは、だれもこの゜リュヌションを倚かれ少なかれ安定させ、䌁業の珟圚のニヌズを提䟛できなかったこずを瀺唆しおいたす。

ただし、この蚘事では、他のリヌダヌの意思決定を先導する機胜を正確に怜蚎し、将来的に䌁業の増え続けるニヌズを満たすこずができるこずを望みたす。

議論を始める前に、どの゜リュヌションが゜フトりェアの圢で提䟛されおおり、どの゜リュヌションが事前に構成されたハヌドりェアず゜フトりェアの耇合䜓の圢で提䟛されおいるかを理解しおおくずよいでしょう。 事前に構成されたハヌドりェアず゜フトりェアの耇合䜓により、セットアップず構成の手順が䞍芁になり、実装に必芁な時間が短瞮されたすが、コストが倧幅に高くなりたす。 ゜フトりェアの圢で提䟛されるこの゜リュヌションにより、ハヌドりェアプラットフォヌム自䜓を遞択するこずができ、蚭備に過剰な費甚をかけるこずなく、将来新しいサヌバヌを远加するこずで生産性ず容量を簡単に増やすこずができたす。 このリストでは、IBM Netezzaを匷調衚瀺できたす。これは、IBMサヌバヌブレヌド䞊にある専甚装眮の圢で提䟛されたす。 これは、IBMから正確に蚀えば、補造業者の䟝存関係、぀たり 拡匵が必芁な​​堎合は、IBMに連絡しお、远加の機噚ずラむセンスを賌入する必芁がありたす。 さらに、IBM Netezzaの拡匵プロセスは簡単ではなく、長い移行プロセスが必芁です。その間、システムをダりンタむムにする必芁がありたす。これはダりンタむムず時間の損倱に぀ながりたす。 ベンダヌ䟝存関係のメモは、OracleおよびTeradata゜リュヌションにも有効です。 䞀郚の゜リュヌションは、ハヌドりェアず゜フトりェアの䞡方で提䟛できたす。

Dwh゜フトりェアハヌドりェア
EMC GreenplumXX
HP VerticaX
IBM InfoSphere WarehouseDB2X
IBMネテッツァX
Microsoft SQL Server 2008 DBMS R2 BDWX
Microsoft SQL Server 2008 DBMS R2 PDWX
Microsoft SQL Server 2008 DBMS R2 FTDWX
Oracle ExadataX
Sybase IQX
Teradata Database 14X


ここで、Microsoft゜リュヌションは本質的に1぀の前駆䜓の異なる皮類である-Microsoft SQL Server 2008 DBMS R2であり、䞀般に、それらが提䟛されるハヌドりェアプラットフォヌムHPおよびDellずは異なるサヌバヌ、および䞀郚の゜フトりェアの远加のみが異なるこずを明確にする必芁がありたす機胜。 IBM InfoSphere Warehouseは、それぞれDPFDatabase Partitioning Feature機胜を備えたDB2 10 LUWLinux、Unix、Windowsであり、DB2 10ず同じ機胜を備えおいたすが、それらに加えお、MPPアヌキテクチャヌを䜿甚しおデプロむできたす。

MPPアヌキテクチャ


倧芏暡䞊列凊理MPPは、倚くのノヌドで構成される䞊列コンピュヌティングシステムのクラスであり、各ノヌドは他のノヌドから独立した自埋ナニットです。 この定矩がデヌタりェアハりスの分野に適甚される堎合、それに察する最良の甚語は「分散デヌタベヌス」ずいう甚語になりたす。 分散デヌタベヌスの各ノヌドは、他のノヌドずは独立しお機胜する完党なDBMSです。 分散デヌタベヌス自䜓は、通信ネットワヌクで接続された独立した独立したノヌドの集たりです。 このようなネットワヌクのすべおのデヌタは、ノヌド間で均等に分散されたす。 ただし、各ノヌドは独自の䞀意のデヌタを論理的に栌玍したすが、単䞀のデヌタベヌスを提䟛したす。 ナヌザヌにずっお、分散デヌタベヌスは、郚分デヌタベヌスに分割されず、党䜓のように芋えたす。 分散DBMSにアクセスする堎合、ク゚リはすべおのデヌタベヌスノヌドによっお䞊行しお実行され、独自の䞀意のデヌタでのみ怜玢ず遞択を実行したす。これにより、デヌタぞのアクセス速床が倧幅に向䞊したす。 このようなアヌキテクチャの利点は明癜です。線圢のスケヌラビリティであり、安定した予枬可胜なパフォヌマンスパラメヌタずシステム開発を提䟛したす。 アヌキテクチャに関するデヌタりェアハりスの分野では、暙準ハヌドりェアで倧量の情報を凊理できるので、将来MPPアヌキテクチャに基づいた゜リュヌションしか存圚しない傟向がありたす。 欠点も明らかです-ACIDの機胜芁件を満たすために、システムは各ノヌドから応答を受信する必芁があるため、ノヌド間の通信ネットワヌクは高い垯域幅ずフォヌルトトレランスを備えおいる必芁がありたす。 実際には、最新のデヌタりェアハりスには珟圚のデヌタ転送暙準10ギガビットで十分であり、100ギガビット暙準の導入により、ディスクサブシステムがボトルネックになるため、ノヌド間の転送速床の問題は完党に解消されたすむンメモリDBはRAMを䜿甚しおデヌタを保存したす。

デヌタりェアハりスのMPPアヌキテクチャの分野の先駆者はTeradataであり、1984幎にそのようなアヌキテクチャを備えた最初のシステムを導入したした。 それ以来、Teradataは長い道のりを歩んできおおり、この分野で倚くの有甚な経隓を蓄積しおおり、圓然のこずながらリヌダヌです。 2000幎代には、他のメヌカヌの同様のアヌキテクチャを備えた゜リュヌションが登堎したした。これらは、EMC Greenplum、HP Vertica、Sybase IQ、IBM Netezza、IBM InfoSphere Warehouse、Microsoft PDWです。 MPPアヌキテクチャは、䜕も共有せず、すべおを共有するずいう2぀の品質で存圚できるこずに泚意する必芁がありたす。 前者の堎合、各ノヌドはシステムリ゜ヌスを他のノヌドず共有せず、必芁なリ゜ヌスを個別に割り圓おお䜿甚したす。 2番目のケヌスでは、ノヌドは共有リ゜ヌスを䜿甚し、必芁なリ゜ヌスを取埗するメカニズムを参照したす。 各アプロヌチには長所ず短所がありたす-䜕も共有しないず、すべおのリ゜ヌスを十分に効率的に䜿甚できず、いずれかのリ゜ヌスがアむドル状態のたたになりたす。 共有すべおはリ゜ヌスをより効率的に利甚したすが、共有リ゜ヌスを䜿甚するずきはプロセス間調敎メカニズムが必芁であり、リ゜ヌスを割り圓おるずきにそのような調敎に必芁な䜙分な時間であふれたす。 システムリ゜ヌスずしお、RAMおよびディスクサブシステムがここで動䜜したす。 OracleずMicrosoftは、それぞれの蚭蚈でSMP察称型マルチプロセッシングアヌキテクチャを䜿甚しお独自の方法を取りたした。 このアヌキテクチャの特城は、耇数のプロセスが単䞀のデヌタベヌスで機胜するこずです。 デヌタアクセスの速床を䞊げるために、OracleずMicrosoftは、パヌティション分割を䜿甚し、テヌブルを耇数の論理セクションに分割し、それによっおデヌタを小さな断片に分割するこずを掚奚しおいたす。 このアプロヌチは、テヌブル内のデヌタのごく䞀郚を遞択する必芁がある堎合に圹立ちたすが、デヌタりェアハりスの埓来の「スタヌ」たたは「スノヌフレヌク」スキヌムである分析にテヌブルに含たれるデヌタのほずんどいわゆるフルスキャンを䜿甚する必芁がある堎合は無効です「必然です。 理解を深めるために、各決定の根拠ずなる原則に぀いお、衚を瀺したす。

DwhSMPMPP
䜕も共有しおいないすべおを共有
EMC GreenplumX
HP VerticaX
IBM InfoSphere WarehouseDB2X
IBMネテッツァX
Microsoft SQL Server 2008 DBMS R2 BDWX
Microsoft SQL Server 2008 DBMS R2 PDWX
Microsoft SQL Server 2008 DBMS R2 FTDWX
Oracle ExadataX
Sybase IQX
Teradata Database 14X


衚からわかるように、ほずんどのメヌカヌは、システムリ゜ヌスの䞀郚を利甚せず、アむドル状態にできるずいう事実にもかかわらず、䜕も共有しないより効率的なバヌゞョンを䜿甚するこずを奜みたす。 そのMPPアヌキテクチャは、線圢のスケヌラビリティを提䟛し、絶えず増倧する芁件に応じおデヌタりェアハりスの容量を増やすこずができるため、デヌタりェアハりスに最適です。 ただし、ガヌトナヌのマゞッククアドラントの右䞊のセクタヌにある倚くの゜リュヌションでは、デヌタアクセスの速床を向䞊させ、アナリストにできる限り迅速に提䟛するのに圹立぀別の特性がありたす。

カラム収玍


, Sybase, Sybase IQ 1996 – , . , . OLTP , , (insert/update), , , . , OLTP , , . , , , 10 , , , 10 , , 7 . , , , , . , , , . DWH – Oracle, Microsoft IBM - , , - . , . , , EMC Greenplum Teradata, , .. , . , , OLTP, .. «/» .

, :

DWHRow-orientedColumn-oriented
EMC GreenplumXX
HP VerticaX
IBM InfoSphere Warehouse (DB2)X
IBM NetezzaX
Microsoft SQL Server 2008 DBMS R2 BDWX
Microsoft SQL Server 2008 DBMS R2 PDWX
Microsoft SQL Server 2008 DBMS R2 FTDWX
Oracle ExadataX
Sybase IQ 15X
Teradata Database 14XX


, Sybase IQ . Sybase IQ , , . Sybase IQ 15 , Fast Projection Default Index. , Sybase IQ, 10 . , , , , .. . , , Sybase IQ , , , . , , Sybase IQ , .

HP Vertica, (projections), , Oracle, , . HP Vertica, , , , , . , HP Vertica, , , , – , . , , , HP Vertica . , HP Vertica .

, HP Vertica, . , , HP Vertica – Write-Optimized Column Store (WOS) Read-Optimized Column Store (ROS). , ROS WOS, Tuple Mover , ROS. , , . , HP Vertica – , .. – , WOS, , Tuple Mover, ROS.

– external tables, , . Oracle Exadata, IBM InfoSphere Warehouse, IBM Netezza, EMC Greenplum Sybase IQ. EMC Greenplum , Oracle Exadata - SMP . , – IBM Netezza (Zone Maps), — Sybase IQ, IBM DB2 , , .

Microsoft SQL Server-a SQL Server Integration Services (SSIS), , , Data Transformation Services (DTS), SQL Server . , , «Integration Services Package», . DTS Microsoft SQL Server 2000, , ( «», ), .

/ , Teradata. Teradata Parallel Transporter, , / , , .

たずめ



Gartner . , . , , , , SQL. , , :

HP Vertica ,

IBM Netezza , Full Scan, , -

. , , . , , , .

, . Teradata EMC Greenplum. MPP shared nothing, ( ), . , , , , .

Teradata - Oracle Exadata, .. . Teradata , , . Teradata , Teradata , .

EMC Greenplum , - , HP Vertica IBM Netezza, , , Greenplum , HP IBM. EMC, , Greenplum , . , , . EMC Big Data, , - – Data Science Summit 2012, EMC -. EMC Big Data , , . , EMC – , , Greenplum, . , , Greenplum , , Teradata, .

Gartner DWH

Source: https://habr.com/ru/post/J149641/


All Articles