最近、チームの内部と外部の両方で、「ビッグデータ」と「データマイニング」の概念のさまざまな解釈に遭遇することがよくあります。 このため、提案された技術と両当事者にとって望ましい結果に関する請負業者と顧客の間での誤解が高まっています。
状況は、一般的に受け入れられている標準化者からの明確な定義の欠如、および潜在的なバイヤーの目には異なる作業コストの順序によって悪化しています。
市場では、「データマイニング」はダンプが請負業者に出荷されたときであり、そこでいくつかの傾向を見つけ、レポートを生成し、100万ルーブルを受け取ったという意見がありました。 「ビッグデータ」では、すべてがはるかに興味深いものになります。 人々はこれは黒魔術のようなものだと考えており、魔法は高価です。
この記事の目的は、これらの概念の解釈に大きな違いがないことを証明することと、主題を理解する上での主要なダークスポットを明確にすることです。
ビッグデータとは?
ウィキペディアが
en.wikipedia.org/wiki/Big_Dataで提供しているものは次のとおりです。
情報技術のビッグデータ(英語のビッグデータ)は、膨大な量の構造化および非構造化データを処理し、継続的に成長し、最終的に形成されるコンピューターネットワークの多数のノードに分散する状況で効果的な人間の知覚結果を得るための一連のアプローチ、ツール、および方法です2000年代、従来のデータベース管理システムおよびビジネスインテリジェンスソリューションの代替。何が見えますか? 特定のオブジェクト(大きな自転車、小さな木、スクーターなど)の外観を決定する定義は、実際には特定の方法と目標のセットを定義し、実際には特定の範囲のプロセスを定義します。 ジョギング(プロセス)をティーポット(オブジェクト)と呼ぶことができるという前提で、そのような定義に同意することは可能ですか? 言うのは難しいですが、定義を分解してみましょう。
ビッグデータ:
- 特定の技術、ツール、および方法。
- データは構造化および非構造化できます。
- データは巨大でなければなりません。
- データ処理の結果として、ある程度の利益が得られるはずです。
定義のこれらのコンポーネントでは、何が明確ではありません:
ビッグデータメソッドによって解決されるタスクは次のとおりです。
- データ収集(パーサー、ゲートなど);
- データストレージ(複雑なCDの構築);
- データの操作(集計、分析、説明);
- 関係を特定し、傾向を構築します(おそらく、予測の最終目標を使用して)。
非構造化データ
ウィキペディアが
en.wikipedia.org/wiki/Unstructured_dataで提供しているものは次のとおりです。
非構造化データ(または非構造化情報)は、事前定義されたデータモデルを持たないか、事前定義された方法で編成されていない情報を指します。 通常、非構造化情報はテキストが多くなりますが、日付、数値、事実などのデータも含まれる場合があります。言い換えれば、彼らは構造のないデータがあることを教えようとします...さらに、彼らはそのようなデータの最も致命的な例を与えます-テキスト。 ロシア語/テキストの構造が明確ではないことを知っていれば、ロシア語と文学の私の先生が言うことは興味深いです。その結果、それを研究する年月は無意味です。
私の視点を理解するために、Postgresのテキストフィールドの例を挙げます。 JSONをそこに置いたとします。 バージョン8の場合は単なるテキスト(非構造化データ)になり、9の場合はすでにJSON(構造化データ)になります。 つまり、同じデータが構造化および非構造化の両方ですか? 再び、物理学の講義から想像を絶する二元論? 答えは簡単です。非構造化データはありません。一部の種類のデータについては、一般に受け入れられていないと同時に、このデータを扱う広範な方法はありません。
もちろん、有能な読者は絶叫しますが、ビデオデータについてはどうでしょうか。 ビデオはフレームのセットです。 任意のフレームは画像です。 画像には次の2つのタイプがあります。
ベクター画像を非構造化と呼ぶことは非常に困難です。 ここでは、少なくともSVG形式(基本的にXML)について読むことができます。 実際、ラスターイメージはポイントの配列であり、各ポイントは完全に明確なデータ構造によって記述されます。
合計 -
非構造化データは存在しません。巨大なサイズ
ここでは、世論と矛盾はありません。 データの量に問題が発生すると(受信するのが困難、保存するのが難しい、処理するのが難しいなど)、すぐに(データの)巨大なサイズになります。 概念は非常に主観的であり、私にとっては巨大なサイズは断片的に測定されます。 私にとって、ビッグデータの一番下の行は100万件の記録です。 正当化-このようなボリュームでタイプΘ(n2)の複雑さを持つDBMSへのクエリには数分かかりますが、これは私にとって長い時間です。
他の人にとっては、理論的根拠/基準は異なる可能性があり、したがって、巨大なサイズの下限は異なります。
データマイニングとは
ウィキペディアが
en.wikipedia.org/wiki/Data_miningで提供するものは次のとおりです。
データマイニング(ロシア語のデータマイニング、データマイニング、データマイニング)は、人間の活動のさまざまな分野で意思決定を行うために必要な、これまで未知であり、自明ではなく、実用的でアクセス可能な知識の解釈を検出するための一連の方法を示すために使用される総称です。 この用語は、1989年にGrigory Pyatetskiy-Shapiroによって導入されました。それを単純な言語に翻訳する-あなたはすでに何らかの方法で既に処理された何らかの種類のデータ配列を既に持っているが、今度はおそらく以前とは何らかの方法でこのデータ配列を再度処理し、後で使用するいくつかの有用な結論を得る利益。
ウィキペディアの定義によれば、「データマイニング」の分解には次のことが含まれています。
- 特定の技術、ツール、および方法。
- データは既に何らかの形で保存されており、既に何らかの形で機能しているため、データは既に構造化されています。
- データのサイズは任意です。
- データ処理の結果として、ある程度の利益が得られるはずです。
データマイニングメソッドによって解決されるタスクは次のとおりです。
- データの操作(集計、分析、説明);
- 関係を特定し、傾向を構築します(おそらく、予測の最終目標を使用して)。
結論
上記の定義の分解によれば、データマイニングは、データボリュームに対する民主的なアプローチにより、ビッグデータを「勝ち取ります」。
ビッグデータとデータマイニングの方法を使用して解決できるタスクのリストによると、ビッグデータはデータの収集と保存のタスクを解決するため、すでに「勝ち」ます。
したがって、原則として少量のデータを調査することは望ましくないと考える場合、データマイニングの概念の意味は、ビッグデータの概念の意味に完全に含まれます。 したがって、このタスクは単なる「データマイニング」であり、魔法の「ビッグデータ」ではないと言う人は、「これは鳥ではなく、これは単なる鳩です」と言います。これは形式的な論理の観点からは正しくありませんが、私たちは皆とても尊敬しています。
価格の面では、技術、ツール、および方法の同一のスタックが、交差するタスクに関する知識の両方の領域で使用されます。 その結果、仕事の価格も同じ注文になるはずです。
結論として、多くの人がソフトウェアスタックでこれらの概念を互いに比較し、他の概念(たとえば、著者がここで行ったように高負荷タスクと比較することを試みている:
habrahabr.ru/company/beeline/blog/218669 )を追加することは理にかなっています。 たとえば、RDBMSを使用する場合、すでに100%がビッグデータではありません。
現代のRDBMSは印象的な量のデータで動作し、ほぼすべてのタイプのデータを内部に格納できるため、この観点に同意することはできません。適切にインデックスを作成すると、アプリケーションレベルで迅速に集計および表示でき、独自のインデックスメカニズムを作成できます。
一般に、ソフトウェアとハードウェアのスタックに従ってタスクのクラスを分類することは正しくありません。ユニークなタスクにはユニークなアプローチが必要であり、これにはこの特定の問題を解決するのに最も効果的なツールが含まれます。