データ分析。 おおよそのセット

データ分析に関する一連の投稿を作成することにしました。 私は数年前からこの(そして、結局のところ非常に興味深い)コンピューターサイエンスの分野で働いています。 近似集合の理論の観点からデータの分析に注目します。

それはどうなるのでしょうか?


ラフ集合の理論は 、不確実性、不正確さ、不確実性を記述するための新しい数学的アプローチとして開発されました[ZdzisławPawlak、1982]。 これは、宇宙の各オブジェクトに何らかの情報(データ、知識)を関連付けるというステートメントに基づいています。 同じ情報によって特徴付けられるオブジェクトは、それらについて利用可能な情報の点で区別できません(類似)。 この方法で生成された識別不能な関係は、近似(ラフ)セットの理論の数学的基礎です。

近似集合の理論の概念の基礎は、集合の近似の操作です。

ここで、近似セットの近似の概念を示します。

例


実際のアプリケーション


近似セットは、属性値テーブル、情報システム、または決定テーブルとも呼ばれるデータテーブルを操作するときに使用されます。 決定表はトリプル=(U、C、D)です。ここで、
Uはたくさんのオブジェクトです
Cは条件属性のセットです
Dは決定属性のセットです。

表の例

うんCD
頭痛温度インフルエンザ
U 1はい普通のいや
U 2はい高いはい
U 3はい普通のいや
U 4はい非常に高いいや
U 5いや高いいや
U 6いや非常に高いはい
U 7いや高いはい
U 8いや非常に高いはい


テーブル分析

セット:
U = {U 1 、U 2 、U 3 、U 4 、U 5 、U 6 、U 7 、U 8 }
C = {頭痛、体温}
D = {Flu}

可能な属性値:
V 頭痛 = {はい、いいえ}
V 温度 = {標準、高、非常に高}
V インフルエンザ = {はい、いいえ}

頭痛属性の値に従ったセットUのパーティションは次のとおりです。

温度属性の値に応じたセットUのパーティションの形式は次のとおりです。

ソリューションInfluenzaの属性の値に応じたセットUのパーティションの形式は次のとおりです。

この表に示されているデータ、たとえばU 5とU 7は矛盾しており、U 6とU 8が繰り返されています。
U 5いや高いいや
U 6いや非常に高いはい
U 7いや高いはい
U 8いや非常に高いはい

実際には、近似セットを使用して、「有用な」不正確で矛盾したデータから「抽出」できます。

私たちは何に取り組みますか?


以下の投稿では、この理論を使用したデータ分析の実用的な実装(Python)を示します。

Source: https://habr.com/ru/post/J137284/


All Articles