指に口ひげを持つ棒グラフとボックス

このノートでは、1次元データの2種類のグラフ、つまり


画像

実数の任意のサンプルを考えます X =(x_1、...、x_N) 、順序統計を示します x _ {[k]} そのような x _ {[1]} \ leq \ ldots \ leq x _ {[k]} \ leq \ ldots \ leq x _ {[N]}

棒グラフ


ほとんどの場合、誰もがこのタイプのスケジュールを学校や大学のプログラムから変更します。これは写真のようなものです。

ヒストグラムの例

まず、入力サンプルの値がx軸にあり、y軸にこの値が発生した回数があることを覚えておく必要があります(サンプルと呼びましょう)。 ヒストグラムを使用すると、特異性を損なうことなく、データセットを粗くしてコンパクトにすることができます。
重要なヒストグラム機能は次のとおりです。


ほとんどの場合、ヒストグラムはセグメントで決定されます I = [最小(X)-\ varepsilon_1;最大(X)+ \ varepsilon_2] どこで X -ソースサンプル \ varepsilon_1、\ varepsilon_2 最も近い「読み取り可能な」数値に丸める補助定数。これは、それぞれの場合にスケールに依存し、通常、これらはソースデータのスケールの約数の約数です。 データを切り取る方法が突然面白くなった場合は、リンクR(pretty)を見ることができます。

また、ヒストグラムは通常、セグメントIを等しい長さのサブセグメントに分割します。ここでは、いくつかの式を指定できますが、セグメント数の選択は芸術です。

どこで n 列数です N -元のサンプルのサイズ、 \ hat {\ sigma} -標準偏差の評価、 IQR = X _ {[3/4 N]}-X _ {[1/4 N]} -四分位間の距離。これは以下にあります。

常識のいくつかのルールに注意することもできます

それ以外の場合、列の数が多すぎて、初期データが小さい場合、ヒストグラムはバーコードのようになります(下図を参照)。

バーコード

Y軸


ヒストグラムは、各間隔に含まれる初期サンプルの要素数がy軸に沿ってプロットされている場合は絶対値であり、列の合計が1に正規化されている場合は相対的です。この場合、ヒストグラムは分布密度の推定値であり、スケールのみがグラフの観点から変化します。

通常のヒストグラムは密度の推定値であるため、列を要約し、次のように確率関数の推定値を取得できます。 s_i = \ sum_ {j = 1} ^ {i} n_i / N 。 次の2つのグラフは、同じデータ、左側の正規化されたヒストグラム、および右側の正規化されたヒストグラムの累積値に基づいています。
絶対値、ヒストグラム経験的分布関数

データのグループ化


これまでのところ、見たいだけの特性がある場合を考慮してきましたが、通常、異なるサブグループの同じ特性の動作を比較する方がはるかに興味深いです。 この場合、ヒストグラムは次の形式になります。

覆い焼き付きの3つのグループのヒストグラム

この場合、各グループの各列の幅はグループの数に比例して減少し、互いに対してわずかに移動します。代わりに、同じデータに対してこのように見える半透明のオーバーラップを考慮することができます。
オーバーラップする3つのグループのヒストグラム

乾燥残留物中


ヒストグラムを描画するには、定義する必要があります

各グループのヒストグラムを描画するには、次の値を保存する必要があります。

スパンチャート


「口ひげのある箱」には正式に確立された名前はありません。「口ひげのある箱」と呼ぶと、特に複数の箱とスパン図がある場合、私の舌は回転しません。 左側にある3つのボックスの例を示します。ソースデータの対応する値が表示されます(それらはスパン図の一部ではありません)。 まず、スパンダイアグラムの場合、初期特性はY軸に沿ってプロットされ、X軸は条件付きでグループ化変数を表すことに注意してください。

スパンチャートの例

ソースデータに関する1つのグループのボックスを描画するには、次の3つの特性のみを知る必要があります。

次の追加のものが「必須」セットに追加される場合があります。

したがって、セクションに口ひげのあるボックスは次のようになります。

カットアウェイ口ひげボックス

いくつかの点を明確にする必要があります。 ボックス、つまり、間のオブジェクト Q_ {25} そして Q_ {75} ほぼすべての場所でこれらの値によって制限されていますが、「口ひげ」はさまざまである可​​能性があり、数値に本当に興味がある場合は、個々のケースで何を意味するかを明確にする必要があります。 最も重要なことは、口ひげの長さです。 1.5 \ cdot IQR = 1.5(Q_ {75} -Q_ {25})

多くの場合、最小および最大マークはドロップされ、極端なポイント、つまり口ひげを超えるものもドロップされるか、ドットまたはアスタリスクで描画されます。 データ構造によっては、極端な値をレンダリングしたい場合、スパンチャートを描画するためのデータ量が大幅に増加する可能性があります。

マジックナンバー 1.5 Tukey's Exploratory Data Analysis (1977)の作品に登場し、その出現の理由はあまり明確ではありませんが、それ以来何も変わっていません。多くのツールがデフォルト値として提供しますが、この場合、任意のゼロ口ひげ」は、ソースデータの最小値から最大値までのセグメント全体をカバーします。

という仮定があります 1.5 次のように発生しました。 口ひげの幅は 4 \ cdot IQR 、それが知られている IQR / 2 対称分布の場合は、中央値から絶対偏差 (MAD)と一致します。これは、係数による分散の推定値です。 1.48 。 それはつまり 4 \ cdot IQR \約8 \ cdot MAD \約16/3 \ cdot \ hat {\ sigma} \約6 \ cdot \ hat {\ sigma} 、左に3シグマ、右に3シグマが不明になります。
時々、口ひげの終わりとして間隔が提案されます [Q_ {5}、Q_ {95}] この場合、常に(初期データが20を超える場合)間隔内に収まらないポイントを取得する必要があるため、このアプローチでは通常無視されます。

乾燥残留物中


「スパンチャート」を描画するには、以下を決定する必要があります。

1つのグループに「口ひげボックス」を描くには、3つの数字だけが必要です。

Source: https://habr.com/ru/post/J267123/


All Articles