所定の相関関係を持つデータを生成する能力は、モデリングにとって非常に重要です。 Rは、多次元分布からデータを生成および視覚化するためのパッケージと関数-広範なツールのセットを期待しています。
mvtnormパッケージは、多次元正規分布とt分布の両方をシミュレートする機能も提供しますが、多次元正規分布データを生成するための基本関数は
MASSパッケージのRの
mvrnorm()
です。
以下のコードブロックは、平均(0、0)とコードで指定されたSigma共分散行列を持つ2次元正規分布から5000サンプルを生成します。 MASSパッケージの
kde2d()
関数は、2次元の
音響分布密度推定値を生成します。
# > Sigma # [,1] [,2] # [1,] 1.0 0.1 # [2,] 0.1 1.0
Rは、分布を視覚化するいくつかの方法を提供します。 次の2行のコードは、ポイントの密度を色のグラデーションにマッピングするヒートマップ上に等高線グラフを重ね合わせます。

グラフは、シミュレートされたデータの不規則な輪郭を示しています。 以下のコードは、
ellipseパッケージの
ellipse()
関数を使用して、多くのチュートリアルで見られる古典的な2次元正規分布グラフを生成します。
次のコードは、いくつかの3次元表面グラフを生成します。 2番目は
rglグラフで、画面上でさまざまな角度で直接回転および表示できます。
次に、サウンド分布密度推定の表座標からx、y、およびzの値を取得するコードを作成しましょう。 threejs javascriptパッケージであるhtmlwidgetsの新しいscatterplot3js()関数を使用して、サーフェスを構築できます。 この視覚化では、rglプロットのような詳細レベルの表面は表示されません。 それにもかかわらず、それはpdfのいくつかの基本的な機能を示し、大きな利点があります-Webページに簡単に統合できます。 HTMLウィジェットのグラフィックスはよりシンプルで使いやすいと思います。

以下のコードは、
tmvtnormパッケージの
rtmvt()
関数を使用して、2次元のt分布を生成します。 rglグラフは、音響分布密度推定の表面を詳細に示します。

データサイエンスの観点から見た多次元分布関数の真価は、3つ以上の変数を持つデータセットをシミュレートすることです。 上記の機能はこの問題の解決に適していますが、いくつかの技術的な考慮事項があり、もちろん視覚化は利用できません。 以下のコードは、特定の共分散行列を持つ多次元正規分布から10個の変数を生成します。
clusterGenerationパッケージの
genPositiveDefmat()
関数が共分散行列の生成に使用されたことに注意してください。 これは、
mvrnorm()
関数がエラーを
mvrnorm()
です。共分散行列が正定値でない場合、理論的には発生するはずであり、多次元行列の要素の組み合わせを選択して正定値にするには、幸運と計算に時間が必要です。
マトリックスを生成した後、
corrplotパッケージの
corrplot()
関数を使用して、色と形状によって決定されるペアワイズ相関の美しいグラフを導き出します。
corrplot()
は、変数の数の増加に
corrplot()
スケーリングし、40〜50個の変数に対して適切な結果を生成します。 (情報については、
ggcorrplotは
ggplot2グラフに使用されるようになりました。)他のオプションを使用して、ペアワイズ散布図をプロットできます。Rは多くの選択肢を提供します。
最後に、正規分布とt分布以外の他の多次元分布についてはどうでしょうか? Rは、
compositionsパッケージの
rlnorm()
など、
rlnorm()
対数正規分布からランダム変数を生成するいくつかの関数を提供します。 それらは
mvrorm()
と同じ
mvrorm()
簡単に使用できますが、探す必要があります。 本当に確率分布で作業する必要がある場合、より実り多いアプローチは、
コピュラパッケージに精通することだと思います。