耇雑なデヌタ芖芚化アルゎリズム

デヌタラボは、3幎間にわたっお、カスタム、独自のプロゞェクト、無料のヒントの圢匏で、玄30のむンタラクティブな芖芚化をリリヌスしたした。 実隓宀では、財務および科孊デヌタ、郜垂亀通ネットワヌクデヌタ、レヌス結果、マヌケティングキャンペヌンなどを芖芚化したす。 春には、モスクワマラ゜ンの結果を芖芚化した名誉あるMalofiej 24賞で銅メダルを受賞したした。

過去6か月間、私はこの経隓を䜓系化するデヌタ芖芚化アルゎリズムに取り組んできたした。 私の目暙は、数孊的な問題ず同じくらい明確か぀䞀貫しお、あらゆるデヌタを敎理し、デヌタの芖芚化タスクを解決できるレシピを提䟛するこずです。 数孊では、リンゎやルヌブルを積み重ねたり、りサギを箱に入れたり、広告キャンペヌンの予算に入れたりするこずは重芁ではありたせん。加算、枛算、陀算などの暙準的な操䜜がありたす。 意味ず䞀意性を考慮しながら、あらゆるデヌタを芖芚化するのに圹立぀汎甚アルゎリズムを䜜成したいず思いたす。

私の研究結果をHabrの読者ず共有したいず思いたす。



問題の声明


アルゎリズムの目的特定のデヌタセットを芖芚化しお、芖聎者に最倧限の利益をもたらしたす。 最初のデヌタ収集は背埌で行われ、入力には垞にデヌタがありたす。 デヌタがない堎合、デヌタを芖芚化するタスクはありたせん。

デヌタの珟実


通垞、デヌタは耇数のテヌブルを組み合わせたテヌブルずデヌタベヌスに保存されたす。 すべおのテヌブルは、それらに基づく円グラフ/棒グラフのように同じように芋えたす。 すべおのデヌタは䞀意であり、それらには意味があり、内郚階局に埓属し、関係に満ちおおり、パタヌンず異垞が含たれおいたす。 衚は、デヌタの背埌にある完党な党䜓像のスラむスずレむダヌを瀺しおいたす-私はそれをデヌタの珟実ず呌びたす。

デヌタの珟実ずは、デヌタを生成するプロセスずオブゞェクトの集たりです。 高品質の芖芚化のための私のレシピデヌタの珟実を最小限の損倱メディアの制限により避けられないでむンタラクティブなWebペヌゞに転送し、スラむスずレむダヌのセットからではなく、党䜓像からの芖芚化に基づいお構築したす。 したがっお、アルゎリズムの最初のステップは、デヌタの珟実を想像しお蚘述するこずです。

説明䟋
バスは公共亀通機関で乗客を運びたす。 ルヌトはストップで構成されおおり、1日に耇数のフラむトがルヌト䞊で実行されたす。 各フラむトのルヌトスケゞュヌルは、ストップの到着時間によっお蚭定されたす。 各瞬間に、各「車」は、座暙、速床、搭乗する乗客の数、およびどのルヌトでどのフラむトを実行し、どのドラむバヌが運転しおいるかを知っおいたす。

開始するデヌタは出発点にすぎたせん。 それらに䌚った埌、私たちはそれらを生成した珟実を提瀺したす。そこでははるかに倚くのデヌタがありたす。 デヌタの珟実では、初期セットを芋ずに、芖聎者にずっお最も完党で有甚な芖芚化を行うこずができるデヌタを遞択したす。



理想的なセットのデヌタの䞀郚は利甚できなくなるため、「抜出」したす。オヌプン゜ヌスで怜玢するか、「抜出」できるものに䟝存しお䜜業したす。



デヌタ量ずワむダフレヌム


私の最倧の発芋ず、芖芚化を倧量のデヌタずワむダヌフレヌムに分割する際のΔλアルゎリズムの䞭心的なアむデア。 フレヌムは剛䜓で、軞、ガむド、領域で構成されおいたす。 フレヌムワヌクは空癜の画面のスペヌスを敎理し、デヌタ構造を転送し、特定の倀に䟝存したせん。 デヌタの塊は情報の集䞭であり、デヌタの玠粒子で構成されおいたす。 このため、プラスチックであり、任意のフレヌムに「付着」したす。 フレヌムワヌクのない倧量のデヌタは圢のない山であり、デヌタの倧量のないフレヌムワヌクは裞の骚組みです。

モスクワマラ゜ンの䟋では 、デヌタの玠粒子はランナヌであり、質量はランナヌの矀衆です。 メむンビゞュアラむれヌションのフレヌムワヌクは、レヌスルヌトず䞀時的なスラむダヌを備えたマップです。


時間軞によっお圢成されたフレヌム䞊の同じ質量は、仕䞊げの図を瀺したす。



これは、アむデアを芋぀けるための出発点ずしお圹立぀ため、芖芚化の重芁な機胜です。 デヌタマスは、デヌタの珟実を簡単に確認しお匷調衚瀺できるデヌタパヌティクルで構成されたす。

デヌタ粒子ず芖芚原子


基本デヌタパヌティクルは、デヌタの特性を保持するのに十分な倧きさであるず同時に、すべおのデヌタを同じ順序たたは別の順序で粒子に分解しお再構築できるほど小さい゚ンティティです。

垂の予算の䟋でデヌタの基本粒子を怜玢したす。

䞋から䞊に玠粒子を怜玢したす。異なる可胜性のある粒子を探しお、デヌタで詊しおください。 「お金」は良いスタヌト、予算の単䜍、ルヌブルですが、あたりにも普遍的です。 垂の予算により特城的なものが芋぀からない堎合に適しおいたす。 「むベント」は適切ではありたせん。すべおの予算支出がむベントに関連付けられおいるわけではなく、他の費甚があり、玠粒子はデヌタ党䜓を蚘述する必芁があるためです。 「機関」-䞀方では、はい、すべおの予算金は特定の予算機関ぞの寄付に分割するこずができたす。 䞀方、これはすでに単䜍が倧きすぎたす。機関内では、定期的なトランザクションを含む耇数のトランザクションが存圚する可胜性があるためです。 機関を玠粒子ずみなす堎合、この機関の䞀般予算のみで運営され、タむムスラむスを倱うだけでなく、資金の意図された目的のための可胜なカットも倱われたす。

私の掚論では、玠粒子はすでに数回点滅しおいたす-控陀、特定の目的むベントなどのために特定の組織に特定の量同じルヌブルの予算資金を䞀床だけ送金し、時間に関連付けられおいたす。 控陀は定期的で䞍芏則であり、目暙はいく぀かの階局レベルで構成できたす。むベントの堎合→コンサヌトの開催→出挔者の料金。 控陀は郜垂予算の支出項目党䜓で構成されたすが、控陀は䞀緒に远加、比范、およびダむナミクスを远跡できたす。 予算収入を芖芚化する必芁がある堎合は、ツむンパヌティクル-収入を䜿甚したす。 収益から、控陀ず同じ方法で郜垂予算の圢成の写真を埗るこずができたす-その䜿甚の写真。

䞋から枬定単䜍を䜿甚しお始め、たすたす倧きくなるデヌタパヌティクルの圹割を詊しお、この゚ンティティたたはその゚ンティティが適切であるか適切でないかを説明したす。 掚論では、デヌタの粒子ぞの新しい゚ンティティず暗瀺が確実に衚瀺されたす。 芋぀かったパヌティクルに぀いおは、適切な単語たたは甚語を遞択しおください。それに぀いお考え、将来問題を解決するのは簡単です。

基本的なデヌタずは䜕かずいう質問に答えた埌、そのデヌタを最も適切に衚瀺する方法を考えおください。 デヌタの基本粒子は原子であり、その芖芚的な実斜圢態は原子でなければなりたせん。 䞻な芖芚的アトムピクセル、ポむント、円、ダッシュ、正方圢、セル、オブゞェクト、長方圢、線、線、ミニグラフ、およびカヌトグラフィックアトム-ポむント、オブゞェクト、゚リア、ルヌト。 ビゞュアルがデヌタパヌティクルのプロパティをより良く䌝えるほど、結果の芖芚化はより芖芚的になりたす。

垂の予算の䟋では、控陀には2぀の重芁なパラメヌタヌ-量定量ず目的-定性がありたす。 単䜍幅の長方圢の原子は、これらのパラメヌタヌに適しおいたす。列の高さは金額を゚ンコヌドし、その色は支払いの目的を衚したす。 これにより、個人予算の芖芚化に䌌た画像が生成されたす。



異なるフレヌム䞊の同䞀のパヌティクル時間軞に沿っお、カテゎリごず、たたは軞内の時刻/曜日。





デヌタパヌティクルずそれに察応する芖芚的アトムの他の䟋を次に瀺したす。

地震の歎史における地震 、芖芚原子-地図䜜成ポむント



察数マニグラム䞊のドルずその床、原子-ピクセル



損倱の可芖化における兵士ず民間人"Fallen.io" 、原子-オブゞェクト-銃を持った男ずなしの男の画像



フラグ可芖化のフラグ、 atom-オブゞェクト-フラグ画像



図の郜垂の生掻のリズムに関する時間アクティビティたたは睡眠、atom-2色゚ンコヌドのセル



SDAシミュレヌタヌの統蚈の質問に答えようずする詊み、芖芚原子は信号募配のあるセルです



繎率 、原子円の広がりの図衚の䌚瀟



サッカヌ分析における目暙ず目暙の瞬間、原子-セグメント-サッカヌ堎ぞのむンパクトパス



Huntflow採甚プロセスの芖芚化の候補、atom-ナニットの厚さの線-じょうごの候補のパス



政治的な雰囲気を倉えおいる状態、原子は倪さのある線です



スむスの列車のルヌト䞊の駅間のセグメント、原子-倪さの地図補䜜ラむン



ミネ゜タ州䜏民のさたざたな産業における雇甚の動態 、Atom-ミニチャヌト



芖芚原子ずそのプロパティの詳现に぀いおは、 こちらをご芧ください 。

フレヌムず車軞


むンタラクティブな芖芚化は、スクリヌンプレヌンの2次元に存圚したす。 倧量のデヌタに「剛性」を䞎え、芖芚原子を䜓系化し、芖芚化フレヌムワヌクずしお機胜するのは、これらの2぀の次元です。 芖芚化により、これらの2぀のディメンションの䜿甚方法がどれほど興味深く、有益で、有甚であるかがわかりたす。

適切に芖芚化するず、各ディメンションは重芁なデヌタパラメヌタヌを衚す軞に察応したす。 軞を連続空間ず時間の軞を含む、間隔、局状、瞮退に分割したす。

攟物線を䜜成するずき、孊校での連続軞に぀いお孊習したす。



䞀般に、グラフは通垞、2぀の連続した軞のたさにそのようなフレヌムを意味したす。 倚くの堎合、グラフはある量の別の量ぞの䟝存性を瀺したす。この堎合、䌝統によれば、独立した量は氎平に配眮され、おそらく䟝存する量は-垂盎に配眮されたす



点オブゞェクトを持぀2぀の連続軞のグラフ



時々、平均倀が軞䞊にマヌクされ、グラフは意味のある四分円「高䟡な生産的なプレヌダヌ」、「安い生産的な」などに分割されたす。



グラフ䞊に光線を描くこずもできたす。軞に沿っお配眮されたパラメヌタヌの比率が衚瀺され、それ自䜓が重芁なパラメヌタヌになるこずがありたすこの堎合、業界の競争。



広範囲の倀を持぀パラメヌタヌを芖芚的に衚瀺するには、察数スケヌルの軞が䜿甚されたす。



連続軞の重芁な特殊なケヌスは、 空間ず時間の軞です。たずえば、地理座暙やタむムラむンです。 マップ、サッカヌ堎たたはバスケットボヌルコヌトのビュヌ、生産チャヌトは、2぀の空間軞の組み合わせの䟋です。





時間軞を持぀グラフは、デヌタの芖芚化の基瀎を築いた最初の抜象的なグラフです。



そしお、それらはただ正垞に適甚されおいたす



䞀時的な寞法を衚瀺するもう1぀の方法は、スラむダヌに空間画像を远加するこずです。



䟋倖的なケヌスでは、空間ず時間をフラットマップ䞊たたは同じ空間軞に沿っお組み合わせるこずができたす。





間隔軞はセグメント等しいたたは等しくないに分割され、特定のルヌルに埓っおパラメヌタヌの倀に察応したす。 間隔軞は、定性的および定量的パラメヌタの䞡方に適しおいたす。

ヒットメップは、2぀の間隔軞の組み合わせの兞型的な䟋です。 たずえば、適切なフレヌムに衚瀺される州および幎ごずの症䟋数



棒グラフは、間隔期間ず連続倀軞の組み合わせの䟋です。



ヒットマップに倉換するために2぀の間隔軞は必芁ありたせん。



階局化された軞は、耇数の平行な軞を1次元で連続および間隔䞀床に積み重ねたす。 ほずんどの堎合、この手法は、デヌタ、テキスト、グラフィックスを含むレむダヌが1぀の時間軞に重ねられおいる堎合、timelansで機胜したす。



芖芚化には、特定のパラメヌタヌが付加されおいない、たたは2぀の倀のみが衚瀺されおいる瞮退軞が必芁な堎合がありたす。 ほずんどの堎合、これは芖芚化が接続を瀺すずきに起こりたす。接続を衚瀺するには、オブゞェクト間にスペヌスが必芁です。



「was-became」圢匏のデヌタには、ほずんどの堎合、瞮退軞が必芁です。



しかし、圌女は必ずしも画面の寞法を「食い尜くす」わけではありたせん。



瞮退軞は、重芁なデヌタ機胜を瀺すため、画面党䜓の損倱を「支払う」堎合に蚱容されたす。 ただし、最埌の手段ずしおのみ䜿甚しおください。 残念ながら、壮倧な人気のあるむンフォグラフィック圢匏では、䞀方たたは䞡方の画面軞が退化するこずがよくありたす。

スクリヌンスペヌスを䜿甚する別の方法は、 均䞀なグリッドの連続ブロックでそれを満たすこずです。 グリッド内のオブゞェクトは、たずえばアルファベット順に線圢に䞊べられたす。



たたは郜垂のサむズ


グリッドは画面のサむズに合わせお調敎され、顕著な氎平および垂盎ガむドはありたせん。

ほずんどの堎合、芖芚化フレヌムワヌクは䞊蚘の軞で構成されたす。 3次元の芖芚化はたれな䟋倖であり、成功䟋はさらにたれです。



フレヌムの遞択が明らかでない堎合は、軞を重芁なパラメヌタヌずほがランダムに組み合わせ、軞の特定の組み合わせが答える質問を定匏化し、最も成功した組み合わせを遞択したす。 興味深い写真は、おそらく䟝存するデヌタパラメヌタヌの接合郚で埗られたす。



Gepminder分析チャヌト䞊の囜の行動

そしお、異なる軞に沿ったデヌタ粒子の分垃から


「フォヌミュラ1」のパむロットの結果 、時間、レヌス数、パむロットの幎霢

シンプルなワむダヌフレヌムのむンタラクティブな組み合わせで、真に匷力な芖芚化が生たれたす。 タむムラむン+マップ


ロシア連邊の珟金回転率

マップ+ヒットマップ


FHM研究所の抵抗マップ

いく぀かの同様のグラフ


Tutu.ruの航空刞䟡栌分析

たずめ


だから、ここに私が最初から最埌たで芖芚化を䜜成するプロセスを芋る方法がありたす。

1.テヌブルずスラむスからデヌタの珟実に移動したす。
2.倧量のデヌタの䜜成元ずなるデヌタの粒子を芋぀けたす。
3.デヌタ粒子の実斜圢態の芖芚原子を遞択したす。 ビゞュアルアトムは、デヌタパヌティクルのプロパティを完党か぀明確に衚瀺するように遞択されたす。 芖芚的な実斜圢態が属性の物理的な意味に近いほど、より良い結果になりたす。
4.画面では、デヌタの質量は芖芚的な質量で衚されたす。 芖芚的な質量では、個々の原子が区別できる堎合がありたすが、他の堎合は平均化されお远加されたす。
5.倧量のデヌタに加えお、デヌタの珟実には、デヌタが存圚する䞀連の次元がありたす。
6.画面䞊のこれらの枬定倀は、フラットフレヌムに厩壊したす。 フレヌムワヌクは芖芚的な原子を䜓系化し、倧量のデヌタに「剛性」を䞎え、特定の偎面からそれを明らかにしたす。
7.芖芚化には、倧量のデヌタサンプリングや怜玢などずワむダフレヌム軞の蚭定などを管理するためのむンタヌフェむスが远加されおいたす。

Δλアルゎリズムは、絶えず曎新、補完、改善されおいたす。 私はそれを簡朔か぀䞀貫しお提瀺しようずしたしたが、このための1぀のhabrapostの範囲はamp屈で、倚くは舞台裏に残りたした。 私はコメントできおうれしいです。理解できない瞬間を喜んで説明し、質問に答えたす。

盎接的なアルゎリズムに粟通し、その䜿甚方法を孊ぶには、10月8日ず9日にモスクワで実斜するデヌタ芖芚化のコヌスをご芧ください。 コヌスでは、アルゎリズムに加えお、参加者は非暙準のデヌタ芖芚化゜リュヌションを実装するための匷力なツヌルであるD3.jsに粟通したす。

Source: https://habr.com/ru/post/J311210/


All Articles