Palantirの
インテリジェンスアナリストの手にあるデータが、非構造化から構造化にどのように変わっているか。
Edisonとともに、Parantirシステムの機能の調査
を続けています。
Palantirは
非公開の米国企業であり、世界で4番目に大きいスタートアップ(Uber、Xiaomi、Airbnbに続く)です(2016年初頭のデータ)。 主な顧客は、CIA、軍、TsKZ、および大規模な金融機関です。
私の意見では、どういうわけか「創業の父」
ヴァン・ヴィヴァル・ブッシュ(「我々は考えている」) 、
ダグラス・エンゲルバート(「すべてのデモの母」) 、
ジョセフ・リクリダー(「銀河間コンピューター・ネットワーク」人間とコンピューターの共生))について、少し前に書きました。
カットの下で-2つのケース(2010)。
- 1つ目は、1500万件の病院入院記録と375万7千件の死亡記録に基づいた、全国的な流行の際のウイルスの拡散の分析です。
- 2番目は、武器商人の世界的なネットワークの調査からの数百のレポートの分析です。
(翻訳を手伝ってくれたVorsin Alexeyに感謝します)VAST 2010チャレンジ、Pt。 1
00:00このプレゼンテーションでは、分析を使用してPalantirが非構造化データを構造化データに変換する方法を示します。 この目的のために、レポートは武器ディーラーのグローバルネットワークで使用されます。
00:10領土、一時、社会、その他の分析がこのネットワークに関する知性の質問にどのように答えることができるかを示します。

00:17これらのグラフアイコンは、調査から得られた約100件のレポートを表しています。
00:25「テキストクラウド」(textcloud)は、これらのレポートからキーワードを強調するのに役立ちます。

00:28いくつかの用語が表示されます:武器、トランク、購入、カラチ、パキスタンなど-このネットワークが中東および南アジアに接続されていることを示唆しています。
00:37これらの文書をカードに転送しましょう。

00:42文書は、それらに示された地理的名称に従って配布されました。 ここでタイムラインを使用して、作成日ごとにドキュメントの場所を確認することもできます。
00:50では、マップをクリアして、最も人気のあるテキストクラウドの結果の1つであるパキスタンからのドキュメントを探しましょう。

00:57この検索は、一定量のドキュメントをもたらします。ブラウザでそれらを見てみましょう。
01:01ブラウザーで、アナリストはタグを割り当てることで情報を構造化できます。 マロナハグブハリを強調しましょう。

01:10 Palantirは、データベースにすでに存在するオブジェクトを自動的に検索します。また、新しいオブジェクトを作成し、そのオブジェクトの特別なプロパティを選択してタグを適切に割り当てることもできます。
01:19テキストの下の青い線は、タグを割り当てたばかりの特定のエンティティを示しています。
01:23タグをダブルクリックすると、オブジェクト、そのプロパティ、関連するメディアファイル、オブジェクト履歴、およびすべてのデータソースのリストの完全な関係書類が開きます。

01:35テキスト内にタグを含むオブジェクト間のリンクを作成するには、一方を他方にドラッグし、特別なプロパティを使用して結果の接続を選択します。

01:45完全にタグ付けされたドキュメントでは、色と線は既存のエンティティ、イベント、および関係との関係を示します。
01:51ここで、パキスタンに関連するドキュメントで構造化したデータをグラフに追加しましょう。

01:57グラフ上で、アナリストはさまざまなツールを使用してデータを分析します。

02:00パキスタンのタグからのエンティティとイベントはこちらです。 ヒストグラムを使用して、グラフを人で埋め、アナリストはこのツールを使用して、当社の他のアナリストでタグ付けされたドキュメントから表示できるエンティティ間の関係を検索できるようになりました。
02:17パキスタンネットワークの主要なエンティティとイベントのグラフを作成したら、タイムラインを使用して、フライト、会議、支払いなどを含むネットワークアクティビティの時間的側面を理解できます。

02:30アナリストはグラフを会社の他のアナリストと共有することもできます。ここでは、パキスタン、ラテンアメリカ、ドバイの共有グラフを見ることができます。

02:40武器ディーラーのグローバルネットワークのグラフを見てみましょう。これには、チームによって割り当てられたすべてのドキュメントタグからのエンティティと関係が含まれています。

02:49ソーシャルコミュニケーションアシスタントを使用して、世界中のネットワークで今後調査するための重要なポイントを特定します。

02:56ハイライトを追加しましょう。 ドバイ、ブハリ、およびドンブロウスキがこのネットワークの重要な交差点であることがわかりました。

03:03すべてをマップにドラッグすると、タイムラインを使用すれば、すべてのネットワークアクティビティを地理的および時間的に見ることができます。
03:10これにより、各セルがいつどこで作用するかについての広い視野が得られます。

03:15たとえば、UAEは重要な役割を果たしており、私たちの目標の多くは4月にここで達成されました。
03:21構造化されていないレポートからデータを構造化し、Palantiirデータ分析ツールを使用して目標を達成するために、私たちのチームは数カ国の武器貿易ネットワークを明確に表示し、ネットワークリーダー間の交渉の場を示しました。
VAST 2010チャレンジ、Pt。 2
入院記録:パンデミックの広がりの説明。
00:00このプレゼンテーションでは、パランティールでのHorizon分析を使用して、全国的な大流行中のウイルスの広がりを分析する方法を示します。

00:05 Horizonは大量のデータを分析するように設計されており、1500万件の病院記録と375万件の死亡記録を迅速に視覚化して分析するために使用されます。 ベースラインデータは症状ごとに分割され、システムに入力されました。

書かれた:「Horizon」は、2つの画面での分析用に設計されています。 ビデオは、分析ツリーウィンドウと視覚化ウィンドウを切り替えます。
00:20リクエストの処理時間はビデオに含まれていないことに注意してください。
00:23まず、いくつかの基本的なヒストグラムを見て、データの一般的なビューを取得しましょう。

00:27これは年齢ごとの入院のヒストグラムであり、44年にピークを持つほぼ完璧な分布図を提供します。
00:33これは異常です。年齢と健康状態による典型的な分布に関するデータに基づいて、40歳以前に病院を訪れる回数が増えると予想されたためです。

0:43現在、死亡した患者の病院訪問のバッチヒストグラムを使用して、最も頻繁に死に至る症状を特定しています。
00:53死に関連する症状の例として振戦と難聴。
00:56病気の時間的パターンを調査するには、病院への日ごとの訪問数のヒストグラムを作成し、死別にフィルタリングし、日付別に死の別のヒストグラムを作成します。
01:12 5月の訪問数はわずかに増加し、同時に死亡者数も増加しました。

01:22一時的な病気のパターンを特定するために、病院に行ってから死亡するまでにどのくらいの時間が経過したかを調べることが役立ちます。
01:29これを行うには、死亡日と変換日との差を見つける新しいプロパティを追加します。

01:38これで、この新しいプロパティを使用してヒストグラムを作成できます。 彼女は、ほぼすべての死亡が入院後8日目に発生したことを示しています。これは、仮説的にはパンデミックウイルスの特徴である可能性があります。
01:51これらの死に焦点を当てることにより、最も一般的な症状のヒストグラムを作成できます。
01:58最も人気のある結果は、嘔吐と腹痛です。

02:05ヒートマップを使用して、どの地域に最も致命的な結果があるかを確認しましょう。
02:12パキスタンは多くの死者を出していますが、タイとトルコは比較的少数です。

02:20日と場所ごとの散布図を作成してみましょう。これにより、時間の経過とともに病気の強度がわかります。
02:34タイとトルコでは、死亡者数が常に少ない一方で、他の場所では死亡率がピークに達し、減少していることがわかります。

02:45グラフを日付別の死亡分布のヒストグラムと比較することにより、パンデミックがいつ始まったかを理解できます。

02:57この新しいサブセットを使用して、病院への入院の新しい分散スケジュールを作成し、この病気が地域全体にどのように広がるかを確認できます。

03:07ケニア、パキスタン、およびシリアは、この病気の発生が最も早い国であることがわかります。
03:15時間と場所による疾患の分布に関するより正確な情報については、各地域の死亡に関するデータを参照できます。

03:25たとえば、パキスタンのデータを選択することにより、パンデミックで死亡したと疑われる患者のサブセットから、日付別の入院のヒストグラムを作成できます。

03:38 Palantir Horizonを使用して、パンデミックデータをすばやくインポート、分析、および視覚化し、異常を特定し、この疾患の性質と発達を経時的に特性化することができました。
Palantirの詳細:
エジソンと一緒に、春の出版マラソン
を続けます。
IT技術の源泉の底辺に行き、彼らがどのように考え、どの概念が先駆者の心の中にあったのか、彼らが夢見たもの、未来の世界を見た方法を理解しようとします。 なぜ彼らは「コンピューター」、「ネットワーク」、「ハイパーテキスト」、「インテリジェンスアンプ」、「集団問題解決システム」、これらの概念にどのような意味を持ち、結果を達成したいのかを考えました。
これらの資料が、
「スクラッチからユニットへ」 (これまで
言及されていなかったものを作成するために)どのように進むべきか疑問に思う人々のインスピレーションとして役立つことを願っています。 ITと「プログラミング」が単なる「生地のコーディング」でなくなり、世界の問題を解決し、課題に答える試みとして、
戦争教育の方法、私たちが協力し、考え、コミュニケーションする
方法を変えるための
手段として考えられたことを思い出してください人類に直面しています。 そのようなもの。
3月0日
シーモア・パペット3月1日
ゼロックスアルト3月2日
「コールジェイク」。 NICおよびRFCの歴史3月3日
グレース「グラニーCOBOL」ホッパー3月4日、
マーガレットハミルトン:「男の子、月に送ります」3月5日、
Hedy Lamarr。 そして、裸の女性と魚雷で映画を撮影して敵を撃つ3月7日
ゴージャスシックス:熱核爆発を数えた少女たち3月8日
「ビデオゲーム、私はあなたの父親です!」3月9
日、誕生日おめでとう、ジェフラスキン3月14日
ジョセフ「リック」リクリダー:「銀河間コンピューターネットワーク」と「人間とコンピューターの共生」3月15日
ヴァニバーブッシュ:「どうすれば考えられるか」(考えられるように)3月16
日ハッピーバースデー、リチャードストールマン3月21日
ダグラスエンゲルバート:「すべてのデモの母」 パート1