Netologiaブログの編集者であるSvetlana Shapovalovaは、Dave Holtzの記事を改編し、Data Scientistのキャリアを開始するのに役立つ8つのスキルについて話しました。データサイエンティストの職業に興味がありますか? ハーバードビジネスレビューの記事「データサイエンティスト」は「21世紀の最も望ましい職業」で、この地域の著名なリーダーであるトーマスダベンポートとJ.パティルの研究を開始します。
しかし、どのようにしてデータサイエンティストになるのでしょうか? ほとんどのソースを信じている場合、ソフトウェア開発、データ処理、データベースと統計の操作から機械学習とデータ視覚化まで、少なくともさまざまな分野である程度の学位が必要だという印象を受けます。
心配しないで。 経験から、これが主なものではないことがわかります。 データに関する多くの情報をできるだけ速く学習する必要はありません。また、すべてのスキルを連続して学習する必要はありません。半減してしまう可能性があります。 代わりに、ジョブの説明を注意深く読むことを学んでください。 これにより、必要なスキルを既に持っている求人に応募したり、目的の場所を取得するためにデータを操作する特定のスキルを開発したりできます。
データサイエンティストの 8つの重要なスキルについて説明し
ます 。
基本的なツールキット
どの会社に行っても、Rや
Pythonなどの統計データ処理用のプログラミング言語や、
SQLなどのデータベースを操作するためのクエリ言語など、標準のプロフェッショナルツールを知っている必要があり
ます 。
統計の基礎知識
データサイエンスでは、統計の基本的な理解が不可欠です。 あるインタビュアーは、インタビューした候補者のほとんどが、P値の定義を明確に明確にすることさえできないと私に不平を言った。 統計的検定、分布、最尤法などについて理解する必要があります。
統計ペアで教えられたことを覚えておいてください。 これは、機械学習で作業するときにも必要になります。
ただし、最も重要なことは、いつどのアプローチを使用すべきかを正確に理解することです。
統計の知識はどこでも機能するために必要になりますが、
データの操作に完全に焦点を当てている企業や、提供されたデータに応じて株主が意思決定を行う企業では特に重要です。
機械学習
機械学習法は、大量の情報を扱う場合や、製品が完全にデータベースベースである企業で便利です。 これは、機械学習の主題で聞かれるすべての単語の意味を見つける必要があることを意味します。k最近傍、ランダムフォレスト、アンサンブルメソッドです。
これらのメソッドの多くは、Rまたは
Pythonライブラリを使用して完全に実行可能であるため、世界的に有名な専門家でない限り、車輪を再発明する必要はありません。
さらに重要なのは、状況全体を確認し、特定の方法を適用するのがいつ適切かを理解する能力です。
多変量解析と線形代数
ほとんどの場合、機械学習または統計を使用して、以前の仕事で受け取った結果の例を提供するよう求められます。 そうでない場合、インタビュアーはさまざまな変数または線形代数に関連する質問をすることがあります。これは多くの方法の基礎です。
sklearnまたはRに多数の組み込みの実装がある場合、この資料を理解する必要がある理由を尋ねることができます。ポイントは、ある時点で開発チームが独自の実装を開発することを決定した場合、この知識は非常に役立ちます。
これらの概念を理解することは、製品がデータによって決定される企業では特に重要であり、予測されたパフォーマンスのわずかな改善またはアルゴリズムの最適化は、大きな利益につながります。
データ処理
多くの場合、分析するデータは整理されていないため、操作するのが困難です。 したがって、断片化の処理方法を知ることが重要です。 これらは、値の欠落、一貫性のない文字列フォーマット(たとえば、「New York」ではなく「New York」と「ny」)、日付フォーマット(「2014-01-01」ではなく「01/01/2014」など)である可能性があります。 d。)。 このスキルは、データを使い始めたばかりの小規模企業とデータ主導型企業の両方にとって重要です。
視覚化とデータ転送
視覚化とデータ転送は非常に重要です。 特に、初めてデータベースの意思決定を行う若い企業では。 または、データサイエンティストが他の人がデータに基づいて意思決定を行うのを支援する人である企業の場合。
データ転送とは、調査結果または作業方法を技術的および非技術的対象者の両方に説明する必要があることを意味します。
データの視覚化に関しては、ggplotやd3.jsなどのツールに慣れることが有用です。 データ視覚化ツールの使用方法を学ぶだけでなく、データコーディングと情報転送の原則を理解することも重要です。
ソフトウェア開発
あなたが小さな会社にインタビューしていて、最初のデータ専門家の1人になるなら、ソフトウェア開発の経験は間違いなく役に立つでしょう。 大量のデータを処理し、場合によってはデータ駆動型製品を開発する責任があります。
データの世界で考える
企業は、データに基づいて問題を解決できることを知ることが重要です。
これは、インタビューのある時点で、現在の問題よりも高いレベルの問題について質問される場合があることを意味します。 たとえば、会社が実行したいテストや、開発に必要な製品についてです。 何が重要で何が重要でないかを理解することが重要です。
データサイエンティストとして、開発者や製品マネージャーとどのようにやり取りしますか? どの方法を使用しますか?
データサイエンスは新たに生まれたばかりで、まだ明確な境界線はありません。 仕事に就くためには、これらのスキルを無駄に開発するよりも、ニーズに合った会社を見つけることが重要です。 もちろん、これらは私の個人的な印象です。