データサイエンスやデータサイエンティストという言葉が流行っています。
そこで、データサイエンティストに必須の5つのスキルについて書きました。
オマケとして、そのスキルを磨くための無料ツールも紹介しています。
有料ツールが巷に溢れていますが、お金を払わずとも学ぶことはできます。
まずはそれらを使い倒してみてからがよいでしょう。
Table of Contents
データサイエンティストに必須の5つのスキル
1.プログラミング
プログラミングは、データを実用的な洞察に変換するためのものであり、データサイエンスの基本スキルといってもいいでしょう。PythonとRが最もよく使われている2つのプログラミング言語でしょう。両方使えるのが理想ですが、どちらかを優先するのであれば、まずPythonをマスターし、その上でRも使えるようにする、というのが当面はよさそうです。また、巨大なデータを扱うことが常なので、SQLでクエリを書いて実行できるようにしておいた方が無難でしょう。
揶揄するわけではありませんが、「プログラミング的思考」ではなくて「プログラミングスキル」です。
2.数学
プログラミングと同様に、数学はデータサイエンスを支える学問です。統計学、確率論に対する基本的な理解は欠かせないでしょう。また、代数学、微積分学への理解も必要です。
今、自分がどんな計算や分析を行っているのか迷子にならないためにも、数学の各分野に対する理解をもとに、解析・分析を俯瞰的に見ることができることが重要になります。
3.データエンジニアリング
データマネジメント、データハンドリング、データクリーニングなどという表現の方がしっくりくるかもしれませんね。
現状、データサイエンティストの1日のうち、データの読み込みとクレンジングに費やす時間が少なくない割合を占めていると言われています。ビッグデータを処理できる形に加工したり、欠測データへの対応をどうするかといったものです。
データエンジニアリングやデータベース管理を自分自身で行う必要はないにしても、データエンジニアリングに対する理解やスキルは、チームで動く際に重要になります。
4.データビジュアライゼーション
データを効果的に表現できるようになるためには、可視化が極めて重要です。
データビジュアライゼーションは、プログラミング・数学・データエンジニアリングとは趣が異なり、効果的な情報伝達・表現のスキルともいえるでしょう。
データそのものが巨大化し、かつリアルタイムで変化するようになった現在、ビジュアライゼーションは以前にも増して重要なスキルになりつつあります。
このスキルを高めることにより、他のデータサイエンティストと差をつけることができる可能性があります。
5.機械学習
数学とプログラミングの基礎を身につけた後の発展形として、いまホットな話題である機械学習のスキルがあります。
少なくとも今後10年において、ビッグデータの活用を目指すのであれば、機械学習のスキルは欠かせないでしょう。
具体的には、教師あり機械学習、決定木、ロジスティック回帰、ニューラルネットワークなどのスキルを身に付けておく必要があります。
学校で何を学ぶとよいか?
残念ながら、この問いに正解はありません。
近年、日本でも「データサイエンス学科」なるものが複数の大学で設置され始めましたが、データサイエンスの学位がなくてもデータサイエンティストとして働いている人は当然ながら沢山います。学位にこだわりすぎる必要はないでしょう。
ただし、数学・物理・化学・生物などの学問への理解や興味関心は欠かせません。
なお、日進月歩のデータサイエンス分野では、継続的な学習が特に求められているとも言えます。大学等での教育を礎に、自立して学び、基礎的な技術や研究に焦点を当てて学び続けることは非常に重要です。
文理融合が唱えられている昨今、学問横断的に興味関心の幅を広げ、深めていく姿勢が求められています。
陳腐な表現ですが、学びに終わりはないということですね。
継続学習に有用なツールたち
とても恵まれていることに、大学で学ぶようなスキルの多くが、独学や代替トレーニングで学んだり、実社会で経験を積んだりすることができる環境があります。
学位の有無とスキルの有無は必ずしも対応しません。
とはいえ、トレーニングや経験を積むことは重要です。相手に自分の能力を示すうえでは、学位よりも具体的で有用かもしれませんね。
オンライン学習環境
データサイエンス分野のさまざまなスキルにわたって、さまざまなトレーニングや認定コースが提供されています。日本国内でもさまざまな同様のサービスが生まれていますね。
民間企業
これらのオンライン学習サービスに加え、民間企業も独自の関連トレーニングや認定資格を提供し始めています。
- O’Reilly Live Training
- IBM Data Science Professional Certificate (through Coursera)
- Google Professional Machine Learning Engineer
- Tableau Desktop Specialist
- Oracle Business Intelligence Training and Certification
日本でも、セガが数学の社内勉強講座を公式ブログで公開して話題になりました。
まとめ
要するに、自分で勉強せい、ということです。頑張りましょう。