探索的データ解析と可視化

探索的データ解析(死語なの?)に関して調べてたらすごくおもしろかったので、自分の頭の中を整理するためにも文字にしておく。(僕は統計の専門家ではないので間違ったこと書いてるかもしれません。間違ってたらそっと教えてください...)

f:id:hongo35:20130410013832j:plain

データ解析には次の二つのアプローチがある。

  • 確証的データ解析
  • 探索的データ解析

一つ目の確証的データ解析とはいわゆる仮説検定で、ある仮説が正しいといってよいかどうかを統計学的、確率論的に判断するものである。 そして二つ目が探索的データ解析であり、今回はこちらをメインで書いていく。

探索的データ解析

データの時代と言われるようになり、企業は蓄積されたデータを有効に活用し、ビジネスに繋げようとしている。 しかし、未だほとんどの企業はデータはあるものの、それを有効に活用できているとは言えない状況にあり、確証的データ解析を行うまで至っていないような気がする。このような状況でまずはじめに考えなければならないことは、解決すべき問題を特定する(仮説を立てる)ということだと思う。

何が問題なのかわからない状態で解析をしようとしても、そこからなんらかの知見を得ることは難しい。 まずは、データを俯瞰的にあらゆる角度から観察し、データの特徴を捉えることでそもそも何が問題なのかを明らかにする必要がある。このような、解析初期のフェーズを重視したアプローチが探索的データ解析である。

探索的データ解析(Exploratory Data Analysis)は、統計学J.W.Tukeyによって提唱されたもので、視覚的にデータを捉え、データ自身に仮説を語らせるようなアプローチである。 Tukeyの言葉にこのようなものがある。

An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (正しい疑問に近似的な解を持つほうが、間違った疑問に対する正確な解を持つよりもよほどマシである。)

解析の初期段階でいかに正しい疑問を見つけられるかが非常に重要で、間違った疑問に対してその後いかに正確な答えを得ても重要性は薄いということを言っている。

そして、この探索的データ解析において最も重要な役割を果たすものがグラフ(可視化)である。数字だけを見ていてもわからなかったものが、可視化され、視覚的に捉えられるようになると、そこからたくさんの気づきを得られる。Tukeyはこのようなことも言っている。

Graphs force us to note the unexpected; nothing could be important.(グラフは我々に、期待しなかったことを気付かせる。それより重要なものはないのではないか。)

よくわからないデータから視覚的に、正しい疑問を見つけることがデータへアプローチする初期段階として非常に重要で、データのいろいろな面を観察することでデータから様々な発見をすることができる。

最近では可視化の重要性はいろいろなところで語られているが、ただ単にデータを可視化しました、では何の意味も無く、何のためにデータを可視化するのか、どのような場面で可視化は有効であるのかをしっかりと認識した上でデータと向き合うことがビジネスや研究においてデータを有効に活用するために必要であると思う。

エンジニアのための データ可視化[実践]入門 ~D3.jsによるWebの可視化 (Software Design plus)

エンジニアのための データ可視化[実践]入門 ~D3.jsによるWebの可視化 (Software Design plus)

<参考>

「探索的データ解析」が死語になっているような気がする-当たり前になりすぎたのか忘れ去られたのか 探索的データ解析からロバスト統計学へ