データ分析はなぜ難しいのか。心理学の観点から

【この記事の概要】

データ分析が難しい原因は本質的な難しさがあるから。技術的な難しさではない。
データ分析とはデータ(事実)を用いてある対象について理解しようとする営みのことです。
また人間には事実を自分の望むように理解しようとする本能=バイアスが備わっています。
このためデータ分析者は分析の質を高めるために生来備わった本能を克服しなければなりません。
さらに困難なのは分析の受け手もバイアスを持つことです。
データ分析の難しさとは目的達成とこれらの生物学的本能との間の矛盾を乗り越えることです。

【データ分析とは?】

データ分析とはある対象についてデータすなわち事実から対象の詳細や構造を明らかにする作業、またその理解を通じて現在得られていないデータを予測する試みです。
また質の高い分析とは、データ分析の結果から導かれる未知のデータについての予測が当たる可能性(確率)が高いことです。

【確証バイアスとは?】

人間は知りたいことに対して、『なぜ?』と問い、またそれに対してたった一つの答えを求める本能があります。
(例:問い「なぜ私がこんな目に合わなければならないのか?」答え「前世の因縁です」/「神様の思し召しです」)
また一度その答えを見つけたという着想を得ると、現実が見えていなくても、はたまたどのような事実が見えたとしてもその答えへの確信を深めていきます。
なぜならば人間の高度な論理的思考力は物事を柔軟に解釈して任意の事象に対して任意の理由をこじつける能力があるため、

  • 新しく事実の観測すると、自分の答えを裏付ける論理を創造する
  • データが足りないところは、自分の答えを裏付ける妄想を生み出す

ことにより、全ての現実をその答えを補強していると解釈することができるのです。

このこじつけにより人間が現実を正確に理解できなくなる現象を確証バイアスといいます。

【バイアスに逆らう】

確証バイアスは人間が進化の過程で身につけた本能で、通常状態では人間はこれに支配されています。
またデータにはノイズが乗っているため、望んだ結論を得るために都合よくノイズが乗っている切り口が存在する可能性が高いです。
つまり先に存在している結論を導き出すようなデータ分析を行うことは常に可能だということです。

データから任意の理由を引き出せるのであれば、そのような状態の人間が行う分析は無価値です。
このためデータ分析者は分析の質を高めるためには確証バイアスを意識的に退けなければなりません。

認知バイアスにブレーキをかけるための方法の一つは対象について『なぜ(Why)?』という問いに答える『美しいストーリー』を意識的に拒絶することです。
一部の数学や自然科学、もしくは技術的工学的な問題を除き、現実で直面する問題の多くはその原因を説明する『美しいストーリー』など存在せず、多くの要因が絡み合っています。
それらたくさんの要因たちが『どのように(How)?』絡み合うのかを見出そうとすることで、分析と現実との距離を縮めて分析の質を高められます。

ただし確証バイアスは人間の本能ですので理屈で分かっていても油断するとすぐに『美しいストーリー』を見出そうとしてしまいます。
データ分析者は常に批判的に、謙虚に自分の分析アイデアと向き合い続けること、日々精進することが必要です。

人は先が見えないことに不安を感じます。
その不安が人を「予測」したい気持ちに駆り立てます。
そして人は、その「予測」願望を満たすために、パターンや因果関係といった知識を見つけることに貪欲なのです。

(略)

しかし、どれだけ知識や洞察力を持っても、人は単なる錯覚を真実と勘違いしそうになります。
なぜなら人は、パターンや関係を見出したい欲望を持っているからです。

(略)

この欲望に負けず、本当に真実であるのか、錯覚ではないのか、と疑わなければなりません。

会社を変える分析の力, 河本薫

【要求されるバイアス】

確証バイアスは人間の本能ですが、データ分析者の努力により制御できる可能性があります。
もう一つの敵はより根が深いです。

データ分析という作業はどこかに分析の受け手が存在することがほとんどです。
少なくともデータ分析者という肩書を持っていれば、誰かのために誰かのデータを分析するのが普通でしょう。
そしてここでの問題はデータ分析の受け手は相変わらず確証バイアスに囚われているということです。
だから彼らはデータ分析に『美しいストーリー』を求めています。

けれども先程、データ分析の質を高めるためにはこれを捨てるべきと言いました。
そのときデータ分析者は出した結論について『美しいストーリー』を語ることができません。
データ分析者は分析の質を高めるのも仕事ですが、何より分析の受け手を満足させるのも仕事です。
その結果、質は高いレポートが退けられ、美しいストーリーが語られるプレゼンテーションが採用されます。
もちろん美しいプレゼンテーションが語るデータ分析の質は低いです。
その分析者が認知バイアスに捕われているためです。

どうしてこうなった?

何度でも繰り返されるだろう。
事実を知る男が注意深く考えた計画に対して、無知で出しゃばりな委員会メンバーや取締役員が怒りだす。
彼が事実を知っているにもかかわらず、それに対する反論を打ちのめすためには事実を示さないことについて。

Graphic Methods for Presenting Facts, Willard Brinton

【矛盾】

始めに質の高いデータ分析とは『予測が当たる可能性が高いこと』と定めました。
ただ、そもそもデータ分析を求めている者は予測が当たる可能性など求めていないのです。
求められているのは『美しいストーリー』で現実を理解すること、そして現時点での意思決定に自信を持って理由を説明できること。

専門家の予測がサルに劣るのも同じ原因です。
専門家に求められているのは、皆に「なるほど」と思わせることであって、予測精度が高いことではないからです。

しかしいくら納得性が高いからといって当たる可能性がチンパンジーのダーツ投げ程度であれば、成果を出すことができません。
成果が0以下の成績を続けていればいつかその不都合な真実が明らかにされなるでしょう。データ分析によって。
そしてブームは去り、データ分析者はお払い箱になる。

データ分析に関わるこの本質的な困難さというのは、この矛盾を乗り越えてどうやって成果を上げるかということです。

【結論】

データ分析は難しい。ただしそれが難しいのは分析技術のためではないです。
それは人間の本能に逆らうためであり、構造的な問題です。
データ分析の困難さを数学的、ITスキル的な困難さとしてのみ捉えるのはデータ分析者の役割を小さくするものだと確信しています。

しかし本能だからといって諦めているわけでもありません。
本能を克服はできない、しかし制御することは可能だと考えています。
また別の記事で制御するための方法について考察したいと思います。

参考文献

外部リンク

コメントを残す