ビジネスにおいて統計学の知識は必須のはずですが、財務の専門家を自負する僕でも、統計学に関して深く理解しているなんて恥ずかしくて言えません。しかしながら、統計学は非常に便利なツールだと思っています。というのも、複雑な事象を非常にシンプルな言葉で表現できるからです。たとえば、Aという治験薬を患者に試して、その効果の有無を評価する際、効く人もいればそうでない人もいる中で「Aという治験薬を服用して、Bという効果が認められた」といえるととてもシンプルで分かりやすい。だから、本当に効果があるなら、統計学のお墨付きを得てそう言えるように、治験参加者数や評価ポイントを予め決めます。
帰無仮説がよく使われます
ところで、ある命題が正しいかどうかを問うとき、正しいを10、正しくないを1としたスケールのどのあたりにその命題の正しさが位置すれば、統計学上、シンプルに「正しい」と言っていいのでしょうか。8か9しかダメだという人もいるでしょうが、統計学の常識では、1か2でなければ「正しい」と言っていいことになっています。即ち、「明らかに正しくない」と言えなければ、複雑な例外をすべて端折ってシンプルに「正しい」といってしまうです。ですから、統計学では、ある命題について一旦「正しくない」という仮説をおいて、それを否定して(棄却するといいます)「正しい」と言ってしまうアプローチがよくとられます。この、棄却することを目指す仮説を帰無仮説といいます。
帰無仮説棄却に使う確率分布を決めましょう
帰無仮説棄却の方法には単純なパターンがあります。
まず、データが従う確率分布を探します。確率分布は横軸が確率変数(ある確率によって定まる変数)、縦軸が確率密度(その変数が生じる確率)です。サイコロを何度も投げたとき、横軸は1から6の値、縦軸はそれぞれ概ね6分の1になります。確率分布にはたくさんの種類がありますが、大事なのは、それぞれパラメータが決まれば、確率分布の形も決まるという点です。データ数が十分に大きい母集団は平均値と分散をパラメータとする正規分布に従い、母集団からランダムに抽出した標本データは自由度(データ数)をパラメータとするt分布に従い、誤差の2乗和で構成されるデータは自由度(データ数)をパラメータとするカイ2乗分布に従います。これらは統計学で証明済です。
統計量(覚えるしかない)を計算して評価しましょう
次に、それぞれの確率分布とセットになっている、推定や検定に用いる統計量を求めます。正規分布であればZ値、t分布であればt値、カイ2乗分布であればカイ2乗値を求めます。確率分布ごとに決まっているこの統計量の値が、横軸上のどこにあるかを確かめ、その統計量より外側にある発生確率がどの程度かを評価します。これが十分に小さければ、帰無仮説が正しい可能性は低いといえ、従って、帰無仮説が棄却されます。
以上を纏めますと、帰無仮説は、「確率分布の決定 → 確率分布とセットになっている統計量計算 → 統計量の評価」というパターンで棄却することを目指します。
Z値、t値、カイ2乗値といった統計量の公式を覚えるのが多少厄介ですが、命題評価の全体の流れを把握すれば、統計問題に対する理解力はかなり高まると思います。