こころの測り方
ベイズ統計学
小杉 考司(こすぎ こうじ)
Profile─小杉 考司
2003年,関西学院大学社会学研究科博士課程単位取得退学。博士(社会学)。山口大学教育学部講師,准教授,専修大学人間科学部准教授を経て現職。専門は心理統計。
わからなさを表現し,確かめる
心理学の研究対象は,目には見えない心というものです。見えないものをなんとかして研究対象にしたい,というのはなかなか困難な課題のように思えます。そこで,同じような目標を持っている統計学の力を借りて,研究が進められています。一般に統計学は,たくさんのデータに潜んでいるパターンを見つけ出すとか,一部のデータから全体を推測するとかいったことを実現するツールだからです。
さて私たちは,日常生活においても見えないもののことをいろいろ考えます。明日の天気は晴れるだろうかとか,初めて入ったお店のお料理は美味しいだろうかとか,気になるあの人は私のことをどう思っているのだろうかとか……。こうした見えないものに対する予想,推論は,具体的なデータを集めることでより確かなものになっていきます。天気図をみて雨雲が接近しているのを知れば,明日が晴れることはなさそうだ,と推論がすすみます。これは確率の考え方でいうと,当初晴れる確率は50%かな,と見積もっていたところ,天気図を見て晴れる確率は20%に変わった,という言い方ができます。つまり,推論とは確率の数字を再分配することなのです。不確実なことやわからないことを確率で表現し,具体的なデータによってその確率を再分配する。これがベイズ統計学の基本原理です。「わからなさ」の事前の表現をベイズ統計学では特に事前分布,データによって再分配された確率表現を事後分布と言います。
ところで,心理学で確率といえば,p値のことがすぐに思い浮かぶかもしれません。例えば,なんらかの処置を施した群(実験群)と統制群で振る舞いが変わるかどうかを検証するとします。手元にあるデータは母集団から取り出した標本であり,たまたま取り出したいくつかの標本において,二群の平均値がぴったり同じになるはずがありませんから,目に見える標本平均の間に差があるのは当然です。しかしここで問題にしたいのは,目に見える標本の特徴ではなく,見ることができない母集団において,効果があったかどうかです。そこで私たちはおなじみのやり方で,母集団において二群の平均値に差はない,という帰無仮説をおいて,その仮説のもと今回の実現値が生じる確率を考えます。これがp値です。
しかしp値は,「二群の平均値に差がある確率」を表す数字ではありません。目に見えない母集団において帰無仮説が正しいとしたら,目に見える標本統計量がこの値になる確率はどれぐらいか,ということですから,目に見えない母集団の平均値に差がないことは前提条件です。できれば最初から,目に見えない母集団における平均の差にどの程度の差がどれぐらいの確率であり得るのか,知りたいところですね。ベイズによる推論では,それが可能です。
わからないから推論する
ベイズ統計学では,二群の平均値に差があるかどうかわからないのであれば,このわからなさを確率で表現して考えます。母集団における実験群の平均をμA,統制群の平均をμBと書くことにしましょう。この二つの差をδで表すと,μB=μA+δであり,δ=0なら差がない,δ≠0なら差がある,ということになります。
ベイズの推論は確率の再分配です。事前に「δがどれぐらいの大きさなのかわからない」ということを,確率で表現しなければなりません。δは+5かもしれないし,−8かもしれません。もちろん0かもしれません。ここで例えば,測定の条件から論理的に考えて,−10〜+10の範囲に入るということは間違いないとしましょう。ベイズ統計学ではこの時,「δがどれぐらいの大きさなのかわからない」ことを,−10〜+10の区間の一様分布,すなわちこの区間内のどの数字になる可能性も等しく同じである,として表現します。「わからない」を「あらゆる可能性があり得る」と表現するのです。
次はデータの情報に力を借ります。t検定の時のように,各群の個々のデータは正規分布に従うとします。すると,得られたデータから「このデータはどんな平均と分散の正規分布から出てきたと考えるがよいのだろう」と考えることもできます。ベイズの定理によって,「このデータがある正規分布から得られる尤もらしさ(尤度)」と「推論したい値はこの区間に存在しうる(事前分布)」という情報を合わせて計算することで,事後分布が得られます。事後分布はたとえば,「δは+1.5〜+2.0の区間に入ることがほぼ確実(この領域を全体の95%が占める)」といった形で得られます。差がある・ない,という形ではなく,答えも確率分布として表現されていることに注意してください。
結果が分布で表現されると,なんだかボンヤリとしかわからないのでは,というイメージを持たれる読者もいるかもしれません。しかし「わからない」がすなわち「あらゆる可能性がある」と表現できたように,「わかる」は分布の言葉で言うと「ありそうな区間の幅が狭い」,あるいは「ほぼ確実にこの区間にある」ということです。この区間のことを確信区間と呼びます。例えばδの95%確信区間が[+1.51〜+1.48]と狭い幅であれば,かなり確実な結論を出したことになります。この範囲の中に0が入っていませんから,「5%水準でδ=0とはいえない」と言うこともできます。逆にδの95%確信区間が[−6.33〜+9.33]になるような広い分布なら,ほとんどわかってないことと同じですね。事後の結果も確率で表現されることがこれまでと異なるところですが,わかることの範囲がどれぐらいなのかを直接表現できるのです。
平均の差だけが心理学?
ところで,これまでの心理学では平均の差によって結果を検証することがほとんどでした。これは帰無仮説検定の多くが,平均の差を検証するモデルだったからです。帰無仮説検定を使うために,心理学の研究は平均の差が取り出せるような実験や調査のデザインを強いられてきたともいえます。しかしベイズ統計学では,わからないものを平均値に限定する必要はありません。分散の違いがわからないという仮説の立て方も可能です。また,平均値の差の検定はデータが正規分布に従っているという仮定をおきました。しかし,データの得られ方は,なにも正規分布だけでなくても構いません。既に世の中の様々な現象を表している確率分布がいくつも知られています。「正しい反応をするか,間違った反応をするか」とか,「ある刺激セットのうち,いくつを思い出すことができるか」といったデータは,それぞれベルヌーイ分布や二項分布に従います。それらを使って自由に「わからないこと」を表現し,データに基づいて推論することができます。
正規分布は平均値μと分散σ2という二つのパラメータで形を変える分布です。確率分布はどれも,その位置や形状に関わる一つまたは複数のパラメータを持っています。この確率分布のパラメータを数式で表すことを,確率モデリングといいます。二群の平均値のパラメータをそれぞれμAとμA+δと表したように,平均値以外のパラメータであっても,そこに数式で表現された機序を入れ,データと照合して「それがどの程度の大きさなのか」をベイズ統計の力で推定することができる時代がやってきました。見えないものの仕組みを自由に想像し,検証できるようになったのです。ベイズ統計モデリングは,こころを測る新しい方法です。
もちろん見えないものの本当の姿,正解は決してわかりません。ベイズ統計モデリングで表現されるこころのメカニズムも,データにモデルを当てはめるならこんな表現もできるかも,というだけであり,本当にそうなっているかどうかはわからないままです。これまでのように,どうしてその考えに至ったのか,同じデータを他の形で表現できる可能性はないか,といったところを丁寧に考えながら研究を積み重ねていく必要があります。
目に見えないものを思い描く心理統計って,とてもロマンチックなアプローチだと思いませんか。
PDFをダウンロード
1