こころの測り方
統計モデリング
清水裕士(しみず ひろし)
Profile─清水裕士
2008年,大阪大学大学院人間科学研究科博士後期課程単位取得退学。専門は社会心理学。著書は『個人と集団のマルチレベル分析』(ナカニシヤ出版)など。
近年,久保(2012)やLee & Wagenmakers(2013)など,統計モデリングに関連する書籍が出版され,「ベイズ統計モデリング」という言葉が一気に注目を集めました。統計モデリングとはどのような方法を指すのでしょうか。本記事では,その特徴や利点について解説します。
統計モデリングとは何か
松浦(2016)によれば,統計モデリングとは「確率モデルをデータに当てはめて現象の理解と予測を促す営み」であるとしています。まず,確率モデルとは確率分布を含んだ数理モデルを指します。たとえばデータに正規分布を仮定した分散分析や回帰分析も,確率モデルです。つまり統計モデリングとは,確率分布を含んだ数理モデルによって,現象の理解と予測を行おうとするものだということができます。
しかし,統計モデリングをこのように定義したとき,これまで心理学で使われている分析手法でも確率モデルを使っているのだから,何が違うのかがわかりにくいかもしれません。ここではこれまで心理学で使われてきた分散分析や回帰分析などの「統計分析(便宜的に本記事ではそう呼びます)」と,「統計モデリング」の違いを説明することで,統計モデリングとは何かを解説していきます。
従来の統計分析との違い
確率モデルを使う点では,統計分析も統計モデリングも違いがありません。しかし,統計分析では確率モデルは固定して,母数についての仮説(たとえば母集団の平均値差の有無)に注目します。具体的には,t検定では平均値の差(正規分布の平均パラメータμの差),相関分析では相関係数(二変量正規分布の相関パラメータρ)のように,確率モデルは決まっていて,そのモデルに含まれるパラメータの推定と有意性検定の結果に関心があります。
一方で,統計モデリングは確率モデルを分析者が選択あるいは作成し,そのモデルがデータ生成を説明・予測できているかを評価することに主眼があります。統計モデリングの解説でよく紹介される一般線形モデル(Generalized Linear Model:GLM)は,確率モデルとして正規分布以外の確率モデル,たとえば二項分布やガンマ分布など,幅広く選択できる手法です。また,一般化線形混合モデル(Generalized Linear Mixed Model:GLMM)では,パラメータも確率モデルに組み入れることができて,モデルの幅がさらに広がります。このように決められた確率モデルにデータをあてはめるのではなく,データに合わせて確率モデルを選択するのが統計モデリングの第一の特徴です。
統計モデリングのさらなる特徴は,現象の理解をより深めるために,分析者が確率モデルを理論に基づいて作ることにもあります。このとき,線形モデルのような単純なモデルだけではなく,より複雑なパラメータの構造を確率モデルに組み込むことで,現象をよりよく理解することが目指されます。心理学の例ではありませんが,たとえば新型コロナウイルスの感染者数の推定も,統計モデリングによって行われています。ウイルスの感染の広がり方のメカニズムを疫学の知識に基づいて確率モデルで記述し,その説明や予測が上手くいっているかをデータから確認します。その過程で,もちろんパラメータの解釈も行われます。ただ,確率モデルがよりよくデータを説明できているかの確認のほうが重要です。
まとめると,統計分析手法は,分析目的に合わせてすでにあるモデルにデータをあてはめてパラメータを推定することに主な関心があり,統計モデリングはデータ生成の理解や予測のためにモデルを作り,そのモデル自体を評価することに主な関心があるといえます。このように,両者の違いは関心の違いにあって,どの分析が統計モデリングだといったように,明確に線引きができない点には注意が必要です。
統計モデリングの利点
統計モデリングの利点も,上記の特徴から理解できます。
統計モデリングでは,データ生成に合わせた確率モデルの選択や作成によって,よりよい予測が可能になります。たとえば反応時間は多くの場合正規分布にはならず,歪んだ(対数正規分布や指数正規分布に近い)分布になることが知られています。そのようなデータに正規分布を仮定した分散分析を用いてパラメータ推定をしても,正確な因果効果がわからないかもしれません。またパラメータの信頼区間についてはあまり違いがないかもしれませんが,予測区間(モデルから予測されたデータが発生しうる区間)となると大きな違いが生じえます。データ生成に合った確率モデルを用いることで,予測が正確になることが期待できます。
さらに,統計分析に比べると,より現象の理解の解像度が高くなる利点があります。実験と分散分析の組み合わせは,因果効果を知るのに適した手法です。しかし,いかなる理由でその行動の違いが生起したかを記述するのには向いていません。なぜなら,要因の操作による行動の差がわかっても,その背後のメカニズムはブラックボックスにならざるを得ないからです。もし心理学の理論を適切に応用した確率モデルを利用できれば,要因の差がどの心理的特徴に影響したのかがわかり,現象の理解についての解像度が高くなります。
たとえば,得られる報酬が遅延するほど主観的価値が下がる現象があります(遅延価値割引)。実験計画法では,いますぐ1万円もらえる条件と1年後に1万円もらえる条件で,前者のほうが選好される確率が高いことを示すことができますが,具体的に遅延にともなってどのように価値が減るのかはわかりません。統計モデリングを使えば,遅延報酬の価値が減っていくメカニズムに数理的な説明を与えることができます(たとえば指数割引モデル)。
ただ,実験計画法による因果推論が不要になるわけではありません。因果推論とメカニズムの探求は科学研究においてどちらも不可欠な営みであるため,双方の活用が重要だと思います。
ベイズ統計モデリング
統計モデリングは,ベイズ統計学とセットで説明されることが増えてきました。いわゆる「ベイズ統計モデリング」です。もともと統計モデリングは,ベイズ統計学でなければならないわけではありません。しかし,モデルのパラメータを推定する方法としてベイズ統計の推定法であるマルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo:MCMC)にさまざまなメリットがあったため,統計モデリングもベイズ推定によって解かれることが増えてきました。
統計モデリングをMCMCで推定することのメリットは,複雑なモデルが解きやすいことです。たとえばGLMで使える範囲の確率分布であれば,最尤法でも全く問題ありません。しかし,階層線形モデルのように,データだけではなくパラメータにも確率モデルを仮定するような複雑なモデル(階層モデルといいます)を推定する場合は,MCMCのほうが解きやすいのです。加えて近年ではRやPythonに,確率モデルをそのまま数式で書くだけでMCMCによるパラメータ推定を可能にするパッケージ(rstanなど)が開発されたこともあり,オリジナルなモデルを作ったときのパラメータ推定の敷居が大きく下がりました。そのことも,統計モデリングでMCMCが使われる理由です。
それ以外にも,ベイズ統計学から統計モデリングを理解することにメリットはあります。たとえばベイズ統計学で仮説評価に使われる指標としてベイズファクターがありますが,これは統計モデリングで使われるモデル比較指標であるBICと本質的に同じです。また,近年AICの発展版としてWAICが提案され,統計モデリングで活用されていますが,これもベイズ統計学から生まれました。このように,統計モデリングとベイズ統計学は密接に関わっています。
統計モデリングを使ってみる
統計モデリングを心理学の研究で使ってみたい人も多いのではないでしょうか。統計モデリングを使うには,何を習得すればいいでしょうか。
まずはGLM,そしてGLMMを習得しましょう。GLMMには正規分布以外の確率分布と,階層モデルを含んでおり,統計モデリングを理解する上で重要なエッセンスが詰まっています。また,MCMCでGLMやGLMMを推定する方法を解説した和書も多くあります(久保, 2012;松浦, 2016)。ベイズ統計の習得もできて一石二鳥です。
GLMMを習得したら,次に,先行研究で作られたモデルを活用してみるのがいいでしょう。認知モデリングでは,認知的特徴をパラメータとして取り出したりするための汎用的なモデルが多く提案されています。また近年では精神医学や臨床心理学では強化学習モデルが,意思決定の分野では経済モデルも,統計モデリングによる推定がなされています。みなさんもぜひ統計モデリングを使ってみてください。
文献
- 久保拓弥(2012)『データ解析のための統計モデリング入門:一般化線形モデル・階層ベイズモデル・MCMC』岩波書店
- Lee, M. D., & Wagenmakers, E.-J. (2013). Bayesian cognitive modeling: A practical course. Cambridge, UK:Cambridge University Press.
- 松浦健太郎(2016)『StanとRでベイズ統計モデリング』共立出版
PDFをダウンロード
1