ベイズ統計学の考え方

ベイズ統計学 では 一般的な統計学 とは前提の考え方が異なっています。
両者を比較してみましょう。

一般的な統計学では、得られた観測データというのは、唯一の真の確率分布から、ランダムに抽出されたものであると考えます。仮に、真の確率分布が正規分布であるとするならば、平均・分散は定数であり、非確率変数になります。

 

 

そのため、一般的な統計学では、得られた観測データから、背景にある確率分布を仮定し、ある定数である平均と分散を推定することが最終目標になります。

 

 

 

一方、ベイズ統計学では、背景に唯一の真の確率分布があるとは考えずに、真の確率分布は変化するものであると考えます。得られた観測データというのは、毎回異なる確率分布から、ランダムに抽出されたものであると考えます。仮に、背景の確率分布を正規分布であると仮定するならば、平均、分散が変数となり、確率変数になります。

 

 

そのため、ベイズ統計学では、得られた観測データから、背景にある確率分布を仮定し、平均・分散の確率分布を求めることが最終目標になります。

 

 

(ベイズ統計学を用いるメリット)

ベイズ統計学を用いるメリットは平均・分散といったパラメタの確率分布を求められる点にあります。

 

例えば、実験Aと実験Bの平均値に差があるか?という問題があったとします。

 

一般的な統計学では、帰無・対立仮説、有意水準を設定し、検定統計量と有意水準の大きさを比較して・・・、ということを行いますが、ベイズ統計学では、差の確率分布直接求めることができます。

   |実験Aの平均 – 実験Bの平均|>0 である確率は〇〇%。

   (実験Aの平均 – 実験Bの平均)>0 である確率は△△%

といったように、非常に直感的に解釈がしやすい結果を得ることが可能になります。これが、ベイズ統計学を用いるメリットの1つになります。

 

ベイズ統計学のもう1つのメリットは、事前パラメタの確率分布の知識を持っていれば、少数のデータでもある程度の精度を保った推定が行えることにあります。

 

(ベイズ統計学のデメリット)

ベイズ統計学を扱うためには、MCMC(マルコフ連鎖モンテカルロ法)という乱数生成アルゴリズムを用いる必要があります。プログラミングを行う必要があるため、初学者が気軽に扱えないという点がデメリットになります。

因子分析を使ってできること


アンケート分析において、よく使われる手法の1つに 因子分析 があります。
 
因子分析とは、
「データ間に 相関がある ということは、その背後に何か 共通する因子 が隠れているのではないか?」
という考えのもと、データの背後に潜む構造を理解 しようとする手法です。

違う言い方をすれば、アンケートなどで得られた結果がなぜ得られたのかその原因を推定しようということです。

 
例えば、
「日毎の傘の売上と合羽の売上を調べたところ正の相関がある」とします。
このような結果が得られたのは、傘と合羽の売上に影響する共通の因子(原因)が背後に隠れているのでは?と考えることが因子分析を使う動機になります。

 
今回の例でいうと、共通因子として、当日の降水の有無が考えられます。

 
もちろん、共通因子は1つとは限りません。明日の天気予報の降水の有無も共通因子かもしれません。

 
実は、因子分析を使ってわかることは、
・「共通の因子が1つ以上ありそうだ」
・「その共通因子が結果に対してどの程度の影響度を持っているか」
ということだけです。

・何個の共通因子が存在するのか?
・共通の因子とは何であるのか?
に関しては、自身で考える必要があります。
 
(イメージ)

そのため、アンケート分析から因子分析を行いたい場合には、ある程度の共通因子を見込める設問を 事前 に想定した上でアンケートを実施する必要があります。

例えば、アンケートの設問内容と想定される因子例は、下表のようなります。



あくまで 想定 なので、アンケート実施を行う前に、事前検証 用のアンケートを実施し、想定に大きな差異がないことを事前に確認しておくことが望ましいです。

相関係数②


AとBに正の相関があり、AとCに正の相関がある場合に、本来は関係のないBとCにも正の相関があるように見えてしまう場合があります。

例えば、

$~~~$A:気温 、B:アイスクリームの売上 、C:扇風機の販売台数

として、それぞれ散布図を書くと以下のような結果になったとします。
(値は適当です。)

一般論的として、

$~~~~$気温 が高いほど、アイスクリーム が売れる
$~~~~$気温 が高いほど、扇風機の販売台数 が増える

ことは考えられますが、

$~~~~$アイスクリームの売上 と 扇風機の販売台数

の間には直接的な関係性はないはずです。しかしながら、0.765という高い相関が得られています。

このように共通原因(ここでは気温)をもったために本来相関がないであろう変数間に相関がみられることを、見かけ上の相関擬似相関 といいます。
 
 擬似相関が疑われるような場合には、偏相関係数 と呼ばれるものを計算します。

偏相関係数とは、今回の例では、「A:気温 の影響を除いた B:アイスクリームの売上」と「A:気温 の影響を除いた C:扇風機の販売台数」の相関係数のことを言い、

式で表すと、
\begin{align*}
偏相関係数= \dfrac{\rho^{~}_{BC}-\rho^{~}_{AB} \rho^{~}_{AC}}{\sqrt{1-\rho_{AB}^{2}} \sqrt{1-\rho_{AC}^{2}}}
\end{align*}
から計算されます。($\rho^{~}_{XY}$の表記は $X$ と $Y$ の相関を表す)

 

「B:アイスクリームの売上」 と 「C:扇風機の販売台数」 に関して偏相関係数を計算すると、偏相関係数は0.403となり、やはりBとCには関係性はないと判断することができます。

相関係数①

AとBには “相関がある”、”相関がない” という言葉を聞いたことがある方は多いのではないでしょうか?2つの値の相関の強さを表す指標を 相関係数 といいますが、ひとえに “相関係数” といっても、

$~~~~~$「(ピアソンの)積率相関係数」、「順位相関係数」、
$~~~~~$「偏相関係数」、「自己相関係数」など

様々な相関係数が存在します。単に相関係数と呼ぶ場合には、通常は「(ピアソンの)積率相関係数」をさしています。

今回は、「(ピアソンの)積率相関係数」、「順位相関係数」について解説します。

 

「積率相関係数」について

 データがともに量的変数 である場合に用いられる相関係数です。

例えば、”体重と身長” の関係や、”駅からの距離と家賃”、”年齢と血圧” など両者ともに定量的な値を持つ場合に活用されます。

相関があるとは2つのデータ間に直線的な関係があることを意味します。

$~~~~~$Aが大きくなるとBも大きくなる場合には 正の相関 がある
$~~~~~$Aが大きくなるとBが小さくなる場合には 負の相関 がある

といいます。

ただし、以下のようなデータの場合にはAとBには明らかに関係性がありそうですが、直線では表せないため相関はないと判断されます。

このように、相関がないことは、因果関係がないことを示すわけではないため、あくまで相関は1つの指標であり、値を図にプロットして確認することが非常に重要になります。

 

「順位相関係数」について

 データがともに質的変数で、順位である場合に用いられる相関係数です。

例えば、”男女の好きな果物の順位” の関係や、”去年と今年の月別降水量の順位”、 など順位で表せる場合に両者の関係性をはかる手段として活用されます。

順位相関係数の求め方として

「スピアマンの順位相関係数」「ケンドールの順位相関係数」

が良く使われるそうです。順位相関係数には複数の求め方があり、目的に応じて順位相関係数の算出方法を決める必要があるということを覚えておけばよいかと思います。

順序尺度の場合のアンケート分析③

順序尺度の場合のアンケート分析①順序尺度の場合のアンケート分析②では、定食Aの満足度に関するアンケート結果に関して、ダミー変数を用いて重回帰分析を行うことによって、以下の回帰式が得られることを解説しました。


しかしながら、この式から各設問に及ぼす満足度への影響度は解釈できますが、切片の値 $7.0$ が何を表すのか解釈できません。そこで、さらに解釈しやすい式への変形を行います。

まず、各設問内のカテゴリ数量の平均が0となるように、以下の表のようにカテゴリ数量の変換を施します。このような処理を カテゴリ数量の基準化 と言います。また、切片は満足度(設問5)の平均点となります。

カテゴリ 度数 回帰係数
(カテゴリ数量)
カテゴリ数量の平均 カテゴリ数量の基準化
設問1 十分 5 1.7 1.09

$\left(=\dfrac{5\times 1.7+3\times 1.2 + 3\times 1.4 +4 \times 0}{5+3+3+4}\right)$

0.61
(= 1.7 – 1.09)
普通 3 1.2 0.59
(= 1.2 – 1.09)
やや不十分 3 1.4 0.79
(= 1.2 – 1.09)
不十分 4 0 -1.09
(= 0 – 1.09)
設問2 多い 4 1.4 0.41

$\left(=\dfrac{4\times 1.4+5\times 0.1 + 6 \times 0}{4+5+6}\right)$

0.99
(= 1.4 – 0.41)
普通 5 0.1 -0.31
(= 0.1 – 0.41)
少ない 6 0 -0.41
(= 0 – 0.41)
設問3 高い 4 -3.7 -1.59

$\left(=\dfrac{4\times -3.7-6\times 1.5 + 5 \times 0}{4+6+5}\right)$

-2.11
(= -3.7 + 1.59)
普通 6 -1.5 0.09
(= -1.5 + 1.59)
安い 5 0 1.59
(= 0 + 1.59)
設問4 早い 6 0 -0.29

$\left(=\dfrac{4\times 0+5\times -0.8 + 4 \times -3.0}{6+5+4}\right)$

0.29
(= 0 + 0.29)
普通 5 -0.8 -0.51
(= -0.8 + 0.29)
遅い 4 -3.0 -0.01
(= -3.0 + 0.29)
切片 7 6.55
(設問5の平均点)

よって、カテゴリ数量の基準値を用いると全体的な満足度の式は

と表されます。この式を用いることによって、全体的な満足度の平均値を基準(切片)にして、各設問の影響度を確認することができるようになります。

 

 

順序尺度の場合のアンケート分析②

順序尺度の場合のアンケート分析①では、定食Aの満足度に関するアンケート結果に関して、重回帰分析を行ったところ、以下の結果が得られたところまで解説しました。

設問1 設問2 設問3 設問4
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
この結果は、全体的な満足度が、以下のように推定できることを意味します。
 

 
重回帰分析する際に、各設問における回答結果を1つ消去しましたが、その消去した回答結果の点数は0となります。サンプル数が15と少数であったため、設問1の「普通」と「やや不満」の大小関係が逆転していますが、それ以外の大小関係は違和感ないものになっています。
 
全体的な満足度に最も影響する設問は、各設問の「最大値-最小値」の絶対値の大きさから判断します。

最大値-最小値の絶対値
設問1 設問2 設問3 設問4
1.7 1.4 3.7 3.0

 
よって、定食Aの全体的な満足度に影響する因子は、設問3の価格の満足度であり、次に設問4の提供時間の満足度であることがわかります。

順序尺度の場合のアンケート分析①

前回からの続きです。

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

  
上記のアンケートを計15人に取った結果、以下の回答が得られたとします。

No. 設問1 設問2 設問3 設問4 設問5
1 十分 多い 高い 普通 8
2 十分 少ない 安い 早い 6
3 やや不十分 普通 普通 早い 5
4 やや不十分 多い 高い 普通 8
5 不十分 多い 普通 早い 10
6 普通 少ない 安い 遅い 7
7 普通 普通 高い 普通 4
8 十分 少ない 高い 遅い 3
9 十分 多い 普通 普通 6
10 不十分 普通 安い 早い 8
11 不十分 普通 普通 普通 5
12 やや不十分 普通 安い 早い 5
13 普通 少ない 普通 遅い 4
14 十分 少ない 普通 遅い 6
15 不十分 少ない 安い 早い 10

 
このアンケート結果から、以下のように各設問の点数を求めることを考えます。
 

 
そのために、まず設問1~設問4の回答結果を0と1で表す以下のような表を作成します。各設問において1つの回答結果を消去しています。これは、設問1を例にすると、「やや不十分」、「普通」、「十分」の値が0であることは「不十分」の値が1であることが判断できるためです。(この処理をしないと重回帰分析が計算できなくなります。)
 

設問1 設問2 設問3 設問4 設問5
No. やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 満足度
1 0 0 1 0 0 0 0 1 0 8
2 0 0 1 0 1 0 0 0 0 10
3 1 0 0 1 0 0 1 1 0 4
4 1 0 0 1 0 1 0 1 0 6
5 0 0 0 1 0 0 0 0 1 4
6 0 1 0 0 0 1 0 0 1 4
7 0 1 0 0 0 0 1 0 1 1
8 0 0 1 0 0 0 1 0 1 2
9 0 0 1 0 0 0 0 0 0 9
10 0 0 0 0 1 1 0 0 0 7
11 0 0 0 0 1 0 1 1 0 4
12 1 0 0 1 0 0 1 0 1 2
13 0 1 0 1 0 0 1 1 0 4
14 0 0 1 0 0 1 0 0 0 7
15 0 0 0 0 0 0 0 0 0 7

 
上記のテーブルを使って、重回帰分析を行うと、以下の結果が得られます。

設問1 設問2 設問3 設問4 設問5
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
次回、この結果の見方を解説します。

アンケート調査における尺度の置き方


ある飲食店の店主がある定食Aの満足度調査を行うために、以下のアンケート調査票を作成したとします。

アンケート調査票 その1

設問 1 定食Aの味はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 2 定食Aの量はご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 3 定食Aの価格はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 4 定食Aの提供時間にはご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 5 定食Aの全体的な満足度をご記入ください
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

このアンケートでは、 満足度の間隔が「等間隔」 であるということを 前提 にした尺度を用いています。このような尺度は 間隔尺度 と呼ばれています。間隔尺度を用いる場合、重回帰分析を行うことによって、例えば、
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような結果が得られ、設問1の点数が1点増加するごとに、全体的な満足度は0.35点増加するといった比例関係を見出すことが可能となります。

 

それでは、以下のようなアンケート調査票の場合はどうでしょうか?

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

これらの質問は、設問5を除き、定性的な感覚を聞いているので 大小関係のみに意味 がある尺度となっており、等間隔ではありません。このような尺度は 順序尺度 と呼ばれます。順序尺度を用いる場合、尺度が等間隔ではありませんので、上述の
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような比例関係の結果を導くことはできません。では、順序尺度の場合どのように分析したらいいのでしょうか?次回、順序尺度を用いた重回帰分析の解き方について解説致します。

平均値の種類

 一般に、「平均」 といえば、「算術平均」 (統計学では、相加平均という) を指しますが、その他にも平均には、「加重平均」「幾何平均」(または、相乗平均)、「調和平均」などがあり、場合に応じて使い分ける必要があります。

   
(加重平均の例)
 ある会社では3種類の弁当を販売しており、1ヵ月の売上数を調査したところ、$500$円のA弁当は $1000$個、$800$円のB弁当は $500$個、$1000$円のC弁当は $100$個であったとすると、弁当1個に使われた平均金額は、
\begin{align*}
\dfrac{500 \times 1000 + 800×500 + 1000×100 }{ 1000+500+100 }= 625 円
\end{align*}として求められます。加重平均は、重みが異なる(度数が異なる)場合の平均 として用いられます。

   
(幾何平均の例)
 消費者物価指数の3年間の伸び率が、$1.031$ , $0.995$ , $0.987$ であったとします。この3年間の1年あたりの平均伸び率は、
\begin{align*}
\sqrt[3]{1.031×0.995×0.987}= 1.004
\end{align*}として求められます。幾何平均は、指数関数的に増減する分布の平均 として用いられます。

   
(調和平均の例)
 片道 $100 \mathrm{km}$ の道のりを、行きは時速 $10 \mathrm{km/h}$ で、帰りは時速 $15 \mathrm{km/h}$ で往復したとすると、往復の平均時速は
\begin{align*}
\dfrac{2}{\dfrac{1}{10}+\dfrac{1}{15}}=12 
\end{align*}として求められます。調和平均 は、反比例的に増減する分布の平均 として用いられます。

   
このように対象とする分布に応じて、平均を使い分ける必要があります。

一見すると間違えそうな問題


(問題)

 ある感染症に 10000人 に 1人 の割合で感染しているとします。また、この感染症に関する検査では、本当に感染していた場合に 99.9% の確率で陽性反応を示し、感染していない場合でも 0.1% の確率で陽性反応を示すとします。

A氏がこの感染症の結果を受けた結果、「陽性」でした。A氏が本当に確率は何%でしょうか?
   

(解説)
 検査の精度が「99.9% の確率で陽性反応を示す」なのだから、A氏が本当に感染している確率は 99.9% なのでは?

と思ってしまいそうですが、実はそうではありません。
   
なぜなら、
検査結果が「陽性」で、本当に感染している確率は、

\begin{align*}
0.999 \times \frac{ 1 }{ 10000 } = 9.9 \times 10^{-5}.
\end{align*}

検査結果が「陽性」だが、本当は感染していない確率は、

\begin{align*}
0.001 \times \frac{ 9999 }{ 10000 } = 9.9 \times 10^{-5}
\end{align*}

となります。つまり、検査結果が「陽性」のとき、本当に感染しているかどうかに関わらず同じ確率となりますので、A氏が本当に感染している確率は 50% ということになります。

   
このように「感染症に 10000人 に 1人 の割合で感染」という条件を考えずに、「 99.9% の確率で陽性反応を示す」という条件のみに着目すると誤った結論を導く可能性があります。日常生活でも精度のみに惑わされないよう注意が必要です。