相関係数②


AとBに正の相関があり、AとCに正の相関がある場合に、本来は関係のないBとCにも正の相関があるように見えてしまう場合があります。

例えば、

$~~~$A:気温 、B:アイスクリームの売上 、C:扇風機の販売台数

として、それぞれ散布図を書くと以下のような結果になったとします。
(値は適当です。)

一般論的として、

$~~~~$気温 が高いほど、アイスクリーム が売れる
$~~~~$気温 が高いほど、扇風機の販売台数 が増える

ことは考えられますが、

$~~~~$アイスクリームの売上 と 扇風機の販売台数

の間には直接的な関係性はないはずです。しかしながら、0.765という高い相関が得られています。

このように共通原因(ここでは気温)をもったために本来相関がないであろう変数間に相関がみられることを、見かけ上の相関擬似相関 といいます。
 
 擬似相関が疑われるような場合には、偏相関係数 と呼ばれるものを計算します。

偏相関係数とは、今回の例では、「A:気温 の影響を除いた B:アイスクリームの売上」と「A:気温 の影響を除いた C:扇風機の販売台数」の相関係数のことを言い、

式で表すと、
\begin{align*}
偏相関係数= \dfrac{\rho^{~}_{BC}-\rho^{~}_{AB} \rho^{~}_{AC}}{\sqrt{1-\rho_{AB}^{2}} \sqrt{1-\rho_{AC}^{2}}}
\end{align*}
から計算されます。($\rho^{~}_{XY}$の表記は $X$ と $Y$ の相関を表す)

 

「B:アイスクリームの売上」 と 「C:扇風機の販売台数」 に関して偏相関係数を計算すると、偏相関係数は0.403となり、やはりBとCには関係性はないと判断することができます。

相関係数①

AとBには “相関がある”、”相関がない” という言葉を聞いたことがある方は多いのではないでしょうか?2つの値の相関の強さを表す指標を 相関係数 といいますが、ひとえに “相関係数” といっても、

$~~~~~$「(ピアソンの)積率相関係数」、「順位相関係数」、
$~~~~~$「偏相関係数」、「自己相関係数」など

様々な相関係数が存在します。単に相関係数と呼ぶ場合には、通常は「(ピアソンの)積率相関係数」をさしています。

今回は、「(ピアソンの)積率相関係数」、「順位相関係数」について解説します。

 

「積率相関係数」について

 データがともに量的変数 である場合に用いられる相関係数です。

例えば、”体重と身長” の関係や、”駅からの距離と家賃”、”年齢と血圧” など両者ともに定量的な値を持つ場合に活用されます。

相関があるとは2つのデータ間に直線的な関係があることを意味します。

$~~~~~$Aが大きくなるとBも大きくなる場合には 正の相関 がある
$~~~~~$Aが大きくなるとBが小さくなる場合には 負の相関 がある

といいます。

ただし、以下のようなデータの場合にはAとBには明らかに関係性がありそうですが、直線では表せないため相関はないと判断されます。

このように、相関がないことは、因果関係がないことを示すわけではないため、あくまで相関は1つの指標であり、値を図にプロットして確認することが非常に重要になります。

 

「順位相関係数」について

 データがともに質的変数で、順位である場合に用いられる相関係数です。

例えば、”男女の好きな果物の順位” の関係や、”去年と今年の月別降水量の順位”、 など順位で表せる場合に両者の関係性をはかる手段として活用されます。

順位相関係数の求め方として

「スピアマンの順位相関係数」「ケンドールの順位相関係数」

が良く使われるそうです。順位相関係数には複数の求め方があり、目的に応じて順位相関係数の算出方法を決める必要があるということを覚えておけばよいかと思います。

順序尺度の場合のアンケート分析③

順序尺度の場合のアンケート分析①順序尺度の場合のアンケート分析②では、定食Aの満足度に関するアンケート結果に関して、ダミー変数を用いて重回帰分析を行うことによって、以下の回帰式が得られることを解説しました。


しかしながら、この式から各設問に及ぼす満足度への影響度は解釈できますが、切片の値 $7.0$ が何を表すのか解釈できません。そこで、さらに解釈しやすい式への変形を行います。

まず、各設問内のカテゴリ数量の平均が0となるように、以下の表のようにカテゴリ数量の変換を施します。このような処理を カテゴリ数量の基準化 と言います。また、切片は満足度(設問5)の平均点となります。

カテゴリ 度数 回帰係数
(カテゴリ数量)
カテゴリ数量の平均 カテゴリ数量の基準化
設問1 十分 5 1.7 1.09

$\left(=\dfrac{5\times 1.7+3\times 1.2 + 3\times 1.4 +4 \times 0}{5+3+3+4}\right)$

0.61
(= 1.7 – 1.09)
普通 3 1.2 0.59
(= 1.2 – 1.09)
やや不十分 3 1.4 0.79
(= 1.2 – 1.09)
不十分 4 0 -1.09
(= 0 – 1.09)
設問2 多い 4 1.4 0.41

$\left(=\dfrac{4\times 1.4+5\times 0.1 + 6 \times 0}{4+5+6}\right)$

0.99
(= 1.4 – 0.41)
普通 5 0.1 -0.31
(= 0.1 – 0.41)
少ない 6 0 -0.41
(= 0 – 0.41)
設問3 高い 4 -3.7 -1.59

$\left(=\dfrac{4\times -3.7-6\times 1.5 + 5 \times 0}{4+6+5}\right)$

-2.11
(= -3.7 + 1.59)
普通 6 -1.5 0.09
(= -1.5 + 1.59)
安い 5 0 1.59
(= 0 + 1.59)
設問4 早い 6 0 -0.29

$\left(=\dfrac{4\times 0+5\times -0.8 + 4 \times -3.0}{6+5+4}\right)$

0.29
(= 0 + 0.29)
普通 5 -0.8 -0.51
(= -0.8 + 0.29)
遅い 4 -3.0 -0.01
(= -3.0 + 0.29)
切片 7 6.55
(設問5の平均点)

よって、カテゴリ数量の基準値を用いると全体的な満足度の式は

と表されます。この式を用いることによって、全体的な満足度の平均値を基準(切片)にして、各設問の影響度を確認することができるようになります。

 

 

順序尺度の場合のアンケート分析②

順序尺度の場合のアンケート分析①では、定食Aの満足度に関するアンケート結果に関して、重回帰分析を行ったところ、以下の結果が得られたところまで解説しました。

設問1 設問2 設問3 設問4
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
この結果は、全体的な満足度が、以下のように推定できることを意味します。
 

 
重回帰分析する際に、各設問における回答結果を1つ消去しましたが、その消去した回答結果の点数は0となります。サンプル数が15と少数であったため、設問1の「普通」と「やや不満」の大小関係が逆転していますが、それ以外の大小関係は違和感ないものになっています。
 
全体的な満足度に最も影響する設問は、各設問の「最大値-最小値」の絶対値の大きさから判断します。

最大値-最小値の絶対値
設問1 設問2 設問3 設問4
1.7 1.4 3.7 3.0

 
よって、定食Aの全体的な満足度に影響する因子は、設問3の価格の満足度であり、次に設問4の提供時間の満足度であることがわかります。

順序尺度の場合のアンケート分析①

前回からの続きです。

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

  
上記のアンケートを計15人に取った結果、以下の回答が得られたとします。

No. 設問1 設問2 設問3 設問4 設問5
1 十分 多い 高い 普通 8
2 十分 少ない 安い 早い 6
3 やや不十分 普通 普通 早い 5
4 やや不十分 多い 高い 普通 8
5 不十分 多い 普通 早い 10
6 普通 少ない 安い 遅い 7
7 普通 普通 高い 普通 4
8 十分 少ない 高い 遅い 3
9 十分 多い 普通 普通 6
10 不十分 普通 安い 早い 8
11 不十分 普通 普通 普通 5
12 やや不十分 普通 安い 早い 5
13 普通 少ない 普通 遅い 4
14 十分 少ない 普通 遅い 6
15 不十分 少ない 安い 早い 10

 
このアンケート結果から、以下のように各設問の点数を求めることを考えます。
 

 
そのために、まず設問1~設問4の回答結果を0と1で表す以下のような表を作成します。各設問において1つの回答結果を消去しています。これは、設問1を例にすると、「やや不十分」、「普通」、「十分」の値が0であることは「不十分」の値が1であることが判断できるためです。(この処理をしないと重回帰分析が計算できなくなります。)
 

設問1 設問2 設問3 設問4 設問5
No. やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 満足度
1 0 0 1 0 0 0 0 1 0 8
2 0 0 1 0 1 0 0 0 0 10
3 1 0 0 1 0 0 1 1 0 4
4 1 0 0 1 0 1 0 1 0 6
5 0 0 0 1 0 0 0 0 1 4
6 0 1 0 0 0 1 0 0 1 4
7 0 1 0 0 0 0 1 0 1 1
8 0 0 1 0 0 0 1 0 1 2
9 0 0 1 0 0 0 0 0 0 9
10 0 0 0 0 1 1 0 0 0 7
11 0 0 0 0 1 0 1 1 0 4
12 1 0 0 1 0 0 1 0 1 2
13 0 1 0 1 0 0 1 1 0 4
14 0 0 1 0 0 1 0 0 0 7
15 0 0 0 0 0 0 0 0 0 7

 
上記のテーブルを使って、重回帰分析を行うと、以下の結果が得られます。

設問1 設問2 設問3 設問4 設問5
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
次回、この結果の見方を解説します。

アンケート調査における尺度の置き方


ある飲食店の店主がある定食Aの満足度調査を行うために、以下のアンケート調査票を作成したとします。

アンケート調査票 その1

設問 1 定食Aの味はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 2 定食Aの量はご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 3 定食Aの価格はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 4 定食Aの提供時間にはご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 5 定食Aの全体的な満足度をご記入ください
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

このアンケートでは、 満足度の間隔が「等間隔」 であるということを 前提 にした尺度を用いています。このような尺度は 間隔尺度 と呼ばれています。間隔尺度を用いる場合、重回帰分析を行うことによって、例えば、
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような結果が得られ、設問1の点数が1点増加するごとに、全体的な満足度は0.35点増加するといった比例関係を見出すことが可能となります。

 

それでは、以下のようなアンケート調査票の場合はどうでしょうか?

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

これらの質問は、設問5を除き、定性的な感覚を聞いているので 大小関係のみに意味 がある尺度となっており、等間隔ではありません。このような尺度は 順序尺度 と呼ばれます。順序尺度を用いる場合、尺度が等間隔ではありませんので、上述の
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような比例関係の結果を導くことはできません。では、順序尺度の場合どのように分析したらいいのでしょうか?次回、順序尺度を用いた重回帰分析の解き方について解説致します。

平均値の種類

 一般に、「平均」 といえば、「算術平均」 (統計学では、相加平均という) を指しますが、その他にも平均には、「加重平均」「幾何平均」(または、相乗平均)、「調和平均」などがあり、場合に応じて使い分ける必要があります。

   
(加重平均の例)
 ある会社では3種類の弁当を販売しており、1ヵ月の売上数を調査したところ、$500$円のA弁当は $1000$個、$800$円のB弁当は $500$個、$1000$円のC弁当は $100$個であったとすると、弁当1個に使われた平均金額は、
\begin{align*}
\dfrac{500 \times 1000 + 800×500 + 1000×100 }{ 1000+500+100 }= 625 円
\end{align*}として求められます。加重平均は、重みが異なる(度数が異なる)場合の平均 として用いられます。

   
(幾何平均の例)
 消費者物価指数の3年間の伸び率が、$1.031$ , $0.995$ , $0.987$ であったとします。この3年間の1年あたりの平均伸び率は、
\begin{align*}
\sqrt[3]{1.031×0.995×0.987}= 1.004
\end{align*}として求められます。幾何平均は、指数関数的に増減する分布の平均 として用いられます。

   
(調和平均の例)
 片道 $100 \mathrm{km}$ の道のりを、行きは時速 $10 \mathrm{km/h}$ で、帰りは時速 $15 \mathrm{km/h}$ で往復したとすると、往復の平均時速は
\begin{align*}
\dfrac{2}{\dfrac{1}{10}+\dfrac{1}{15}}=12 
\end{align*}として求められます。調和平均 は、反比例的に増減する分布の平均 として用いられます。

   
このように対象とする分布に応じて、平均を使い分ける必要があります。

一見すると間違えそうな問題


(問題)

 ある感染症に 10000人 に 1人 の割合で感染しているとします。また、この感染症に関する検査では、本当に感染していた場合に 99.9% の確率で陽性反応を示し、感染していない場合でも 0.1% の確率で陽性反応を示すとします。

A氏がこの感染症の結果を受けた結果、「陽性」でした。A氏が本当に確率は何%でしょうか?
   

(解説)
 検査の精度が「99.9% の確率で陽性反応を示す」なのだから、A氏が本当に感染している確率は 99.9% なのでは?

と思ってしまいそうですが、実はそうではありません。
   
なぜなら、
検査結果が「陽性」で、本当に感染している確率は、

\begin{align*}
0.999 \times \frac{ 1 }{ 10000 } = 9.9 \times 10^{-5}.
\end{align*}

検査結果が「陽性」だが、本当は感染していない確率は、

\begin{align*}
0.001 \times \frac{ 9999 }{ 10000 } = 9.9 \times 10^{-5}
\end{align*}

となります。つまり、検査結果が「陽性」のとき、本当に感染しているかどうかに関わらず同じ確率となりますので、A氏が本当に感染している確率は 50% ということになります。

   
このように「感染症に 10000人 に 1人 の割合で感染」という条件を考えずに、「 99.9% の確率で陽性反応を示す」という条件のみに着目すると誤った結論を導く可能性があります。日常生活でも精度のみに惑わされないよう注意が必要です。

主成分分析を図を使ってイメージする

 主成分分析とは、「データの次元を削減し、データの特徴を捉えやすくするために用いられる手法」です。主成分分析のイメージを図から感覚的に捉えてみましょう。

   

 図示可能な3次元データを例として用います。以下のような3次元データが得られたとします。


この3次元データを違う方向から見ると、ある平面上付近にデータが集まっていることがわかります。

よって、この平面上に新たな2軸を作成すると、今回の3次元のデータは2次元データとして捉えることが可能となります。

すべてのデータが平面上にはないので、平面に対して垂直方向のずれ(情報)は捨てることになりますが、

“平面上付近にデータが分布する”というデータの大きな特徴は捉えることができています。(主成分分析では、元のデータの80~90%の情報は残るように次元を調整します。)

このように、主成分分析では、新たな軸を設けて、次元を削減することによって、データの特徴をより簡略的に捉えることが可能となります。

確率分布の特定が困難な場合の区間推定方法


(例題)

 1日当たりの来店者数を1年間調査したところ、以下のような度数分布が得られたとします。この度数分布から、平均値・中央値の信頼区間を求めてみます。


(問題点)
 ①上記の度数分布では、どのような確率分布を仮定するべきなのかわからない。
 ②中央値の信頼区間を求める解析的に解く方法がない。

   

(ブートストラップ法)
 このような問題の対処法の一つに、数値解析的に解く ブートストラップ法が用いられます。

ブートストラップ法は、“標本の分布は母集団の分布を再現している” という 仮定 のもと、標本の分布から復元抽出を行い、復元抽出した標本のデータをもとに 母集団の分布を推測 する方法です。

ブートストラップ法は以下の手順を踏みます。標本データ数を$n$とすると、
① $n$個の標本データから、新たに $n$ 個のデータを復元抽出する。
(ブートストラップ標本とよばれます)
② ブートストラップ標本の平均値・標準偏差・中央値を算出する。
③ ①と②を $B$ 回繰り返す。(今回は、$B=10000$ としました)
④ $B$ 回の繰り返しにより得られた平均・標準偏差・中央値の度数分布を確認する。
⑤ ④で得られた度数分布を元に区間推定を行う

   

(平均値の信頼区間)
 上記例において、ブートストラップ法の手順④まで計算を行うと、平均値の累積度数は以下のように得られました。

この結果から、例えば、”平均値 ≦$71$”となる確率は
\begin{align*}
(9+19+73+209+479)/10000 =0.079
\end{align*}
であり、”平均値 ≧ $79$” となる確率は
\begin{align*}
(1+2+10+50+115+304)/10000= 0.049
\end{align*}
なので、母集団の平均値のおおよその90%信頼区間は、
\begin{align*}
71 < 平均値 < 79
\end{align*}
と求められます。

   

(中央値の信頼区間)
 同様に、中央値の累積度数は以下のように得られました。

この結果から、例えば、中央値 ≦$65$ となる確率は
\begin{align*}
\dfrac{3+4+10+3+15+37+26+55+248}{10000} =0.040
\end{align*}
であり、 中央値 ≧ $76$ となる確率は
\begin{align*}
\dfrac{76+65+50+183+206}{10000}= 0.058
\end{align*}
なので、母集団の中央値のおおよその90%信頼区間は、
\begin{align*}
65 < 中央値 < 76
\end{align*}
と求められます。