SPSSやEXCEL、R等を用いて回帰分析を行うと、回帰係数の値だけではなく、結果の妥当性を判断するための指標である 「$t$ 値」 (または「$t$」と表示)と呼ばれる結果が必ず付随します。今回は、この「$t$ 値」の意味について解説します。回帰分析、検定については、前回の記事を参照ください。
(回帰係数も確率分布に従う)
回帰分析 を1回行うと、ある1つの 回帰係数 の値が得られます。しかし、これは分析に用いたデータから “たまたま” 得られた結果です。実際には、①データ数 や ②データのばらつき により、回帰係数は “様々な” 値 をとります。そのため、回帰係数がとり得る値は①・②から決まる確率分布になっています。この分布は、$t$ 分布 と呼ばれる確率分布に従うことが知られており、$t$ 分布の $x$ 軸の値が $t$ 値と呼ばれています。
(回帰係数の値がゼロの可能性を否定できるか)
回帰係数が “様々な” 値をとるということは、回帰係数がゼロである可能性 も否定できません。回帰係数がゼロである可能性を否定できない場合には、その説明変数に意味がない可能性があるため、一般的には、その説明変数を除外します。つまり、重回帰式
y=a_{1}x_{1}+a_{2}x_{2}+a_{3}x_{3}
\end{align*}
を例にすると、回帰係数 $a_{1}=0$ である可能性がある場合、その説明変数 $x_{1}$ は目的変数 $y$ を説明する変数となってない可能性があるため、説明変数 $x_{1}$ を回帰式から除外し、
y=a_{2}x_{2}+a_{3}x_{3}
\end{align*}
という式に修正することがあります。
(判断基準)
回帰分析の結果得られる $t$ 値 は、その回帰係数が “ゼロではない確率” を間接的に表したものになります。実際の確率は、$t$ 分布から求められ、その確率は 有意確率 (P値) と呼ばれます。よく用いられるざっくりとした判定基準に、$t$ 値 の 絶対値が2以上、つまり、確率にして約 $95$% 以上 ある場合、回帰係数はゼロではない (例えば、$a_{1} \neq 0$)と判断し、その説明変数(例えば $x_{1}$) は目的変数を説明する変数として意味があると判断する、というものがあります。(実際には $t$ 値と確率の関係は、データのサンプル数によって変動します。$t$ 分布表を参照ください。)