新たなサンプルを抜きとったときの予測値


(新たなに抜き取ったりんごの重さは?)

   前回の記事では、あるりんご園からりんご 5個 をサンプリングした結果、その重さ $(\mathrm{g})$ がそれぞれ、
\begin{align*}
288&&292&&305&&298&&290
\end{align*}であった場合に、標本平均 $\overline{X}(=295)$ から、母集団の平均値を推定 する方法について述べました。

 

   しかし、例えば、出荷できるりんごの重さの範囲が決められているような場合には、知りたいのは平均値ではなく、新たなサンプル のリンゴを1個 抜き取った ときに、そのリンゴの重さが

$~~~~~~~~$1. $~~300\,\pm5$ の範囲にある 確率 はいくらか?
$~~~~~~~~$2.「$99.9$% の確率でこの 範囲 に入る」と言えるのは、$295\,\pm$ いくらか?

ということになります。ここでは、この疑問に対する答えを考えていきます。

 

(理論的な背景)

   新たなリンゴのサンプルを確率変数 $X$ と表します。前回の記事では、確率変数 $X$ の 期待値 $E(X)$ および 分散 $V(X)$ が、
\begin{align*}
E(X)=\mu\,,&&V(X)=\sigma^2
\end{align*}であるとき、その平均 $\overline{X}$ の 期待値 $E(\overline{X})$ および 分散 $V(\overline{X})$ は
\begin{align*}
E(\overline{X})&=\mu~,\\[6pt]
V(\overline{X})&=\frac{\sigma^2}{n}
\end{align*}となることを示しました。

 

   そこで、次に、確率変数 $X-\overline{X}$ について考えます。$X$ と $\overline{X}$ は独立なので、その期待値は
\begin{align*}
E(X-\overline{X})=E(X)-E(\overline{X})=\mu-\mu=0,
\end{align*}分散は、
\begin{align*}
V(X-\overline{X})=V(X)+V(\overline{X})=\sigma^2+\frac{\sigma^2}{n}=\left(1+\frac{1}{n}\right)\sigma^2
\end{align*}となります。つまり、確率変数
\begin{align*}
Z=\frac{X-\overline{X}}{\sqrt{\left(1+\dfrac{1}{n}\right)\sigma^2}}
\end{align*}は標準正規分布 $\mathrm{N}\left(0,1^2\right)$ に従います。決まった値である分散 $\sigma^2$ の代わりに、分布をもった推定量である不偏分散  $s^2$ を用いたとき、確率変数
\begin{align*}
t=\frac{X-\overline{X}}{\sqrt{\left(1+\dfrac{1}{n}\right)s^2}}
\end{align*}の分布は 自由度 $n-1$$t$ 分布 となることが知られています。

 

(6個目のリンゴの重さを予測する)

   初めの例 $(n=5)$
\begin{align*}
288&&292&&305&&298&&290
\end{align*}でいえば、
\begin{align*}
t=\frac{X-295}{\sqrt{\dfrac{6}{5}}\times 6.67}
\end{align*}であり、$X=295, 305$ に相当する $t$ はそれぞれ $t = 0 , 1.37$ であるから、自由度 $4$ の $t$ 分布を調べて、
\begin{align*}
&P\left(X< 295\right)=P\left(t< 0\right)=0.5~,\\[6pt]
&P\left(X> 305\right)=P\left(t> 1.37\right)=0.12~,\\[6pt]
\end{align*}となるので、新たに抜き取った 6 個目のリンゴ $X$ が $300 \pm 5$ に入る確率は
\begin{align*}
1-(P\left(X< 295\right)+P\left(X> 305\right))=0.378,
\end{align*}つまり、$37.8$% であると求められます。