常ズレ草

なんでも屋。備忘録のため読ませる気ゼロ。

〜例題で学ぶ統計学〜 比率の区間推定

標本分布を終えると、やっとこ統計らしい推定の章です。

 無作為に選んだ250人の大学生について運転免許をもっているかどうかを調査したところ、90人がもっていた。信頼係数95%で、運転免許を持っている大学生の割合の信頼区間を求めよ。

『基本統計学有斐閣 P.238 練習問題(2)


解くこと自体はそれほど難しくないし、考え方も、正規分布をなんとなく理解していれば、そんなに難しくないです


〜解き方の流れ〜

この問題の解き方は2通りあります。

  1. 二次方程式を解く場合
  2. 近似計算をする場合

両方そんなに難しくないですが、後者のほうがよく使うので後者で解説。


〜解説〜


「標本比率、ここでは250人中、運転免許を持っている大学生の割合は、大きかったり小さかったりするけど、その分布は『免許もってる or 持ってない』の二項分布になりそう」というところから話がスタートします。250人中誰も持ってないってことは無さそうだし、かといって全員持ってるってこともなさそう・・・ということです。

全国の大学生から選り抜いた250人を頼りにして、全国の大学生で免許を持っているのはだいたい何割なのか調べてみましょう。


まず、最終的なゴールは、「免許を持ってる割合(p)がどの範囲に収まるか」。つまり、

(下限)\leqq p \leqq(上限)

という状態がゴールになります。
250人中、運転免許を持っている大学生の割合(標本比率)についての二項分布を正規分布に近似させて、式を変形して作ります。そのため、

  1. 二項分布から正規分布に近似
  2. 正規分布を標準化して信頼区間に収まるように不等式を作る
  3. 式変形をしてゴール


という手順になります。


1,二項分布から正規分布に近似


xという値が二項分布するとき、

\begin{eqnarray}
B(n,p)  \sim  N(np,npq) 
\end{eqnarray}  

になることを用いてちょっと考えます。このxx/n、つまり、「250人中90人が免許を持ってる」という標本比率の話に置き換えます。一次変換すると、

\begin{eqnarray}
N(np\times\frac{1}{n},npq\times\frac{1}{n^2}) = N(p,\frac{pq}{n}) 
\end{eqnarray}


この式の意味するところは、
n人中x人が免許を持っている確率は、平均値p、分散pq/n正規分布する」ということになります。


言い方を変えてみます。
標本をいっぱい集めてくると、免許を持ってる人の割合の期待値E(\hat p)は、大学生全体での割合(p)に等しくなるはずです。このことを数式で示してみます。

\begin{eqnarray}
E(\hat p)  &=& E(\frac{x}{n}) &=& \frac{1}{n}E(x) &=& \frac{1}{n}np = p
\end{eqnarray}  

分散についても、

\begin{eqnarray}
V(\hat p)  &=& V(\frac{x}{n}) &=& \frac{1}{n^2}V(x) &=& \frac{1}{n^2}npq = \frac{pq}{n}
\end{eqnarray}

となります。


つまり、「免許を持ってる人の割合」の期待値(平均)と分散は、それぞれ

\begin{eqnarray}
\mu &=& p \\\\
\sigma^2 &=& \frac{pq}{n}
\end{eqnarray}


になります。つまり、標本比率\hat p = x/n

\begin{eqnarray}
N(p,\frac{pq}{n}) 
\end{eqnarray}  

で近似することができます。
これを標準化して、式を変形していけば、ゴールに辿りつけそうです。



2,正規分布を標準化


標準化については説明を省きます。
その代わり、信頼区間について少し説明します。


信頼区間は、「値がその区間にあることが信頼できる」ような区間
信頼係数は、「その区間にあることが信頼できる確率」です。


つまり、「信頼係数95%である信頼区間を求める」ということは、
「その区間にいる確率が95%になるような区間のはじっこを決めてくれ」
ということです。


標準正規分布では、

-1.64 < z < 1.64:信頼係数90%の場合のはじっこ
-1.96 < z < 1.96:信頼係数95%の場合のはじっこ
-2.58 < z < 2.58:信頼係数99%の場合のはじっこ

となります。(テストのときは覚えましょう!)


これを当てはめます

\begin{eqnarray}
Pr \Biggl\{-1.96 < \frac{\frac{x}{n}-p}{\sqrt{\frac{pq}{n}}}< 1.96\Biggr\} =  0.95
\end{eqnarray}  

あとはここから式変形をしていきます。


3 式変形して近似計算


近似計算でやります。
先程の式を、p不等式の真ん中に来るように変形します。


\begin{eqnarray}
&Pr& \Biggl\{-1.96 < \frac{\frac{x}{n}-p}{\sqrt{\frac{pq}{n}}}< 1.96\Biggr\} \\\\
\Leftrightarrow &Pr& \Biggl\{-1.96 \sqrt{\frac{pq}{n}} < \frac{x}{n}-p < 1.96\sqrt{\frac{pq}{n}}\Biggr\} \\\\
\Leftrightarrow &Pr& \Biggl\{-\frac{x}{n}-1.96 \sqrt{\frac{pq}{n}} < -p < -\frac{x}{n} + 1.96\sqrt{\frac{pq}{n}}\Biggr\} \\\\
\Leftrightarrow &Pr& \Biggl\{\frac{x}{n}-1.96 \sqrt{\frac{pq}{n}} < p < \frac{x}{n} + 1.96\sqrt{\frac{pq}{n}}\Biggr\} \\\\

\end{eqnarray}  


これで、真ん中をpにした状態で不等式ができました。
でも、これだと両端にもpがあって計算できそうにないです。


そこで、p\begin{eqnarray}\frac{x}{n}\end{eqnarray} で近似しちゃいます。
これでも値はそんなにずれないので問題なし!

\begin{eqnarray}
p = \frac{x}{n} 、q = (1-\frac{x}{n})
\end{eqnarray} より


\begin{eqnarray}
Pr \Biggl\{\frac{x}{n}-1.96 \sqrt{\frac{\frac{x}{n}(1-\frac{x}{n})}{n}} < p < \frac{x}{n} + 1.96\sqrt{\frac{\frac{x}{n}(1-\frac{x}{n})}{n}}\Biggr\} \\\\
\end{eqnarray}


という式になります

\begin{eqnarray}
n = 250、
\frac{x}{n} = \frac{90}{250}
\end{eqnarray} を代入します。テストではここから事故るので慎重に


\begin{eqnarray}

&Pr& \Biggl\{\frac{90}{250}-1.96 \sqrt{\frac{\frac{90}{250}(1-\frac{90}{250})}{250}} < p < \frac{90}{250} + 1.96\sqrt{\frac{\frac{90}{250}(1-\frac{90}{250})}{250}}\Biggr\} \\\\

\Leftrightarrow
&Pr& \Biggl\{\frac{90}{250}-1.96 \sqrt{\frac{\frac{90}{250}\frac{160}{250}}{250}} < p < \frac{90}{250} + 1.96\sqrt{\frac{\frac{90}{250}\frac{160}{250}}{250}}\Biggr\} \\\\

\Leftrightarrow
&Pr& \Biggl\{\frac{90}{250}-1.96 \sqrt{\frac{90}{250}\cdot\frac{160}{250}\cdot\frac{1}{250}} < p < \frac{90}{250} + 1.96\sqrt{\frac{90}{250}\cdot\frac{160}{250}\cdot\frac{1}{250}} \Biggr\} \\\\

\Leftrightarrow
&Pr& \Biggl\{\frac{90}{250}-1.96 \sqrt{\frac{9}{25}\cdot\frac{16}{25}\cdot\frac{1}{25\cdot 10}} < p < \frac{90}{250} + 1.96\sqrt{\frac{9}{25}\cdot \frac{16}{25}\cdot \frac{1}{25\cdot 10}}  \Biggr\} \\\\

\Leftrightarrow
&Pr& \Biggl\{\frac{90}{250}-1.96 \sqrt{\frac{3^2 \cdot4^2}{25^2\cdot5^2}\cdot\frac{1}{10}} < p < \frac{90}{250} + 1.96\sqrt{\frac{3^2 \cdot4^2}{25^2\cdot5^2}\cdot\frac{1}{10}}  \Biggr\} \\\\

\Leftrightarrow 
&Pr& \Biggl\{\frac{90}{250}-1.96\cdot  \frac{3\cdot4}{25\cdot5}\sqrt{\frac{1}{10}} < p < \frac{90}{250} + 1.96 \cdot\frac{3\cdot4}{25\cdot5}\sqrt{\frac{1}{10}}\Biggr\} \\\\

\Leftrightarrow 
&Pr& \bigl\{0.36-1.96\cdot 0.096\cdot 0.3162 < p <0.36 + 1.96 \cdot 0.096\cdot 0.3162 \bigr\} \\\\

\Leftrightarrow 
&Pr& \bigl\{0.36-0.0595 < p <0.36 + 0.0595\bigr\} \\\\

\Leftrightarrow 
&Pr& \bigl\{0.3005 < p <0.4195\bigr\} \\\\

\end{eqnarray}

これで答えがでました。
「大学生が免許を持ってる割合が、約30%〜約42%になる確率は95%」みたいです。