今回は統計学の勉強も兼ねて、ジューCの製品ばらつきの検査をしていきたいと思います。
ジューCを5本買ってきました。
1本に15粒入ってるので75粒あります。
こいつらの重さを1個ずつ計って製品ばらつきを調べていきます。
内容量が少ないものがあったら文句を言いたいと思います。
ちなみに今回やる検査は、実際の製造業での仕事でも役立つ統計を使っていきます。
ジューCの重さなんて多少ばらついてても問題無いですが、これが薬の錠剤とかだと量がばらついていると大問題になります。
なのでこういった統計の知識は品質管理などの業務において非常に重要となってきます。
それでははじめましょう。
5本あるので、A~Eと名前を付けました。
中身を出してジューCの重さを一個一個計っていきます。
結果がこちら。
1粒の重さ(g) | |||||
A | B | C | D | E | |
1 | 1.54 | 1.44 | 1.58 | 1.46 | 1.51 |
2 | 1.68 | 1.39 | 1.50 | 1.59 | 1.60 |
3 | 1.60 | 1.55 | 1.53 | 1.44 | 1.58 |
4 | 1.51 | 1.50 | 1.61 | 1.45 | 1.57 |
5 | 1.56 | 1.39 | 1.58 | 1.62 | 1.58 |
6 | 1.54 | 1.48 | 1.57 | 1.43 | 1.57 |
7 | 1.58 | 1.49 | 1.52 | 1.53 | 1.59 |
8 | 1.47 | 1.35 | 1.54 | 1.54 | 1.53 |
9 | 1.52 | 1.52 | 1.55 | 1.64 | 1.59 |
10 | 1.51 | 1.57 | 1.55 | 1.55 | 1.53 |
11 | 1.64 | 1.43 | 1.58 | 1.45 | 1.41 |
12 | 1.46 | 1.49 | 1.50 | 1.43 | 1.59 |
13 | 1.49 | 1.44 | 1.54 | 1.53 | 1.69 |
14 | 1.46 | 1.52 | 1.49 | 1.66 | 1.54 |
15 | 1.56 | 1.59 | 1.53 | 1.47 | 1.51 |
まずは1本ごとの平均を出しましょう。
平均の出し方はもちろん、データを全部足してデータ数で割ります。
エクセルのAVERAGE関数を使うと一発です。
(めんどくさいのでこの記事は有効数字の表示テキトーです。ご了承ください。)
A | B | C | D | E | |
平均(g) | 1.54 | 1.48 | 1.54 | 1.52 | 1.56 |
なんかB少ないな…
さて次は、ばらつきです。
平均値を見ただけでは粒がそろっているのか、大きいのと小さいのが混在しているのかが分かりません。
平均がそろってても、ばらつきが大きいと良くないので調べましょう。
ばらつきを調べるにはどうするか。
個々の値が平均値からどれぐらいズレているか見てみるといいでしょう。
例えばAの15粒の各々の重さから平均値を引くと次のようになります。
Aのばらつき | |
1 | 0.00 |
2 | 0.14 |
3 | 0.06 |
4 | -0.03 |
5 | 0.02 |
6 | 0.00 |
7 | 0.04 |
8 | -0.07 |
9 | -0.02 |
10 | -0.03 |
11 | 0.10 |
12 | -0.08 |
13 | -0.05 |
14 | -0.08 |
15 | 0.02 |
ではA全体のばらつきの総量は?
全てのばらつきの値を足してみると…0になってしまいました。
当たり前です。
これではばらつきの総量が分からん…
というわけで、各値を二乗してから合計してみましょう。
二乗することで負の値が正の値になるので0にならずに済みます。
結果がこちら。
A | |
1 | 0.0000 |
2 | 0.0192 |
3 | 0.0034 |
4 | 0.0010 |
5 | 0.0003 |
6 | 0.0000 |
7 | 0.0015 |
8 | 0.0051 |
9 | 0.0005 |
10 | 0.0010 |
11 | 0.0097 |
12 | 0.0066 |
13 | 0.0026 |
14 | 0.0066 |
15 | 0.0003 |
合計 | 0.0580 |
分散 | 0.00386 |
この合計値のことを「偏差平方和」といいます。
偏差→ばらつき
平方→二乗
和→足す
そのまんまですね。
この値は合計値なのでデータ数が多いほど大きい値になります。
データ数が違うと比べられないので、この値をデータ数で割ります。
偏差平方和をデータ数15で割った値(分散といいます)も表に乗せておきました。
というわけで、分散という形で見事にばらつきを表すことができました。
ただ、さっき二乗してしまったので平方根をとりましょう。
そうすると0.062gという値が得られます。
これを標準偏差といいます。
今までやったことをまとめると、
各データから平均値を引く→二乗する→全部足す(偏差平方和)→データ数で割る(分散)→平方根をとる(標準偏差)
いやぁめんどくさいですね。
実はエクセルには標準偏差を一発で出す関数があります。
STDEV.Pという関数を使ってデータ範囲を囲めば、標準偏差を一発で出してくれます。
最初からそれやれよ!と思うかもしれませんが、標準偏差の中身がなんなのか知っておくことは大事です。
というわけで、関数を使ってB~Eの標準偏差も求めてみました。
A | B | C | D | E | |
標準偏差(g) | 0.062 | 0.067 | 0.033 | 0.077 | 0.059 |
この数値がまさに、ばらつきの大きさを表しています。
こうやって見るとCのばらつきがやけに小さいことが分かります。
改めてさっきの全データを見てみると、確かに重さがそろっているなと感じますね。
1本ごとのばらつきが分かったところで次は、75粒全部の平均と標準偏差を出してみましょう。
平均(g) | 1.53 |
標準偏差(g) | 0.068 |
このような値になりました。
平均1.53gで、標準偏差0.068gでばらついていることが分かりました。
ところでこの0.068gってどこの値なのか?というと、このばらつきが正規分布に従うとき、平均±標準偏差の範囲に68%のデータが収まることが知られています。
ここで、平均値をμ、標準偏差をσとするとこのようになります。
μ±σ:68%
μ±2σ:95%
μ±3σ:99.7%
↓図で見たほうがわかりやすい
つまり今回のデータだと1.53±3×0.068の範囲に99.7%のデータが収まるはずだということです。
それでは実際にそうなっているか調べてみましょう。
1.33gから1.73gまで0.01g刻みで、それぞれ何個ずつデータがあるか数えてグラフにしたのが下のグラフです。
ちなみに目視で数えるとめんどくさすぎるし間違えます。
エクセルにはCOUNTIFというすばらしい関数があって、これを使えば目的の値と一致するデータの数を数えてくれます。
青のグラフが実際の測定データ。
緑のグラフはμ=1.53、σ=0.068の理想的な正規分布のグラフです。
グラフを見るとちょいちょい正規分布からはみ出していますが、さっきの範囲に収まっているでしょうか。
計算してみましょう。
平均±標準偏差:μ±σ=1.53±0.068=1.46,1.60
というわけで1.46g~1.60gの範囲に入っているデータをCOUNTIFで数えて、全データに対する割合を計算すると約75%と出ました。平均±標準偏差の範囲に75%のデータが収まっているようです。ちゃんと68%以上収まってますね。
μ±2σとμ±3σについても同様に調べると
μ±σ:75%
μ±2σ:96%
μ±3σ:100%
ちゃんとμ±3σの範囲内にすべてのデータが収まっていました。
実験によって標準偏差についての理解が深まりましたね。