結局ボヤキたくなる年頃なのか!
modelcar2.exblog.jp
スキンを変えて気分を変えてみたぞ~!!
Top
「全体の平均」と「平均の平均」
2007年 05月 21日 |
***********************************************
このたびブログの引っ越&改名しました。

Midnight_Mocha(ミッドナイト・モカ)
     音楽、食べ物、愛犬、生活etcetc・・・・・なブログです。
   http://modelcar03.blog45.fc2.com/
をよろしくお願いいたします。

ついでに、↓こちら↓も、よろしくお願いします。
Real_Model_Car_II
   http://modelcar01.blog78.fc2.com/
ミニカー・ジオラマ工房
   http://modelcar2.blog101.fc2.com/

 
***********************************************

※今日も、長文ですが、出来るだけ読みやすい文章にしたいと思いますので、最後までお付き合いください。

本館の方で、燃費計算をした時に、「あれ?確か・・・・」と思ったことがあったもんですから調べてみました。

それは、

結論:「全体の平均」と「平均の平均」は一定の条件を除いて同じではない

ということ。


※私は数学者ではありませんし、数学の理論的な証明って、
※実は非常に苦手な分野なのでもし間違いがありましたらご指摘くださいね。

と言うわけで本題です。

燃費というものは通常、「走行した距離(km)」を「燃料消費量(L)」で割り算します。
燃料は、アクセルの開け方(緩急)や、走行距離/速度、エンジン温度、坂道か平坦路か、渋滞かスムーズかなどで瞬間的な消費量が大きく変わります。
つまり、

「ある燃料消費量で、ある距離走行した結果、1L(リットル)の燃料で、平均何km走行したか?」

というのが、一般的に言われる燃費(燃料消費率)ということになります。
燃費というものは、一見固有の値に思われますが、実は平均値なんですねぇ。

一回の給油での燃費はと問われたら

(燃費(km/L))
=(一回の給油で走行した距離(km))/(燃料消費量(L))


で、算出されます。

ところで、2年間の燃費を算出しなさいと言われたらどうします?





正解は、

(2年間の燃費(km/L))
=(2年間の総走行距離(km/L))/(2年間の総燃料消費量(L))
       ・・・・・(式1)


となります。

やってしまいがちなのが、走行毎の燃費を足して、回数で割るという方法ですが、実は正しくありません。

つまり、

(2年間の燃費(km/L))≠(燃費1+燃費2+・・・・+燃費n)/(n回)
       ・・・・(式2)


なのであります。

皆さん試しに、ご自分の燃費の記録や、仮想の値を作って試してみてください。
(式1)で求めた場合と、(式2)で求めた場合では答えが違ってくるはずです。

(式1)と(式2)の違いは、
(式1)・・・「全体の平均」を求めていることになります。
(式2)・・・「平均の平均」を求めていることになります。

この、違いからそれぞれの式で求めた値に差が出るのです。

さて、今日の記事はこれで終わりではありません。
なぜ、「平均の平均」「全体の平均」にならないのかを証明しようと思います。
(うまく出来れば良いですが、証明し切れなければ悲惨な記事になりそうですな ^^;)

まず、簡単なモデルで確認しておきましょう。
【モデルケース1】
グループA:1,2,3,4,5,6
グループB:1,2,3


この「全体の平均」「平均の平均」を比較してみましょう。

「全体の平均」
{(1+2+3+4+5+6)+(1+2+3)}/9=3
となり、「全体の平均」は「3」となりました。


「平均の平均」
グループAの平均:
 (1+2+3+4+5+6)/6=3.5
グループBの平均:
 (1+2+3)/3=2
グループ毎の平均の平均:
 (3.5+2)/2=2.75
となり、「平均の平均」は「2.75」となりました。


こんな簡単なモデルでも、「全体の平均」「平均の平均」の値が違うことが判ったと思います。

ここで、グループAの値の総和を"A"その個数を"C"、グループBの総和を"B"その個数を"D"とします。
「全体の平均」を求めるには、
  (全体の平均)=(A+B)/(C+D)・・・・(式3)

「平均の平均」を求めるには、
  (平均の平均)=(A/C+B/D)/2
           =(A×D+B×C)/(2×C×D)・・・・・(式4)
となります。

ここから、「全体の平均」「平均の平均」を証明するんですが、
逆に、
「全体の平均」(式3)「平均の平均」(式4)
が等しいと仮定して、それが成り立つかどうか見てみましょう。

(式3)=(式4)
(A+B)/(C+D)=(A×D+B×C)/(2×C×D)
(A+B)=(A×D+B×C)×(C+D)/(2×C×D)
(A+B)×(2×C×D)=(A×D+B×C)×(C+D)
(2×A×C×D)+(2×B×C×D)
      =(A×C×D)+(A×D×D)+(B×C×C)+(B×C×D)・・・・(式5)

という関係になりました。

(式5)の両辺(=の両側の式)が等しくなるためには、
右辺(=の右側の式)の中の"C×D"と"C×C"と"D×D"が等しくなければ両辺が等しいとはいえません。
つまり、C=Dの時のみ
C×D=C×C=D×D
という関係が成り立ち、(式4)の両辺が等しくなりますが、【モデルケース1】で示したように
C=6
D=3
となる場合には成り立ちません。


というわけで、
「全体の平均」「平均の平均」
であるは証明されました。

あれ?でもC=D、つまり各グループの個数が同じ場合は成り立つんじゃないの?
と思われた方もいることでしょう。

一度(式4)に戻ってみましょう。
(式4)は次のような式でした。

「平均の平均」を求めるには、
  (平均の平均)=(A/C+B/D)/2
           =(A×D+B×C)/(2×C×D)・・・・・(式4)

でした。

C=D(各グループの個数が同じ)の場合(式4)は次のように変わります。
C=DなのでDにCを代入すると
  (平均の平均)=(A×C+B×C)/(2×C×C)
           =C×(A+B)/(2×C×C)
           =(A+B)/(2×C)・・・・・(式6)


(式6)をよく見てみると、
(A+B)は各グループの値の総和を足したものなので、全体の値の総和。
(2×C)は各グループの個数を足したものなので全体の個数。

なので、結局、
 (全体の値の和)/(全体の個数)
を行っているのと同じことになり、これは、「全体の平均」を求めていることと同じなのです。


たとえば、
3年A組の1学期、2学期、3学期の中間、期末テストの全平均点を求めるような場合、転向や欠席がなく生徒数が全てのテストで同じであれば各学期のテストの平均を個別に求めておいて、後で平均点を平均しても良いことになります。

また、最初に私が提示した燃費の例題でも、全ての燃費計算時の燃料消費量が同じ(現実にはありえませんが)であれば、燃費を足してその回数で割っても一応出てくる数値は、2年間の燃費が算出されることになります。

ただし、やはり全体の平均値を求める場合は、必ず「全体の平均」を求めるように癖を付けておいた方が間違いがなくなりますので、忘れないようにしてくださいね。

さて、ずいぶん長くなりましたが、もう一息です。

各グループの個数が同じなら、
「全体の平均」「平均の平均」
であることは、分かって頂けたと思います。

じゃあ、各グループの個数が違っている場合は、なぜ、
「全体の平均」「平均の平均」となるのか?

「(式5)で、C≠Dだと両辺の等号が成り立たないからだ!」というのは簡単なのですが、もうすこし分かりやすく言うと以下のようになります。

これは、データの重み付けが変わってしまうからです。
【モデルケース1】に示した各グループの値は、
  グループAは6個で高い数値まで分布しています。
  グループBは3個で低い数値に固まっています。
「全体の平均」を求める場合は、その値と個数を使って計算できるのですが、「平均の平均」を求める方法の場合は、その平均の値が何個のデータで構成されているか無視されてしまうので、データの重み付けが変わってしまうのです。

たとえば、下記のようなデータがあるとします。
【モデルケース2】
グループA:平均 5
グループB:平均 2
「平均の平均」で求めれば、
  (5+2)/2=3.5です。
でも、もし、このグループAとグループBにこんな真実が隠されていたらどうなると思います。
【モデルケース2】で隠されていた真実
グループA:平均 5(データ:4,5,6)
グループB:平均 2(データ:1,2,3,1,2,3,1,2,3,1,2,3,1,2,3・・・・・・・・・・・)

最初は平均値しか分からなかったのですが、実は、グループBは、低い数値が何百個も並んだデータだったんです。
データをきちんと見れば、その平均は計算せずとも限りなく"2"に近づくことは分かりますよね。
つまり、グループAとグループBでは、その平均値を算出するにあたって、重み(データの個数)が大きく違っていたのです。

さらに、もし、上記のデータ数が逆転していたらどうでしょう。
本来の「全体の平均」値は限りなく"5"に近づくことになり、結局、各データの個数が全く不明な場合、「平均の平均」値なんて当てにならないことが分かります。


【モデルケース2】は非常に極端な例を示していますが、「全体の平均」値を求める必要がある場合は必ず、
(全データの総和)/(全データの総数)
を実施しないと真実と違う結果となってしまいますのでご注意ください。

これを、私の燃費計算の時におこった現象に当てはめてみますと、実は、こんなことがあったのです。
(ここまで来て、ようやく私の恥をさらすことになります。苦笑)

私が本館の記事で公表した燃費は、
16.73km/L
でした。
(これは、ちゃんと(総走行距離)/(総燃料消費量)として計算しました)


ところが、最初私は、(式2)のように、給油毎の燃費計算結果を全て足して、給油回数で割っていたのです。
この時の計算結果は
17.3km/L
でした。
「あれこんなに高燃費なのか?」
ということで、(式1)の方式、つまり、総走行距離を総給油量で割って検算してみると、16.73km/Lという結果になり、計算方法の間違いに気づいたということだったのでした。

[PR]
One Color Skin by Sun&Moon