データの代表値で外れ値の影響を受けにくいのはどれか。

過去問

75回 B問題 問32

難易度:難

データの代表値で外れ値の影響を受けにくいのはどれか。
  1. カイ二乗(χ2)値
  2. 分散
  3. 標準偏差
  4. 平均値
  5. 中央値(メジアン)

選択肢を吟味しよう!

解答のポイント:
代表値とは、ある集団の中心的な値をいいます。一般的には「平均値」が使用されますが、ほかにも「中央値(メジアン)」や「最頻値(モード)」が使用されます。

重要度:☆
カイ二乗(χ2)値

説明が難しくなるので、後日別記事にてまとめようと思います。参考に勉強になるURLを貼っておきますね!

重要度:☆
分散

得られたデータに”平均値”から、どれほどのバラツキがあるかを示す指標です。

値が大きいほうが”平均値”からのバラツキが大きいことを示しており、分散0とはバラツキがない、すなわち「すべてのデータが同じ」を意味しています

重要度:☆
標準偏差(σ)

標準偏差とは、分散の平方根で表されます。意味は分散と同じですが、二乗が取れるため平均値と足したり、引いたりすることができます。

標準偏差を足したり、引いたり???

結論:OK、説明します。体重を例に考えますね!
平均値の単位は「 kg 」ですが、 分散はデータと平均値の差の二乗なので「 kg 」となります。標準偏差では分散の平方根を計算することで「 kg 」という単位に戻しています。

そうすることによって、平均値から具体的にどのくらいバラツキがあるのかを評価することができますね!!!

重要度:☆☆
平均値

外れ値の影響をモロに受けます。

重要度:☆☆☆
中央値(メジアン)と最頻値(モード)

中央値に加えて最頻値も、外れ値に強いです。

中央値?平均値?結局どう違うんだよ?

結論:年収で考えてみましょう。
5人の年収{ 300万、350万、400万、450万、7000万 } とした時、平均値:1700万に対し、中央値:400万となります。平均値と中央値には大きな開きがありますよね。

以上のように平均値は外れ値の存在によって、現実とは少し異なる結果を表すことがあります。一方で中央値は、平均値より、それっぽいですよね。

参考

統計WEB
統計学、調べる、学べる、BellCurve(ベルカーブ)
カイ二乗検定とは?わかりやすく例を用いて分割表からp値の計算式も簡単に解説! | いちばんやさしい、医療統計
分割表の解析で出てくる検定は2つです。 それは、「カイ二乗検定」と「フィッシャーの直接確率検定」です。 (層別解析であるCMH検定もありますが、CMH検定は一旦置いておきます。。)   この記事では、Read more ...
error: Content is protected !!