
「分散を計算するとき、なぜ n ではなく n-1 で割るの?」
統計を学び始めた人が必ずつまずくポイントです。
これは「不偏分散(ふへんぶんさん)」という考え方に関係しています。
この記事では
- 「不偏分散とは何か?」
- 「なぜ n-1 で割るのか?」
という疑問に、初心者でもイメージしやすい具体例を使って、わかりやすく丁寧に解説します。
目次
はじめに:分散の基本をおさらい
分散とは、データのバラつきを示す代表的な指標です。
計算手順は以下のとおりです。
- 平均を求める
- 各データと平均の差(偏差)を計算する
- それを2乗する
- それらを合計する
- 合計をデータの個数(n)で割る
この方法で求められるのが「母分散」です。
ただし、これは母集団のデータがすべてわかっている場合に限られます。
しかし実際には、母集団すべてのデータが手に入ることはまれです。
現実では、母集団から一部を抽出した「標本(サンプル)」しか使えないので、ここに統計的な工夫が必要になります。
不偏分散とは?標本で分散を推定する方法
不偏分散とは、「標本データを使って母集団の分散を推定するとき、偏りのないように調整した分散」のことです。
この調整が「n」ではなく「n-1」で割る、という計算ルールにつながります。
「-1」の理由こそが、不偏分散の最大のポイントです。
具体例で理解しよう:売上データから考える
あなたはチェーン店のマーケターで、全国100店舗のうち、5店舗をランダムに選んで売上を調査しました。
その5店舗の売上は以下の通りです。
90万円、100万円、110万円、95万円、105万円
まず、この標本の平均を求めます:
(90 + 100 + 110 + 95 + 105) ÷ 5 = 100万円
次に、この平均からの偏差(ずれ)を計算します:
- 90 − 100 = -10
- 100 − 100 = 0
- 110 − 100 = +10
- 95 − 100 = -5
- 105 − 100 = +5
この偏差を2乗して合計すると、
(-10)² + 0² + 10² + (-5)² + 5² = 100 + 0 + 100 + 25 + 25 = 250
これをそのまま5(n)で割ると:
250 ÷ 5 = 50
これは「標本分散」ではなく、母平均がわかっているときの母分散の計算になります。
ここで注目すべきなのは、「平均100万円はあくまでこの5店舗の平均」であり、本当の全国平均はわからないということです。
n-1で割る理由=推定平均による自由度の喪失
なぜ「n-1」で割る必要があるのか。
その理由は「自由度(じゆうど)」という概念にあります。
データが5個ある場合でも、すでに「平均100万円」と標本から平均値を自分で推定した時点で、残り4つのデータが決まれば、最後の1つも自動的に決まってしまいます。
つまり、データは5個あっても、自由に選べるのは実質的に4個だけ=自由度は n-1 ということになります。
この平均という制約が1つあるため、データの「自由な動き」が1つ分減ってしまう。
この制約によって、分散の計算値がやや小さくなってしまうため、その偏り(バイアス)を補正するために分母をn-1にするのです。
- nで割った分散 → 母平均が「もともとわかっている」前提
- n-1で割った分散 → 母平均が「不明で推定する」現実的なケース
この補正によって、母集団の分散に近い値が得られるようになります。
だからこそ、「不偏」=「偏りがない」分散と呼ばれるのです。
ビジネスでの活用イメージ
不偏分散は、ビジネスのあらゆる現場で使われています。
たとえば:
- 数店舗の売上データから、全国の売上ばらつきを推定する
- 数日分のアクセス数から、1か月分の変動を予測する
- 一部のアンケート回答から、全体の傾向の信頼性を測る
こうしたケースでは、全体の実態が見えないからこそ、不偏分散を用いて「真のばらつき」を見積もることが重要です。
まとめ
不偏分散のポイントを整理すると以下の通りです。
- 不偏分散とは、標本から母集団の分散を偏りなく推定するための手法
- n ではなく n−1 で割ることで、平均を自分で推定したことによるバイアスを補正する
- この調整の背景には、「自由度=平均が1つの制約になる」という考え方がある
- 実際のビジネスや調査では、不偏分散を用いることで信頼性のある推定ができる
「n−1の意味がわからない…」という壁にぶつかったときは、「自分で平均を決めた分、自由に動ける数が1つ減ったから」と覚えておくと理解がぐっと深まります。