
「分散って何?」と聞かれたときに、すぐ答えられる人は多くありません。
でも実は、日常やビジネスのあらゆる場面で「分散を理解しているかどうか」で見える世界がまったく変わります。
この記事では分散の意味からその必要性、身の回りの例、そしてビジネスパーソンに役立つ活用視点まで初心者にもわかりやすく解説します。
目次
分散とは?
分散とは、データのばらつきの大きさを示す指標です。
データがどれだけ平均からズレているかを数字で表し、ズレ(誤差)を2乗して合計し、それをデータ数で割って求めます。
たとえば、以下のようなテストの点数があったとします。
- Aさん:90点
- Bさん:90点
- Cさん:90点
- Dさん:90点
- Eさん:90点
このとき、全員が同じ点なので分散は0です(ばらつきがない)。
一方、以下のような場合:
- Aさん:50点
- Bさん:70点
- Cさん:90点
- Dさん:110点
- Eさん:130点
平均は同じでも、分散は800(母分散の場合)となり、点数の幅にかなりばらつきがあることがわかります。
このように、分散は「データがどれくらいばらついているか?」を把握するのに便利な指標です。
なぜ分散を理解する必要があるのか?
分散を理解する必要性は下記3点で説明できます。
1. リスクを定量化できる:ばらつき=リスクの正体
分散を理解することで、「どれくらいバラついているか」を数字で捉えることができます。
これは、リスクを定量化するという意味でビジネスでも非常に重要です。
たとえば投資の世界では、将来のリターンが読めないことがリスクになります。
- Aという投資商品は、年によって+1%〜+3%くらいの範囲に収まる
- Bという投資商品は、年によって−10%〜+15%まで大きく変動する
このとき、平均リターンが同じだったとしても、分散が大きいBのほうがハイリスクと見なされます。
同じように、製造業でも分散は重要です。
- ある部品の長さが毎回ほぼ同じ(分散が小さい)なら安心
- 毎回微妙に長さが違う(分散が大きい)と、製品の不良リスクが高まる
このように、「数字がどれくらい安定しているか」を客観的に測る手段が「分散」なのです。
2. 平均だけでは見えない真実
数値の平均だけを見ているとデータを誤解する可能性があります。
例えば、テストで「平均80点」と聞くと、「みんなそこそこ良い成績なんだな」と思いがちです。
しかし、次の2パターンを見てみましょう。
- クラスA:80, 80, 80, 80, 80(全員80点)
- クラスB:60, 70, 80, 90, 100(個々人の結果のばらつき大きい)
平均はどちらも80点ですが、実態はまったく異なりますよね。
クラスBではできる子と苦手な子の差が大きく、授業や指導方法を見直す必要があるかもしれません。
こうした隠れたデータのばらつきは平均だけでは見えません。
分散を確認することで、こうしたデータの特徴や課題にいち早く気づけるのです。
実際、ビジネスの現場でも:
- 「売上平均が○○万円」でも、月によって10万〜100万とブレている…
- 「離職率は5%」でも、部署によっては20%に達している…
このような“数字の裏”にあるばらつきをあぶり出すには、分散を見るという意識が欠かせません。
3. 統計分析の土台として:標準偏差や信頼区間の基礎になる
分散は、統計の世界では“土台”とも言える重要な概念です。
たとえば「標準偏差」という言葉、聞いたことがあるかもしれません。
これは、分散の平方根を取ったものです。
- 分散:ばらつきの大きさを二乗で示す(単位が元の二乗になる)
- 標準偏差:平方根で単位を元に戻すことで、直感的に「どのくらいブレているか」がわかりやすくなる
また、信頼区間という概念では、「この範囲に答えがある確率は95%です」といった表現が使われますが、これも分散(≒標準偏差)をベースに計算されます。
さらに、回帰分析や分散分析(ANOVA)など、ビジネスやマーケティングでも使われるデータ分析手法には分散の考え方がしっかりと組み込まれています。
つまり、分散を理解すること=あらゆる統計分析の扉を開く第一歩です。
分散の計算方法
「分散って難しい数式が出てきそう…」と思うかもしれませんが、計算の流れはシンプルです。
初心者の方は、以下の流れを“なんとなく”でも押さえておけばOKです。
- 平均を出す
- 各データと平均の差(=誤差)を求める
- その誤差を2乗する
- 全部の2乗誤差を合計する
- データの個数で割る(標本分散ではn-1で割る)
この2乗誤差の平均が分散です。
具体例で確認しましょう。
具体例:店舗ごとの売上のばらつきを分析してみる
ある会社が、5つの店舗で実施したキャンペーンの売上結果を集計しました。
売上データ(単位:万円)
A店:100
B店:130
C店:90
D店:110
E店:70
まず、これらの店舗の平均売上を計算します。
① 平均を出す
(100 + 130 + 90 + 110 + 70) ÷ 5 = 500 ÷ 5 = 100万円
② 各データと平均の差(=誤差)を出す
A店:100 - 100 = 0
B店:130 - 100 = +30
C店:90 - 100 = -10
D店:110 - 100 = +10
E店:70 - 100 = -30
③ その誤差を2乗する
0² = 0
30² = 900
(-10)² = 100
10² = 100
(-30)² = 900
④ 全部の2乗誤差を合計する
0 + 900 + 100 + 100 + 900 = 2000
⑤ データの個数で割る
今回は標本分散として扱うので、n−1(=5−1=4)で割ります。
2000 ÷ 4 = 500
結果:この売上データの分散は500
分散は上記のように計算します。
実際はExcelやBIツール等の関数で簡単に出せるので、上記のように自分で計算することはあまりないでしょう。
ただ、分散をどのように計算しているかを人に説明できるレベルで理解しておくのは統計理解が深まるので、すごくおすすめです。
まとめ
分散は「データがどれくらいバラついているか」を数値で示す指標です。
- 投資のリスクを測る
- 製造業の品質管理に役立つ
- 平均値だけでは見えない問題を可視化できる
- 統計分析(標準偏差・信頼区間・回帰分析)の基礎になる
といった多くの場面で活用されます。
ビジネスでもデータ分析でも、「平均と分散」は最初にチェックすべき指標です。
「分散を見るクセ」を持つことで、数字の裏側にある“本当の姿”に気づけるようになるので、ぜひその習慣をつけてくださいね!