
データ分析や統計解析でよく耳にする「二項分布」。
この二項分布の意味や使い方を正しく理解することは、確率計算やビジネス上の意思決定において非常に重要です。
この記事では、初心者の方にもわかりやすいように、二項分布とは何か、その特徴、計算方法について、豊富な具体例で解説していきます!
二項分布ってそもそも何?
二項分布とは、「成功か失敗かの2つの結果しかない試行を、複数回繰り返したときに、成功が何回起こるかの確率分布」のことです。
「確率分布?」「試行?」色々とわかりにくいので、もう少し噛み砕いて説明します。
- 「試行」=実験や観察を1回行うこと。例えば、コインを1回投げる、サイコロを1回振る、など。
- 「2つの結果しかない」=成功/失敗、表/裏、合格/不合格のように、結果が2種類だけのこと。
- 「確率分布」=それぞれの結果(成功0回、1回、2回...)が起こる確率をまとめたものです。
具体例:コイン投げで考える
例えば、コインを10回投げて、表が何回出るかを考えます。
- 「試行」=コインを1回投げること
- 「成功」=表が出ること(確率50%)
- 「失敗」=裏が出ること(確率50%)
- 「試行回数」=10回
このとき、「10回のうち表が5回出る確率は?」「7回出る確率は?」といった疑問に答えてくれるのが二項分布なんです。
つまり、「成功・失敗の2択を繰り返したときの成功回数の分布」が二項分布というわけです。
この二項分布は、品質管理、マーケティング分析、医療統計など、ビジネスや研究で「〇回中△回成功する確率」を知りたいときに広く活用されています。
二項分布の「二項」って何?
二項分布の「二項」は、結果が2種類(二つ)しかないことに由来しています。
英語では「Binomial Distribution」と呼ばれ、「Bi-(2つの)」+「nomial(項)」という意味です。
つまり、二項分布は「2つの結果(成功/失敗)に関する確率分布」を意味しているのです。
二項分布が成り立つ条件
二項分布を使うには、以下の4つの条件を満たす必要があります。
1. 試行回数が決まっている
実験や観察をあらかじめ決めた回数( n回 )だけ行う必要があります。
例:コインを10回投げる、製品を100個検査する、など。
2. 各試行は独立している
それぞれの試行はお互いに影響を与えない必要があります。
例:1回目のコイン投げの結果が、2回目の結果に影響しない、など。
3. 結果は2種類だけ
各試行の結果は「成功」か「失敗」の2つだけです。
例:コインの表/裏、製品の良品/不良品、顧客の購入/非購入、など。
4. 成功確率は毎回同じ
どの試行でも成功する確率(p)は一定です。
例:コインなら毎回50%、不良率5%の製品なら毎回5%、など。
これら4つの条件が揃ったときに、二項分布が使えるのです。
二項分布の計算方法
二項分布では、「n回の試行でちょうどk回成功する確率」を次の公式で計算します。
P(X = k) = nCk × p^k × (1-p)^(n-k)
各記号の意味は以下の通りです。
- P(X = k):成功回数Xがちょうどk回になる確率
- n:試行回数(全部で何回やるか)
- k:成功回数(何回成功するか)
- p:1回の試行での成功確率
- p^k:成功がk回連続で起こる確率(pのk乗)
- (1-p)^(n-k):失敗が(n-k)回連続で起こる確率(失敗確率のn-k乗)
- nCk:組み合わせの数(n個からk個を選ぶ方法の数)
具体例:コインを5回投げて、表がちょうど3回出る確率は?
コインを5回投げて、表がちょうど3回出る確率を実際の計算してみましょう!
- n = 5(5回投げる)
- k = 3(表が3回)
- p = 0.5(表が出る確率50%)
ステップ1:組み合わせの数を計算
5C3 = 5!/(3!×2!) = (5×4×3×2×1)/((3×2×1)×(2×1)) = 120/(6×2) = 120/12 = 10通り
※「!」は階乗といい、5! = 5×4×3×2×1 = 120 のように、その数から1まで順番に掛け算したものです。
ステップ2:確率を計算
P(X = 3) = 10 × (0.5)^3 × (0.5)^2 = 10 × 0.125 × 0.25 = 10 × 0.03125 = 0.3125 = 31.25%
つまり、コインを5回投げて表が3回出る確率は約31%です。
計算ツールを活用しよう
実際には、手計算よりも統計ソフトやExcelの関数を使うのが一般的です。
- Excelの場合:「BINOM.DIST」関数を使えば簡単に計算できます
- 例:
=BINOM.DIST(3, 5, 0.5, FALSE)で上記の確率が求められます
- 例:
- RやPythonなどのプログラミング言語でも専用の関数があります
二項分布の特徴
二項分布には、覚えておくと便利な特徴があります。
- n = 試行回数(何回繰り返すか)
- p = 成功確率(1回あたりの成功する確率)
平均値(期待値)
平均値 = n × p
式の意味:「試行回数」×「1回あたりの成功確率」=「成功する平均回数」
試行を繰り返したとき、成功回数は平均的にこの値になります。
例:コインを100回投げる場合
- n = 100回
- p = 0.5(表が出る確率50%)
- 平均値 = 100 × 0.5 = 50回
つまり、100回投げればだいたい50回くらい表が出ると予想できます。
分散
分散 = n × p × (1-p)
式の意味:「試行回数」×「成功確率」×「失敗確率」=「バラつきの大きさ」
試行を繰り返したとき、成功回数が平均値からどれくらいバラつくかを表す指標です。
例:コインを100回投げる場合
- n = 100回
- p = 0.5(表が出る確率50%)
- (1-p) = 0.5(裏が出る確率50%)
- 分散 = 100 × 0.5 × 0.5 = 25
つまり、表が出る回数のバラつき具合を数値で表すと25になります。
標準偏差
標準偏差 = √(n × p × (1-p))
式の意味:「分散」の平方根(√)=「平均的なズレ幅(回数単位)」
試行を繰り返したとき、成功回数が平均値から平均的にどれくらいズレるかを、元のデータと同じ単位(回数)で示します。
例:コインを100回投げる場合
- n = 100回
- p = 0.5(表が出る確率50%)
- (1-p) = 0.5(裏が出る確率50%)
- 標準偏差 = √(100 × 0.5 × 0.5) = √25 = 5回
つまり、100回投げたとき表が出る回数は平均50回で、だいたい45〜55回の範囲(±5回)に収まりやすいということです。
ビジネスや日常での二項分布活用例
二項分布は、実はビジネスや日常の様々な場面で役立っています。
ここでは、代表的な活用シーンを具体的にご紹介します。
品質管理
製造業では、製品の不良率を管理するために二項分布が使われます。
たとえば、不良率2%の製品を100個検査したとき、「不良品が5個以上見つかる確率」を計算できます。
もし実際に5個以上の不良品が見つかれば「今日の製造工程に何か問題があるかも?」と判断できます。
これにより、品質の異常を早期に発見し、対応することができます。
マーケティング分析
メールマガジンやWeb広告の効果測定でも二項分布が活躍します。
例えば、クリック率3%のメールを1000人に送った場合、「クリックする人が何人くらいになるか」の分布を予測できます。
- 平均:1000 × 0.03 = 30人
- 標準偏差:√(1000 × 0.03 × 0.97) ≈ 5.4人
つまり、だいたい25〜35人くらいがクリックすると予想できるわけです。
A/Bテスト
WebサイトやアプリのA/Bテストでも、二項分布を使って「AとBのどちらが本当に優れているか」を統計的に判断します。
例えば、ボタンAのクリック率が5%、ボタンBが7%だったとき、この差が偶然なのか、本当に差があるのかを二項分布を使って検証できます。
医療統計
新薬の治験では、「薬を飲んだ人のうち何%が改善するか」といった効果を二項分布で分析します。
例えば、100人に投与して70人が改善した場合、「この改善率が偶然ではない」かどうかを統計的に検証できます。
スポーツ分析
野球の打率やバスケのシュート成功率なども、二項分布で考えることができます。
打率3割のバッターが10打席に立ったとき、「ヒットが4本以上出る確率」などを計算して、選手の調子や起用法の判断材料にできます。
二項分布の注意点
二項分布は便利なツールですが、使い方を誤ると誤解や間違った判断につながることがあります。
ここでは、特に注意すべきポイントをまとめます。
4つの条件を満たしているか確認する
二項分布を使えるのは、先ほど説明した4つの条件(試行回数固定、独立性、2択、確率一定)が成り立つ場合だけです。
例えば、「箱から玉を戻さずに取り出す」場合は、確率が変化するので二項分布は使えません(この場合は超幾何分布を使います)。
サンプル数が少ないと予測の幅が広い
試行回数 n が小さいと、結果のバラつきが大きくなり、予測の精度が下がります。
できるだけ多くのサンプルを集めることで、より信頼性の高い分析ができます。
成功確率が極端な場合は別の分布も検討
成功確率pが非常に小さく(例:0.01以下)、試行回数nが大きい場合は、ポアソン分布を使う方が計算が簡単になります。
また、nが十分大きい(目安:30以上)場合は、正規分布で近似することもよくあります。
二項分布は「過去のデータ」をもとにする
二項分布の計算には「成功確率p」が必要ですが、この値は過去のデータや経験から推定します。
もし状況が変わってpが変化すると、予測は当たらなくなるので注意が必要です。
まとめ
二項分布は統計解析における基本的で重要な確率分布で、正しく理解することでデータの意味をより深く読み取れます。
以下にポイントをまとめます。
- 二項分布は「成功/失敗の2択を繰り返したときの成功回数の確率分布」
- 「二項」は「2つの結果」を意味する
- 試行回数固定、独立性、2択、確率一定の4条件が必要
- 計算式:P(X=k) = nCk × p^k × (1-p)^(n-k)
- 平均値はn×p、標準偏差は√(n×p×(1-p))で求められる
- 品質管理、マーケティング、A/Bテスト、医療統計など幅広く活用される
- ExcelのBINOM.DIST関数などで簡単に計算できる
二項分布の理解は、統計を使った意思決定やデータ分析の質を高める第一歩です。
ぜひ今回の内容を参考に、実際のビジネスや研究で活用してくださいね!













