【統計】二項分布とは?意味や使い方、活用シーンを初心者向けに徹底解説!

データ分析や統計解析でよく耳にする「二項分布」。

この二項分布の意味や使い方を正しく理解することは、確率計算やビジネス上の意思決定において非常に重要です。

この記事では、初心者の方にもわかりやすいように、二項分布とは何か、その特徴、計算方法について、豊富な具体例で解説していきます!

二項分布ってそもそも何?

二項分布とは、「成功か失敗かの2つの結果しかない試行を、複数回繰り返したときに、成功が何回起こるかの確率分布」のことです。

「確率分布?」「試行?」色々とわかりにくいので、もう少し噛み砕いて説明します。

  • 「試行」=実験や観察を1回行うこと。例えば、コインを1回投げる、サイコロを1回振る、など。
  • 「2つの結果しかない」=成功/失敗、表/裏、合格/不合格のように、結果が2種類だけのこと。
  • 「確率分布」=それぞれの結果(成功0回、1回、2回...)が起こる確率をまとめたものです。

具体例:コイン投げで考える

例えば、コインを10回投げて、表が何回出るかを考えます。

  • 「試行」=コインを1回投げること
  • 「成功」=表が出ること(確率50%)
  • 「失敗」=裏が出ること(確率50%)
  • 「試行回数」=10回

このとき、「10回のうち表が5回出る確率は?」「7回出る確率は?」といった疑問に答えてくれるのが二項分布なんです。

つまり、「成功・失敗の2択を繰り返したときの成功回数の分布」が二項分布というわけです。

この二項分布は、品質管理、マーケティング分析、医療統計など、ビジネスや研究で「〇回中△回成功する確率」を知りたいときに広く活用されています。

二項分布の「二項」って何?

二項分布の「二項」は、結果が2種類(二つ)しかないことに由来しています。

英語では「Binomial Distribution」と呼ばれ、「Bi-(2つの)」+「nomial(項)」という意味です。

つまり、二項分布は「2つの結果(成功/失敗)に関する確率分布」を意味しているのです。

二項分布が成り立つ条件

二項分布を使うには、以下の4つの条件を満たす必要があります。

1. 試行回数が決まっている

実験や観察をあらかじめ決めた回数( n回 )だけ行う必要があります。

例:コインを10回投げる、製品を100個検査する、など。

2. 各試行は独立している

それぞれの試行はお互いに影響を与えない必要があります。

例:1回目のコイン投げの結果が、2回目の結果に影響しない、など。

3. 結果は2種類だけ

各試行の結果は「成功」か「失敗」の2つだけです。

例:コインの表/裏、製品の良品/不良品、顧客の購入/非購入、など。

4. 成功確率は毎回同じ

どの試行でも成功する確率(p)は一定です。

例:コインなら毎回50%、不良率5%の製品なら毎回5%、など。

これら4つの条件が揃ったときに、二項分布が使えるのです。

二項分布の計算方法

二項分布では、「n回の試行でちょうどk回成功する確率」を次の公式で計算します。

P(X = k) = nCk × p^k × (1-p)^(n-k)

各記号の意味は以下の通りです。

  • P(X = k):成功回数Xがちょうどk回になる確率
  • n:試行回数(全部で何回やるか)
  • k:成功回数(何回成功するか)
  • p:1回の試行での成功確率
  • p^k:成功がk回連続で起こる確率(pのk乗)
  • (1-p)^(n-k):失敗が(n-k)回連続で起こる確率(失敗確率のn-k乗)
  • nCk:組み合わせの数(n個からk個を選ぶ方法の数)

具体例:コインを5回投げて、表がちょうど3回出る確率は?

コインを5回投げて、表がちょうど3回出る確率を実際の計算してみましょう!

  • n = 5(5回投げる)
  • k = 3(表が3回)
  • p = 0.5(表が出る確率50%)

ステップ1:組み合わせの数を計算

5C3 = 5!/(3!×2!) = (5×4×3×2×1)/((3×2×1)×(2×1)) = 120/(6×2) = 120/12 = 10通り

※「!」は階乗といい、5! = 5×4×3×2×1 = 120 のように、その数から1まで順番に掛け算したものです。

ステップ2:確率を計算

P(X = 3) = 10 × (0.5)^3 × (0.5)^2 = 10 × 0.125 × 0.25 = 10 × 0.03125 = 0.3125 = 31.25%

つまり、コインを5回投げて表が3回出る確率は約31%です。

計算ツールを活用しよう

実際には、手計算よりも統計ソフトやExcelの関数を使うのが一般的です。

  • Excelの場合:「BINOM.DIST」関数を使えば簡単に計算できます
    • 例:=BINOM.DIST(3, 5, 0.5, FALSE) で上記の確率が求められます
  • RやPythonなどのプログラミング言語でも専用の関数があります

二項分布の特徴

二項分布には、覚えておくと便利な特徴があります。

  • n = 試行回数(何回繰り返すか)
  • p = 成功確率(1回あたりの成功する確率)

平均値(期待値)

平均値 = n × p

式の意味:「試行回数」×「1回あたりの成功確率」=「成功する平均回数」

試行を繰り返したとき、成功回数は平均的にこの値になります。

:コインを100回投げる場合

  • n = 100回
  • p = 0.5(表が出る確率50%)
  • 平均値 = 100 × 0.5 = 50回

つまり、100回投げればだいたい50回くらい表が出ると予想できます。

分散

分散 = n × p × (1-p)

式の意味:「試行回数」×「成功確率」×「失敗確率」=「バラつきの大きさ」

試行を繰り返したとき、成功回数が平均値からどれくらいバラつくかを表す指標です。

:コインを100回投げる場合

  • n = 100回
  • p = 0.5(表が出る確率50%)
  • (1-p) = 0.5(裏が出る確率50%)
  • 分散 = 100 × 0.5 × 0.5 = 25

つまり、表が出る回数のバラつき具合を数値で表すと25になります。

標準偏差

標準偏差 = √(n × p × (1-p))

式の意味:「分散」の平方根(√)=「平均的なズレ幅(回数単位)」

試行を繰り返したとき、成功回数が平均値から平均的にどれくらいズレるかを、元のデータと同じ単位(回数)で示します。

:コインを100回投げる場合

  • n = 100回
  • p = 0.5(表が出る確率50%)
  • (1-p) = 0.5(裏が出る確率50%)
  • 標準偏差 = √(100 × 0.5 × 0.5) = √25 = 5回

つまり、100回投げたとき表が出る回数は平均50回で、だいたい45〜55回の範囲(±5回)に収まりやすいということです。

ビジネスや日常での二項分布活用例

二項分布は、実はビジネスや日常の様々な場面で役立っています。

ここでは、代表的な活用シーンを具体的にご紹介します。

品質管理

製造業では、製品の不良率を管理するために二項分布が使われます。

たとえば、不良率2%の製品を100個検査したとき、「不良品が5個以上見つかる確率」を計算できます。

もし実際に5個以上の不良品が見つかれば「今日の製造工程に何か問題があるかも?」と判断できます。

これにより、品質の異常を早期に発見し、対応することができます。

マーケティング分析

メールマガジンやWeb広告の効果測定でも二項分布が活躍します。

例えば、クリック率3%のメールを1000人に送った場合、「クリックする人が何人くらいになるか」の分布を予測できます。

  • 平均:1000 × 0.03 = 30人
  • 標準偏差:√(1000 × 0.03 × 0.97) ≈ 5.4人

つまり、だいたい25〜35人くらいがクリックすると予想できるわけです。

A/Bテスト

WebサイトやアプリのA/Bテストでも、二項分布を使って「AとBのどちらが本当に優れているか」を統計的に判断します。

例えば、ボタンAのクリック率が5%、ボタンBが7%だったとき、この差が偶然なのか、本当に差があるのかを二項分布を使って検証できます。

医療統計

新薬の治験では、「薬を飲んだ人のうち何%が改善するか」といった効果を二項分布で分析します。

例えば、100人に投与して70人が改善した場合、「この改善率が偶然ではない」かどうかを統計的に検証できます。

スポーツ分析

野球の打率やバスケのシュート成功率なども、二項分布で考えることができます。

打率3割のバッターが10打席に立ったとき、「ヒットが4本以上出る確率」などを計算して、選手の調子や起用法の判断材料にできます。

二項分布の注意点

二項分布は便利なツールですが、使い方を誤ると誤解や間違った判断につながることがあります。

ここでは、特に注意すべきポイントをまとめます。

4つの条件を満たしているか確認する

二項分布を使えるのは、先ほど説明した4つの条件(試行回数固定、独立性、2択、確率一定)が成り立つ場合だけです。

例えば、「箱から玉を戻さずに取り出す」場合は、確率が変化するので二項分布は使えません(この場合は超幾何分布を使います)。

サンプル数が少ないと予測の幅が広い

試行回数 n が小さいと、結果のバラつきが大きくなり、予測の精度が下がります。

できるだけ多くのサンプルを集めることで、より信頼性の高い分析ができます。

成功確率が極端な場合は別の分布も検討

成功確率pが非常に小さく(例:0.01以下)、試行回数nが大きい場合は、ポアソン分布を使う方が計算が簡単になります。

また、nが十分大きい(目安:30以上)場合は、正規分布で近似することもよくあります。

二項分布は「過去のデータ」をもとにする

二項分布の計算には「成功確率p」が必要ですが、この値は過去のデータや経験から推定します。

もし状況が変わってpが変化すると、予測は当たらなくなるので注意が必要です。

まとめ

二項分布は統計解析における基本的で重要な確率分布で、正しく理解することでデータの意味をより深く読み取れます。

以下にポイントをまとめます。

  • 二項分布は「成功/失敗の2択を繰り返したときの成功回数の確率分布」
  • 「二項」は「2つの結果」を意味する
  • 試行回数固定、独立性、2択、確率一定の4条件が必要
  • 計算式:P(X=k) = nCk × p^k × (1-p)^(n-k)
  • 平均値はn×p、標準偏差は√(n×p×(1-p))で求められる
  • 品質管理、マーケティング、A/Bテスト、医療統計など幅広く活用される
  • ExcelのBINOM.DIST関数などで簡単に計算できる

二項分布の理解は、統計を使った意思決定やデータ分析の質を高める第一歩です。

ぜひ今回の内容を参考に、実際のビジネスや研究で活用してくださいね!

スポンサーリンク
おすすめの記事