ヒストグラムとは:定義・作り方・読み方|データ分布の可視化

ヒストグラムの定義から作り方・読み方まで図解で徹底解説。データ分布の可視化を初心者でも実践できる手順と実例を掲載。

著者: Leandro Alegsa

ヒストグラムは、統計学の基本的な可視化手法の一つです。これは、観測値(サンプル)がどのように散らばっているか、すなわち値の分布を示す分布について教えてくれるグラフ表示です。通常は値の範囲をいくつかの区間(ビン)に分け、各区間に含まれるサンプル数を棒(バー)の高さで表します。元になるのは、多くのカテゴリーを持つ表から作られた図で、表には各カテゴリーにいくつのサンプルがあるかが記録されています。

語源については、ヒストグラムという言葉はギリシャ語に由来します。原語では histos(ヒストス、織り目や支柱の意)と gramma(グランマ、書かれたもの・記録の意)から来ており、語源的に見れば「網目状の記録」を意味します。この語源が示すように、ヒストグラムはデータを区切って視覚的に「網羅」し、その分布の特徴を直感的に示します。

ヒストグラムの作り方(基本手順)

  • データを用意する:連続変数や多くの異なる値を持つ量に向く。カテゴリデータでは棒グラフの方が適切なことが多い。
  • ビン(区間)の決定:データの範囲をいくつかの区間に分ける。各区間は同じ幅にするのが一般的(ただし場合によっては可変幅にすることもある)。
  • 各ビンに含まれるサンプル数を数える:これが棒の高さ(頻度)になる。
  • 描画:横軸に値の区間、縦軸に頻度(または相対頻度・密度)をとって棒を描く。軸ラベルと単位を明確にする。
  • 必要に応じて正規化:サンプル数ではなく割合(相対頻度)や確率密度に変換して比較しやすくする。

読み方・解釈のポイント

  • 中心位置(中心傾向):棒が高く集まっている位置がデータの代表値(平均や中央値)に対応する。
  • 散らばり(分散・幅):棒が広範囲に広がっていれば分散が大きいことを示す。
  • 歪み(歪度):右に尾が伸びる(右裾が長い)なら右裾(正)に歪んでいる。逆も同様。
  • モード(山の数):山が一つなら単峰( unimodal )、二つなら双峰( bimodal )など。複数山は混合分布や異なる群が混在している可能性を示す。
  • 外れ値の兆候:大きく離れた棒がある場合は外れ値やデータ入力ミスを疑う。

ビン幅・ビン数の選び方(注意点)

ビン幅(またはビン数)によってヒストグラムの見え方が大きく変わります。幅が狭すぎるとノイズ(過剰なばらつき)が目立ち、広すぎると重要な構造が隠れます。代表的な経験則:

  • Sturgesの公式:ビン数 ≈ log2(n) + 1(小〜中規模データに簡便)
  • Scottの規則:ビン幅 = 3.5 × 標準偏差 / n^(1/3)
  • Freedman–Diaconisの規則:ビン幅 = 2 × IQR / n^(1/3)(外れ値に対して頑健)

どの規則も目安に過ぎないため、複数パターンで描いて比較するとよいです。ビン幅を変えることで見える構造が変わる点を理解しておきましょう。

よくある誤りと注意点

  • 不均等なビン幅を使う場合、棒の高さを単純な頻度で表すと誤解を招く。幅で割った「密度」を縦軸にする必要がある。
  • サンプル数が少ないとヒストグラムは不安定で、モード数などを誤認することがある。
  • 異なるサンプルサイズや異なるビン設定のヒストグラムをそのまま比較すると誤解を招く。正規化(相対頻度や密度表示)や同一ビン幅の統一が必要。
  • ヒストグラムは連続データの分布把握には優れるが、カテゴリデータや順序尺度の細かな比較には別の図表(棒グラフ、箱ひげ図等)も併用した方がよい。

実践:ソフトでの作成例(概要)

  • Excel:データを選び「挿入」→「統計グラフ」→「ヒストグラム」またはヒストグラム専用の分析ツールを使用。
  • Python(matplotlib / seaborn):matplotlib.pyplot.hist(data, bins=...)、seaborn.histplot(data, bins=..., stat='density' など) を使って細かくカスタマイズ可能。
  • R:hist(x, breaks=...) や ggplot2 では geom_histogram(binwidth=...) を使う。density(密度曲線)を重ねることもよく行う。

まとめ

ヒストグラムはデータの分布形状(中心・広がり・歪み・モード・外れ値)を直感的に理解するための基本ツールです。ビン幅の選び方や正規化、比較時の注意点を理解すれば、探索的データ解析(EDA)で強力に使えます。目的に応じて箱ひげ図や密度プロットと併用することで、より正確な判断につながります。

正規分布する100個の乱数値からなるヒストグラムの例Zoom
正規分布する100個の乱数値からなるヒストグラムの例

類似のアイデア

ヒストグラムは、品質管理の7つの基本ツール(パレート図、チェックシート、管理図、因果関係図、フローチャート、散布図など)の一つです。

ヒストグラムの一般化として、カーネルスムージング技術があります。これは、供給されたデータから滑らかな確率密度関数を構築するものです。

質問と回答

Q:ヒストグラムとは何ですか?


A: ヒストグラムは、関係するサンプルの分布を示すグラフ表示です。

Q: ヒストグラムの目的は何ですか?


A: ヒストグラムの目的は,関係する標本の分布を示すことです。

Q: ヒストグラムとはどういう意味ですか?


A: ヒストグラムの語源はギリシャ語のヒストス(histos)とグランマ(gramma)です。ヒストスは網やマストを意味します。グランマは図面、記録、文章を意味します。

Q: ギリシャ語で「ヒストス」とはどういう意味ですか?


A: "histos "はギリシャ語で網やマストを意味します。

Q: 「グランマ」とはギリシャ語で何という意味ですか?


A: 「gramma」とはギリシャ語で「描く」「記録する」「書く」という意味です。

Q: ヒストグラムの一般的な特徴は何ですか?


A: ヒストグラムの一般的な特徴は、多くのカテゴリーを持つ表から作られた画像です。

Q: ヒストグラム表はどのような情報を提供しますか?


A: ヒストグラム表は、各カテゴリーにいくつのサンプルがあるかという情報を提供します。


百科事典を検索する
AlegsaOnline.com - 2020 / 2025 - License CC3