記述統計とはなにか|データを要約する考え方

2026年6月14日2026年6月18日

手元に数万行のログがあっても、生データを眺めて意思決定できる人はいません。

記述統計は、大量のデータを「平均」「ばらつき」「分布の形」といった少数の特徴に圧縮し、データの輪郭を一目でつかむための考え方です。この記事を読むと、記述統計が何をする技術なのか、推測統計とどこで線を引くのか、そして日々の集計が実は記述統計そのものであることが分かります。

具体的な指標の計算やコードは、本文から各操作記事へ案内します。

この記事で分かること

記述統計とは何か——データを「要約する」とはどういう操作か
要約の二つの軸「中心」と「ばらつき」、そして「分布の形」の役割
記述統計と推測統計の違い(母集団に言及するかどうかが境界線)
日々の集計(件数・平均・標準偏差など)が記述統計に対応していること

記述統計とは「データを要約する技術」である

記述統計(descriptive statistics)とは、観測されたデータの特徴を、要約された数値や図表によって記述する一連の手法です。

やっていることは、「どのあたりに集まり、どれくらい散らばり、どんな形をしているか」を、人間が把握できる粒度まで縮約する操作にほかなりません。たとえば 30 万件の購入ログがあるとき、1 件ずつ金額を読んでも全体像は分かりません。

ですが「平均購入額は 4,200 円」「中央値は 2,980 円」「最高額は 48 万円」と要約すれば、分布が高額側に裾を引いていること、平均が一部の高額購入に引っ張られていることまで瞬時に読み取れます。これが記述統計の仕事です。

生データという情報の塊から、判断に使える特徴量を抽出する操作だと捉えるとよいでしょう。

二つの要約軸:「中心」と「ばらつき」

記述統計の要約は、大きく二つの軸に整理できます。

ひとつはデータがどこに集まるかを表す「中心の指標」(代表値)で、平均値・中央値・最頻値がこれにあたります。もうひとつはデータがどれだけ散らばっているかを表す「ばらつきの指標」で、分散・標準偏差・四分位範囲などが該当します。

この二軸は補完関係にあります。中心だけを見ても、その値の周りにデータが密集しているのか広く散っているのかは分かりません。

「平均 50 点」というクラスが、全員ほぼ 50 点なのか、0 点と 100 点が半々なのかは、ばらつきを見て初めて区別できます。中心とばらつきは常にセットで読む——これが記述統計を使ううえでの最初の原則です。

それぞれの指標が何を表し、どう使い分けるかは、中心の指標とばらつきの指標それぞれの個別記事で扱います。

分布の形も要約の対象

中心とばらつきに加えて、分布の形そのものも要約の対象になります。

データが左右対称か、片側に裾を引いているか(歪度)、中心に尖っているか平坦か(尖度)といった形の情報は、平均や標準偏差の解釈を左右します。歪度は左右どちらに偏っているか、尖度は山が鋭いか平らかを見る考え方です。

形を最も直感的に捉える手段がヒストグラムであり、数値による要約と図による要約は対になっています。標準偏差には、平均の周りにデータがどれくらい集まっているかを見る役割があります。

ただし、その読み方は分布の形によって変わります。たとえば「平均 ±1 標準偏差におよそ 68%が入る」という目安は、分布が左右対称に近いときの話で、裾を引いた分布ではそのまま当てはまりません。

数値の要約は、形を見ながら解釈する必要があります。

記述統計と推測統計の違い

統計学はしばしば「記述統計」と「推測統計」に大別されます。両者の違いは、手元のデータそのものを語るのか、その背後にある未知の集団を語るのかという一点に集約されます。

観点	記述統計	推測統計
対象	手元にあるデータそのもの	背後にある母集団(未観測を含む)
問い	このデータはどんな特徴か	標本から母集団について何がいえるか
典型的な出力	平均・標準偏差・ヒストグラム等	信頼区間・仮説検定・p 値
不確実性	基本的に扱わない(集めた範囲で確定)	扱う(推定には誤差が伴う)
境界の見分け方	「このデータについての事実」を述べる	「まだ見ていない全体」を述べる

要点は、記述統計は「集めたデータがすべて」という立場で完結するということです。

100 人にアンケートを取って平均満足度を出すなら、その 100 人について計算した平均値は、集計対象をその 100 人に限るかぎり、推定ではなく確定した値です。一方、その 100 人から「全顧客の満足度」を推し量ろうとした瞬間、話は推測統計に移ります。

手元の 100 人は全顧客という母集団からの一部(標本)にすぎず、そこには必ず推定の誤差が伴うからです。出した数値を「このデータについての事実」として述べているなら記述統計、「まだ見ていないデータや全体について」述べた瞬間に推測統計に入っています。

集計と推定の境目は、母集団に言及するかどうかで引かれます。実務では、この二つは段階として連続しています。まず記述統計でデータの素性をつかみ、異常や偏りがないかを確認したうえで、必要なら推測統計に進みます。

記述を飛ばして検定に走ると、分布の歪みや外れ値を見落としたまま誤った結論を出しかねません。記述統計はあらゆる分析の前段にある土台だと考えてよいでしょう。推測統計の詳細は、推測統計を扱う記事に譲ります。

日々の集計は、実は記述統計である

記述統計を「特別な統計手法」と身構える必要はありません。

日常的に書いている集計クエリや表計算の関数は、その大半が記述統計の実装そのものです。データを要約する操作に名前を付けたものが記述統計だ、と捉えると腑に落ちます。

要約したい特徴と、それを担う代表的な操作を対応させると、次のようになります。

要約したい特徴	役割	対応する代表的な操作
件数	データの規模を知る	行数を数える集計
中心	どこに集まるか	平均・中央値・最頻値を求める集計
ばらつき	どれくらい散らばるか	標準偏差・分散・四分位範囲を求める集計
範囲	最小と最大	最小値・最大値を求める集計
分布の形	対称か、裾を引くか	ヒストグラム・分位点による可視化

ここで重要なのは、これらの操作を実際にどう書くか(関数名・製品ごとの方言・近似と厳密の違いなど)は、製品に依存する話だということです。

たとえば標準偏差ひとつ取っても、標本版と母集団版で割る数が違い、関数名の既定も製品ごとに分かれます。こうした実装の詳細は概念の理解とは別の問題なので、本記事では扱わず、それぞれの操作記事に委ねます。

新しいテーブルを触るときは、まず件数・平均・標準偏差・最小最大をまとめて眺めるのが定石です。これだけで、桁外れの外れ値、想定外の欠損、分布の偏りといった「データの素性」が見えてきます。

本格的な分析の前に必ず通すべき最初のステップであり、その実体はまさに記述統計です。

まとめ

記述統計とは、大量のデータを中心・ばらつき・分布の形といった少数の特徴に縮約し、データの輪郭を把握する技術です。

中心とばらつきは常にセットで読み、分布の形を見ながら数値を解釈する——これが記述統計の基本姿勢です。手元のデータそのものを誤差なく語る点で、母集団を推し量る推測統計とは役割が分かれます。

そして、日々書いている件数・平均・標準偏差・分位点の集計は、その大半が記述統計の実装にほかなりません。各指標が何を表し、どう計算するかは、関連記事へ進んでください。