記述統計とはなにか|データを要約する考え方

手元に数万行のログがあっても、生データを眺めて意思決定できる人はいません。

記述統計は、大量のデータを「平均」「ばらつき」「分布の形」といった少数の特徴に圧縮し、データの輪郭を一目でつかむための考え方です。この記事を読むと、記述統計が何をする技術なのか、推測統計とどこで線を引くのか、そして日々の集計が実は記述統計そのものであることが分かります。

具体的な指標の計算やコードは、本文から各操作記事へ案内します。

この記事で分かること

記述統計とは「データを要約する技術」である

記述統計(descriptive statistics)とは、観測されたデータの特徴を、要約された数値や図表によって記述する一連の手法です。

やっていることは、「どのあたりに集まり、どれくらい散らばり、どんな形をしているか」を、人間が把握できる粒度まで縮約する操作にほかなりません。たとえば 30 万件の購入ログがあるとき、1 件ずつ金額を読んでも全体像は分かりません。

ですが「平均購入額は 4,200 円」「中央値は 2,980 円」「最高額は 48 万円」と要約すれば、分布が高額側に裾を引いていること、平均が一部の高額購入に引っ張られていることまで瞬時に読み取れます。これが記述統計の仕事です。

生データという情報の塊から、判断に使える特徴量を抽出する操作だと捉えるとよいでしょう。

記述統計の要約は、大きく二つの軸に整理できます。

ひとつはデータがどこに集まるかを表す「中心の指標」(代表値)で、平均値・中央値・最頻値がこれにあたります。もうひとつはデータがどれだけ散らばっているかを表す「ばらつきの指標」で、分散・標準偏差・四分位範囲などが該当します。

この二軸は補完関係にあります。中心だけを見ても、その値の周りにデータが密集しているのか広く散っているのかは分かりません。

「平均 50 点」というクラスが、全員ほぼ 50 点なのか、0 点と 100 点が半々なのかは、ばらつきを見て初めて区別できます。中心とばらつきは常にセットで読む——これが記述統計を使ううえでの最初の原則です。

それぞれの指標が何を表し、どう使い分けるかは、中心の指標とばらつきの指標それぞれの個別記事で扱います。

中心とばらつきに加えて、分布の形そのものも要約の対象になります。

データが左右対称か、片側に裾を引いているか(歪度)、中心に尖っているか平坦か(尖度)といった形の情報は、平均や標準偏差の解釈を左右します。歪度は左右どちらに偏っているか、尖度は山が鋭いか平らかを見る考え方です。

形を最も直感的に捉える手段がヒストグラムであり、数値による要約と図による要約は対になっています。標準偏差には、平均の周りにデータがどれくらい集まっているかを見る役割があります。

ただし、その読み方は分布の形によって変わります。たとえば「平均 ±1 標準偏差におよそ 68%が入る」という目安は、分布が左右対称に近いときの話で、裾を引いた分布ではそのまま当てはまりません。

数値の要約は、形を見ながら解釈する必要があります。

統計学はしばしば「記述統計」と「推測統計」に大別されます。両者の違いは、手元のデータそのものを語るのか、その背後にある未知の集団を語るのかという一点に集約されます。

要点は、記述統計は「集めたデータがすべて」という立場で完結するということです。

100 人にアンケートを取って平均満足度を出すなら、その 100 人について計算した平均値は、集計対象をその 100 人に限るかぎり、推定ではなく確定した値です。一方、その 100 人から「全顧客の満足度」を推し量ろうとした瞬間、話は推測統計に移ります。

手元の 100 人は全顧客という母集団からの一部(標本)にすぎず、そこには必ず推定の誤差が伴うからです。出した数値を「このデータについての事実」として述べているなら記述統計、「まだ見ていないデータや全体について」述べた瞬間に推測統計に入っています。

集計と推定の境目は、母集団に言及するかどうかで引かれます。実務では、この二つは段階として連続しています。まず記述統計でデータの素性をつかみ、異常や偏りがないかを確認したうえで、必要なら推測統計に進みます。

記述を飛ばして検定に走ると、分布の歪みや外れ値を見落としたまま誤った結論を出しかねません。記述統計はあらゆる分析の前段にある土台だと考えてよいでしょう。推測統計の詳細は、推測統計を扱う記事に譲ります。

記述統計を「特別な統計手法」と身構える必要はありません。

日常的に書いている集計クエリや表計算の関数は、その大半が記述統計の実装そのものです。データを要約する操作に名前を付けたものが記述統計だ、と捉えると腑に落ちます。

要約したい特徴と、それを担う代表的な操作を対応させると、次のようになります。