ライトストーン > Stata > コマンド早見表

summarize コマンド

 Stataの summarize コマンドは、データセット内の変数の要約統計量(観測値の数、平均値、標準偏差、最小値、最大値)を計算し、 表形式で表示するためのコマンドです。

1. 基本的な使い方

  • 全変数の要約 : コマンドウィンドウに summarize (または省略形の su )とだけ入力して実行すると、 データセット内にあるすべての数値変数の結果が表示されます。
  • 特定の変数を指定 : summarize price mpg のように変数名を指定すると、その変数のみを対象に計算します。
  • 範囲の制限 : ifin を組み合わせて、「特定の条件に合うデータだけ」あるいは「特定の行だけ」を要約することも可能です。
    例: summarize price if foreign == 1 (外国車の価格のみを要約)

2. 主なオプション

  • detail (省略形 d ) : 標準の統計量に加えて、パーセンタイル(中央値、1%、25%など)、歪度(Skewness)、尖度(Kurtosis)、 および値の大きい方・小さい方から4つずつの値を表示します。
  • format : 変数に設定されている表示書式(小数点以下の桁数など)を、要約結果の表示にも適用します。
  • meanonly : 結果を表示せず、平均値などの計算のみを内部で行います。主にプログラム(do-file)内で、計算結果だけを利用したい場合に使用されます。

3. 解析結果の再利用(プログラミング)

  summarize は実行後、計算した数値を r() と呼ばれるメモリ領域に一時的に保存します。 これにより、直後のコマンドでこれらの数値を利用できます。

  • r(N) : 観測値の数
  • r(mean) : 平均値
  • r(sd) : 標準偏差
  • r(min) / r(max) : 最小値 / 最大値
  • r(p50) : 中央値( detail オプション使用時)

 これを利用して、例えば display r(mean) と入力すれば平均値を表示でき、プログラム内で「平均値からの乖離」などを計算する際にも役立ちます。

4. 注意点

  • 欠損値の扱い : summarize は、その変数に欠損値(.)が含まれている場合、その観測値を除外して計算します。
  • 文字列変数 : 文字列(string)として保存されている変数は、数値ではないため平均値などを計算できず、表示されません。
  • 重み付きデータ : [weight] を指定することで、頻度重み(fweight)などを考慮した計算が可能です。