ライトストーン > Stata > コマンド早見表

`summarize` コマンド

　Stataの summarize コマンドは、データセット内の変数の要約統計量（観測値の数、平均値、標準偏差、最小値、最大値）を計算し、表形式で表示するためのコマンドです。

1. 基本的な使い方

全変数の要約 : コマンドウィンドウに summarize （または省略形の su ）とだけ入力して実行すると、データセット内にあるすべての数値変数の結果が表示されます。
特定の変数を指定 : summarize price mpg のように変数名を指定すると、その変数のみを対象に計算します。
範囲の制限 : if や in を組み合わせて、「特定の条件に合うデータだけ」あるいは「特定の行だけ」を要約することも可能です。
例： summarize price if foreign == 1 （外国車の価格のみを要約）

2. 主なオプション

detail (省略形 d ) : 標準の統計量に加えて、パーセンタイル（中央値、1%、25%など）、歪度（Skewness）、尖度（Kurtosis）、および値の大きい方・小さい方から4つずつの値を表示します。
format : 変数に設定されている表示書式（小数点以下の桁数など）を、要約結果の表示にも適用します。
meanonly : 結果を表示せず、平均値などの計算のみを内部で行います。主にプログラム（do-file）内で、計算結果だけを利用したい場合に使用されます。

3. 解析結果の再利用（プログラミング）

　 summarize は実行後、計算した数値を r() と呼ばれるメモリ領域に一時的に保存します。これにより、直後のコマンドでこれらの数値を利用できます。

r(N) : 観測値の数
r(mean) : 平均値
r(sd) : 標準偏差
r(min) / r(max) : 最小値 / 最大値
r(p50) : 中央値（ detail オプション使用時）

　これを利用して、例えば display r(mean) と入力すれば平均値を表示でき、プログラム内で「平均値からの乖離」などを計算する際にも役立ちます。

4. 注意点

欠損値の扱い : summarize は、その変数に欠損値（.）が含まれている場合、その観測値を除外して計算します。
文字列変数 : 文字列（string）として保存されている変数は、数値ではないため平均値などを計算できず、表示されません。
重み付きデータ : [weight] を指定することで、頻度重み（fweight）などを考慮した計算が可能です。