summarize コマンド Stataの summarize コマンドは、データセット内の変数の要約統計量(観測値の数、平均値、標準偏差、最小値、最大値)を計算し、
表形式で表示するためのコマンドです。
summarize (または省略形の su )とだけ入力して実行すると、
データセット内にあるすべての数値変数の結果が表示されます。summarize price mpg のように変数名を指定すると、その変数のみを対象に計算します。if や in を組み合わせて、「特定の条件に合うデータだけ」あるいは「特定の行だけ」を要約することも可能です。summarize price if foreign == 1 (外国車の価格のみを要約)detail (省略形 d ) : 標準の統計量に加えて、パーセンタイル(中央値、1%、25%など)、歪度(Skewness)、尖度(Kurtosis)、
および値の大きい方・小さい方から4つずつの値を表示します。format : 変数に設定されている表示書式(小数点以下の桁数など)を、要約結果の表示にも適用します。meanonly : 結果を表示せず、平均値などの計算のみを内部で行います。主にプログラム(do-file)内で、計算結果だけを利用したい場合に使用されます。 summarize は実行後、計算した数値を r() と呼ばれるメモリ領域に一時的に保存します。
これにより、直後のコマンドでこれらの数値を利用できます。
r(N) : 観測値の数r(mean) : 平均値r(sd) : 標準偏差r(min) / r(max) : 最小値 / 最大値r(p50) : 中央値( detail オプション使用時) これを利用して、例えば display r(mean) と入力すれば平均値を表示でき、プログラム内で「平均値からの乖離」などを計算する際にも役立ちます。
summarize は、その変数に欠損値(.)が含まれている場合、その観測値を除外して計算します。[weight] を指定することで、頻度重み(fweight)などを考慮した計算が可能です。