ライトストーン > Stata > コマンド早見表

codebook コマンド

 Stataの codebook コマンドは、データセット内の変数名、ラベル、および実際の値を詳しく調査し、 データの詳細を記述した「コードブック(データ定義書)」を作成するためのコマンドです。

1. 基本的な機能

  codebook を実行すると、変数の性質(連続量かカテゴリカルか)をStataが自動的に判別し、適切な統計量を表示します。

  • 連続量と判断された場合 : 平均、標準偏差、各パーセンタイル(10%, 25%, 50%, 75%, 90%)を表示します。
  • カテゴリカルと判断された場合 : 頻度分布表(Tabulation)を表示します。
    ※一意な値が9個以下の場合はカテゴリカル、それより多い場合は連続量として扱われます( tabulate(#) オプションで調整可能です)。
  • 欠損値の識別 : 通常の欠損値( . )と拡張欠損値( .a.z )を区別して報告します。

2. 主なオプション

  • compact : summarize コマンドに近い形式で、観測値数、一意な値の数、平均、最小・最大値、変数ラベルを一行にまとめて一覧表示します。
  • problems : データの不備(値がすべて同じ定数変数、存在しない値ラベルの参照、文字列の前後の空白、整数ではない日付変数など)を自動的に検出し、警告レポートを作成します。
  • mv : 欠損値のパターンを分析します。例えば、「変数Aが欠損しているときは必ず変数Bも欠損している」といった相関関係を特定するのに役立ちます。
  • all : ヘッダー情報や変数に付加された注釈( notes )を含む、完全なレポートを表示します。
  • languages() : 多言語対応のデータセットにおいて、指定した言語のラベルを表示します。

3. 関連コマンドとの違い

  • describe : 主にストレージ形式(int, float等)やラベル名の確認用であり、中身の数値計算は行いません。
  • summarize : 数値データの要約統計量に特化しています。 codebook, compact はその代替として利用でき、変数ラベルも同時に見られる利点があります。
  • inspect : 整数か否か、正負の別など、より単純な属性の要約を表示します。

4. 実行例

* サンプルデータの読込み
webuse auto

* データセット全体の詳細なコードブックを作成
codebook

* 特定の変数(price, mpg)について、欠損値パターンを含めて調査
codebook price mpg, mv

* データの不備(空白や異常値)がないかチェック
codebook, problems