ライトストーン > Stata > コマンド早見表

duplicates コマンド

 Stataの duplicates コマンドは、データセット内にある重複した観測値(行)を報告、表示、タグ付け、または削除するためのコマンドです。
 重複の定義は、変数リストを指定しない場合は「すべての変数の値が一致すること」、変数リストを指定した場合は「指定した変数の値のみが一致すること」を指します。

1. 主なサブコマンド

  • duplicates report : 重複の状況をまとめた表を表示します。コピーが何組あるか、余分な行(surplus)が何行あるかを確認できます。
  • duplicates list : 重複しているすべての観測値を一覧表示します。
  • duplicates examples : 重複グループごとに、その代表例を1件ずつ表示します。
  • duplicates tag : 重複の数をカウントする新しい変数を作成します。一意な行は0になり、重複がある場合はその数(自分以外のコピー数)が記録されます。
    例 : duplicates tag, generate(newvar)
  • duplicates drop : 重複した行のうち、最初の1件だけを残して他をすべて削除します。

2. 重要な注意点

  • 略記の禁止 : 誤操作を防ぐため、duplicates drop の 「drop」部分は略記できません。必ずフルスペルで入力する必要があります。
  • データの損失 : duplicates drop は破壊的な操作であり、一度削除すると元に戻せません。
  • force オプション : 変数リストを指定して duplicates drop を行う場合、 リストに含まれていない変数に異なる値が含まれていても強制的に削除するため、 force オプションの指定が必須となります。

3. 具体的な活用例

 ID(変数 id)が重複しているデータを確認し、整理する際の手順例です。

* IDの重複状況をレポート
duplicates report id

* 重複している行を具体的にリストアップ
duplicates list id

* 重複がある行にフラグ(tag_v)を立てる
duplicates tag id, generate(tag_v)

* IDの重複を排除し、最初の1行だけを残す
duplicates drop id, force