correlate コマンド Stataのcorrelate(短縮形は corr)は、指定した変数間の相関行列(Correlation Matrix)、あるいは共分散行列(Covariance Matrix)を表示するためのコマンドです。
covariance オプションを使用すると、相関係数の代わりに共分散を表示できます。means : 相関行列とともに、各変数の平均、標準偏差、最小値、最大値を表示します。covariance : 相関係数ではなく、共分散行列を表示します。wrap : 行列が横に長い場合、Stataは通常読みやすくするために分割して表示しますが、このオプションを指定すると分割せずに表示を継続します(ワイド画面での使用に適しています)。correlate コマンドを使用する上で最も重要な注意点は、欠損値の扱いです。
リストワイズ削除(Listwise Deletion): 指定した変数リストのうち、1つでも欠損値がある観測値(行)は、すべての計算から除外されます。
たとえば、変数AとBの相関を見たい場合でも、変数Cが欠損している行があれば、その行のAとBのデータも計算に使われません。
これにより、すべての相関係数が「全く同じサンプル(観測値群)」に基づいて計算されることが保証されます。
類似のコマンドとして pwcorr があります。
pwcorr(Pairwise correlation): 各ペアごとに利用可能なすべてのデータを使って計算(ペアワイズ削除)します。correlate を使用します。
欠損値が多く、各ペアで最大限のデータを使用したい場合や、個々の相関の有意水準(p値)を表示したい場合は pwcorr を使用します。下記のコマンドをコピーして、コマンドウィンドウにペーストして実行をお試しください。
* サンプルデータの読込み
webuse auto
* mpg, price, weightの相関行列を表示
correlate mpg price weight
* 平均などの要約統計量も同時に表示
correlate mpg price weight, means
* 相関ではなく共分散を表示
correlate mpg price weight, covariance
* サンプルデータの読込み
webuse census13
* 重み(pop)を指定して相関を計算
correlate mrgrate dvcrate medage [w=pop]