EViewsにおける欠損値

このページではEViewsにおける欠損値の扱いについて紹介します。


リストワイズ削除

  1. 特定の期間や観測値においてデータが利用できない、あるいは結果が定義されていない数学演算(例:ゼロ除算、負の数の対数)を実行しようとすることがあります。EViewsでは、このような欠損値を表すためにNA(利用不可)コードを使用します。 ほとんどの場合、NAについて心配する必要はありません。EViewsは適切な場合にNAを生成し、NAを含む観測値は統計計算から自動的に除外されます。例えば、方程式を推定する場合、EViewsは標本内の従属変数とすべての独立変数に欠損値のない観測値セットを使用します。
    ただし、NA を扱う必要があるケースもいくつかあるため、NA の取り扱いに関する根本的な問題のいくつかを認識しておく必要があります。
    まず、複数の系列を用いて演算を行う場合、NAの処理には複数の方法があります。EViewsでは通常、ケースワイズ除外(共通サンプル)またはリストワイズ除外(個別サンプル)のオプションが提供されます。
  2. ケースワイズ除外では、系列全体で欠損値のないデータを持つ観測値のみが使用されます。このルールは、例えば方程式推定において常に使用されます。
  3. リストワイズ除外では、EViewsは各系列で可能な最大数の観測値を使用し、系列リスト内の各系列ごとに個別に観測値を除外します。例えば、系列グループの記述統計量を計算する場合、各系列ごとに異なるサンプルを使用するオプションがあります。
    デフォルトでは、EViewsは欠損値を検出するとリストワイズ削除を実行し、すべての統計量を同じ観測値を用いて計算します。欠損値のペアワイズ削除を実行するには、「バランスサンプル(リストワイズ削除)」チェックボックスをオフにします。ペアワイズ計算では、各計算で最大数の観測値が使用されます。
    データ

補完

  1. 系列の補間手順では、系列内の欠損値(NA)を、欠損値ではない値から補間することで埋めます。EViewsは、線形、対数線形、Catmull-Romスプライン、カーディナルスプラインなど、さまざまな補間アルゴリズムを提供しています。
    線形補間法は、前の非欠損値と次の非欠損値に基づいて線形近似値を計算するだけです。補間値は次のように計算されます \begin{eqnarray} IV_{Lin} = (1 - \lambda)P_{i - 1} + \lambda P_{i + 1} \end{eqnarray}
    $P_{i-1}$は前期の欠損値、$P_{i+1} $は次の非欠損値、$\lambda $は欠損値全体に対する位置を示します。したがって、NAが1つだけの場合、補間値は前の値と次の値の中間値になります。NAが2つ連続している場合、最初のNAは前の値と次の値の間の距離の$1/3$として補間されます。2番目のNAは距離の$2/3$として補間されます。
    対数線形補間は線形法と同じ方法で計算されます。計算前にシリーズの値が対数化され、補間値は指数化されます。源系列に欠損値の前後に負の値が含まれている場合、補間には絶対値が使用され、結果は負の数になります。欠損値の両側に負の数と正の数の両方が含まれている場合、補間ルーチンはNAを返します。
  2. カーディナルスプラインは、前の2つの非欠損値と次の2つの非欠損値に基づいて、欠損データを非線形、つまり曲線パターンに当てはめようとします。前の2つの非欠損値を$p-2$と$p-1$、次の2つの非欠損値を$p+1$と$p+2$とすると、補間値は次のように計算されます。 \begin{eqnarray} IV_{CS} = (2\lambda^3 - 3\lambda^2 + 1)P_{i-1} + (1 - t)(\lambda^3 - 2\lambda^2 + \lambda)(P_{i + 1} - P_{i - 2}) - (2\lambda^3 - 3\lambda^2) P_{i + 1} + (1-t)(P_{i+2} - P_{i-1}) \end{eqnarray}
    ここで、$t$は張力パラメータと呼ばれ、スプラインの曲率に影響します。キャットマル・ロム・スプラインは、張力パラメータtをゼロとするカーディナルスプラインの特殊なケースです。
  3. EViews 内で補間を実行するには、系列を開き、Proc/Interpolate…をクリックして補間ダイアログを開きます。補間方法ボックスで、使用する補間方法を選択できます。
    データ
    Output series nameボックスには、補間値が格納される出力シリーズの名前を入力できます。空白のままにすると、無題のシリーズが作成されます。 Sampleボックスでは、補間を実行するサンプルを選択できます。空白のままにすると、デフォルトのワークファイルサンプルが使用されます。選択したサンプル外の観測値は補間されず、補間計算にも使用されないことに注意してください。Insert source series for out of sample observationsチェックボックスは、出力シリーズにサンプル外観測値のソースシリーズ値を入力するか、NAを入力するかを制御します。

例題

  1. 欠損を含むデータセットでモデル推定を行ってから、補完した系列で再推定し、両者の違いを確認します。
    まずデフォルト設定のリストワイズ削除で推定した場合を確認します。例題データセットでは、変数BMIが欠損を含んでおり、モデル推定を行うと、独立変数AGEが有意な結果になりません。
    データ
  2. はじめに、線形補完でBMIの欠損を補ってみます。Proc/Interpolationと操作し、Output series nameにbmi_linearと入力し、OKをクリックします。グループオブジェクトで源系列BMIと線形補完したBMI_LINEARを並べて確認しましょう。
    データ
    補完されたBMI_LINEARを使って再推定すると、AGEのP値が0.126から0.018になり、有意になっていることがわかります。
    データ
    対数補完、キュービックスプラインを行った系列でも同じような結果が得られます。
    データ
  3. 5種類の補完系列を折れ線グラフで確認すると、ほぼ同様の結果が得られていることがわかりますが、キュービックスプライン(下記の緑色)では異なる値を返しているデータ点も見られます。
    データ
page_top_icon