1. 静态面板数据分析模型
面板数据模型设定如下:
\begin{equation}
y_{it}=x_{it}\beta+\varepsilon_{it},\quad i=1,\cdots,N,\,t=1,\cdots,T
\end{equation}
写成矩阵形式为
\begin{equation}
y=X\beta+\varepsilon
\end{equation}
其中$y$和$\varepsilon$是NT$\times$1维的向量,$X$是$NT\times 1$维的矩阵。其中$y=(y_{11},y_{12},\cdots,y_{1T},y_{21},y_{22},\cdots,y_{2T},\cdots,y_{N1},y_{N2},\cdots,y_{NT})’$,而
\begin{equation}
X = \begin{pmatrix}
X_1\\X_2\\\vdots\\X_N
\end{pmatrix}
\quad
X_{i}=\left(\begin{array}{cccc}
x_{i 1}^{(1)} & x_{i 1}^{(2)} & \ldots & x_{i 1}^{(k)} \\
x_{i 2}^{(1)} & x_{i 2}^{(2)} & \ldots & x_{i 2}^{(k)} \\
\ldots & \ldots & \ldots & \ldots \\
x_{i, T}^{(1)} & x_{i, T}^{(2)} & \ldots & x_{i, T}^{(k)}
\end{array}\right)=\left(\begin{array}{c}
x_{i 1} \\
x_{i 2} \\
\vdots \\
x_{i T}
\end{array}\right)
\end{equation}
在静态面板分析模型中,假设$x_{it}$包含的解释变量是非拖尾的(no lagged)。
考虑一个简单的单因素误差构成,即$\varepsilon_{it}=\alpha_i+u_{it}$。在我们的简单模型中,设$\alpha_i=b_2Z_i$。具有以下特点。
- $\alpha_i$: 个体效应或个体异质性,$u_{it}$为特质误差(idiosyncratic error)。
- 在方法论的文章中,经常讨论$\alpha_i$应该被视为随机效应(随机变量)或者是固定效应(带估计的参数)。
- 关键的议题是是否$\alpha_i$与$x_i$相关,换句话说,是否满足条件$E(\alpha_i|x_i)=0$。当满足$E(\alpha_i|x_i)=0$时,在Wooldridge书中我们将其定义为随机效应模型。否则,他是固定效应模型。一些作者也称随机效应模型和固定效应模型为不相关效应模型和相关效应模型来作为代替。
1.1. 随机效应模型
对与随机效应模型,我们认为以下假设是成立的。
1.1.1. 随机效应假设RE.1(a)$E(\alpha_i|X_i)=E(\alpha_i)=0$,$E(u_{it}|X_i,\alpha_i)=0$;前者为随机效应假设,后者为严格外生性假设。更具体的,我们假设:
\begin{equation}
E(u_{it}|x_{i1},x_{i2},\cdots,x_{iT},\alpha_i)=0
\end{equation}
这也就意味着$E(u_{it}x_{is})=0$对于所有的s和t都成立。这个假设比零同期相关假设更加强烈。所以严格外生性假设在一些经济应用中并不能满足。
1.1.2. 随机效应假设RE.1(b)$\alpha_i$关于i是独立同分布的,$u_{it}$关于i和t是独立同分布的,且对于任意的i,j,t关于$\alpha_i$都是独立的。该条假设非常的强烈因为它排除了截面依赖性和序列依赖性。近年来具有截面依赖性的面板数据模型引起了越来越多的关注,不过在此处,依然保持界面独立性的假设。
1.1.3. 随机效应假设RE.2$Rank(EX_i’\Omega X_i)=k$,其中$\Omega=E(\varepsilon_i\varepsilon_i’|X_i)$且$\varepsilon_i=(\varepsilon_{i1},\cdots,\varepsilon_{iT})’$。
1.1.4. 随机效应假设RE.3$E(\alpha_i^2|X_i)=\sigma_{\alpha}^2$,$E(\alpha_iu_i|X_i)=0$,且$E(u_iu_i’|X_i)=\sigma_u^2I_T$。
时不变随机效应$\alpha_i$的存在意味着连续未观测的异质性和方差稳定结构的存在,即
\begin{equation}
E(\varepsilon_{it}\varepsilon_{js}|X_i)=\left\{
\begin{array}{lr}
\sigma_{\alpha}^2+\sigma_u^2&(i=j)\&(t=s)\\
\sigma_{\alpha}^2& (i=j)\&(t\neq s)\\
0& i\neq j
\end{array}
\right.
\end{equation}
误差组成结构意味着在误差项中序列相关的存在。因此OLS估计量在这个模型中并不是BLUE的,且协方差矩阵将不等于$\sigma^2(X’X)^{-1}$。
在假设RE.3的条件下有
\begin{equation}
\begin{aligned}
\Omega &=\left(\begin{array}{cccc}
\sigma_{\alpha}^{2}+\sigma_{u}^{2} & \sigma_{\alpha}^{2} & \cdots & \sigma_{\alpha}^{2} \\
\sigma_{\alpha}^{2} & \sigma_{\alpha}^{2}+\sigma_{u}^{2} & \cdots & \sigma_{\alpha}^{2} \\
\vdots &\vdots & \ddots & \vdots\\
\sigma_{\alpha}^{2} & \sigma_{\alpha}^{2} &\cdots & \sigma_{\alpha}^{2}+\sigma_{u}^{2}
\end{array}\right) \\
&=\sigma_{u}^{2} I_{T}+\sigma_{\alpha}^{2} J_{T}
\end{aligned}
\end{equation}
其中$I_T$是$T\times T$维的单位矩阵,$J_T$为$T\times T$维的元素全为1的方正。有时为了方便将上式改写为:$\Omega=\sigma_u^2(I_T-J_T/T)+(\sigma_u^2+T\sigma_{\alpha}^2)\frac{J_T}{T}=\sigma_u^2Q_T+(\sigma_u^2+T\sigma_{\alpha}^2)P_T$。其中$Q_T=(I_T-J_T/T)$且$P_T=J_T/T$。
注意到此时有$E(\varepsilon\varepsilon’|X)=I_N\otimes\Omega$,此时GLS的估计量为
\begin{equation}
\begin{aligned}
\hat{\beta}_{REGLS}=&[X'(I_N\otimes\Omega)^{-1}X]^{-1}[X'(I_N\otimes\Omega)^{-1}Y] \\
=&[X'(I_N\otimes\Omega^{-1})X]^{-1}[X'(I_N\otimes\Omega^{-1})Y]
\end{aligned}
\end{equation}
而
\begin{equation}
\begin{aligned}
X'(I_N\otimes\Omega^{-1})X=&X^{\prime}\left(\begin{array}{cccc}
\Omega^{-1} & 0 & \cdots & 0 \\
0 & \Omega^{-1} & \cdots & 0 \\
\vdots & \vdots& \ddots & \vdots \\
0 &0 &\cdots & \Omega^{-1}
\end{array}\right)\left(\begin{array}{c}
X_{1} \\
X_{2} \\
\vdots \\
X_{N}
\end{array}\right) \\
=&\left(X_{1}^{\prime}, X_{2}^{\prime}, \cdots, X_{N}^{\prime}\right)\left(\begin{array}{c}
\Omega^{-1} X_{1} \\
\Omega^{-1} X_{2} \\
\vdots \\
\Omega^{-1} X_{N}
\end{array}\right) \\
=& \sum_{i=1}^{N} X_{i}^{\prime} \Omega^{-1} X_{i}
\end{aligned}
\end{equation}
同样地可以得到$X'(I_N\otimes\Omega^{-1})Y=\sum_{i=1}^NX_i’\Omega^{-1}y_i$。因此随机效应模型的广义最小二乘估计量还可以写为如下形式:
\begin{equation}
\label{eq:2.15}
\hat{\beta}_{REGLS}=\left(\sum_{i=1}^NX_i’\Omega^{-1}X_i\right)^{-1}\left(\sum_{i=1}^NX_i’\Omega^{-1}y_i\right)
\end{equation}
1.1.5. 渐进性质GLS估计量有以下渐进性质:
- 在假设RE.1和假设RE.2下,GLS估计量是一致的
- 在假设RE.1,RE.2和假设RE.3下,GLS估计量在线性模型下是有效的且无偏的
式\eqref{eq:2.15}中的估计量是不可行的,与经典的GMM设定一样,我们将$\Omega$替换为$I_T$以获得一个初始一致的估计量$\beta$。这个估计量是混合OLS估计量(pooled OLS estimator)。
\begin{equation}
\begin{aligned}
\hat{\beta}_{OLS}=&\left(\sum_{i=1}^NX_i’X_i\right)^{-1}\left(\sum_{i=1}^NX_i’y_i\right) \\
=&\sum_{i=1}^N\left(\sum_{j=1}^NX_j’X_j\right)^{-1}X_i’X_i(X_i’X_i)^{-1}X_i’y_i\\
=&\sum_{i=1}^NW_i(X_i’X_i)^{-1}X_i’y_i=\sum_{i=1}^NW_i\hat{\beta}_{OLS}^{(i)}
\end{aligned}
\end{equation}
其中$W_i=\left(\sum_{j=1}^NX_j’X_j\right)^{-1}X_i’X_i$,且$\hat{\beta}_{OLS}^{(i)}=(X_i’X_i)^{-1}X_i’y_i$,其是仅仅使用个体i的时间序列观测值得出的OLS估计量。结合$\hat{\beta}_{OLS}$,我们可以建立$\sigma_{\alpha}^2$和$\sigma_u^2$。例如,$\sigma_{\varepsilon}^2=\sigma_{\alpha}^2+\sigma_u^2$可以被估计如下:
\begin{equation}
\hat{\sigma}_{\varepsilon}^{2}=\frac{1}{N T-k} \sum_{i=1}^{N} \sum_{t=1}^{T}\left(y_{i t}-x_{i t} \hat{\beta}_{O L S}\right)^{2}
\end{equation}
实际上,$\sigma_{\alpha}^2$也许不是正的,一个$\sigma_{\alpha}^2$的负值很可能表示$u_{it}$中的负相关性,这意味着我们的一个假设被违背了。
在假设RE.1,RE.2和RE.3下,$\hat{\beta}$是渐进等于可行的GLS估计量$\hat{\beta}_{GLS}$。
求解矩阵$\Omega$或$V$的逆可能是存在巨大的工作量,其中
\begin{equation}
V=E\varepsilon\varepsilon’=I_N\otimes\Omega=\sigma_u^2(I_N\otimes I_T)+\sigma_{\alpha}^2(I_N\otimes J_T)
\end{equation}
幸运的是我们有$V^{-1}$的表达式,令$P=I_N\otimes\bar{J}_T$,其中$\bar{J}=J_T/T$,$Q=I_{NT}-P$。那么有$P’=P,P^2=P,Rank(P)=Trace(P)=N$和$Q’=Q,Q^2=Q,Rank(Q)=Trace(Q)=NT-N$,因为P和Q为幂等阵。
注意到,矩阵P是每个个体观测值的取平均,而矩阵Q是去平均算子,它可以去除一个向量或者矩阵的“组内”均值。更具体的为:
\begin{equation}
P X=\left(\begin{array}{c}
\bar{X}_{1} \\
\bar{X}_{2} \\
\vdots \\
\bar{X}_{N}
\end{array}\right), Q X=\left(\begin{array}{c}
X_{1}-\bar{X}_{1} \\
X_{2}-\bar{X}_{2} \\
\vdots \\
X_{N}-\bar{X}_{N}
\end{array}\right) \text { and } \bar{X}_{i}=\left(\begin{array}{c}
\frac{1}{T} \sum_{t=1}^{T} x_{i t} \\
\frac{1}{T} \sum_{t=1}^{T} x_{i t} \\
\vdots \\
\frac{1}{T} \sum_{t=1}^{T} x_{i t}
\end{array}\right)
\end{equation}
此时V可以表示如下:
\begin{equation}
\begin{aligned}
V=&\sigma_u^2(I_N\otimes I_T)+\sigma_{\alpha}^2(I_N\otimes J_T) \\
=&\sigma_u^2(P+Q)+T\sigma_{\alpha}^2P\\
=&(T\sigma_{\alpha}^2+\sigma_u^2)P+\sigma_u^2Q \\
=&\sigma^{1/2}P+\sigma_u^2 Q
\end{aligned}
\end{equation}
而$V^{-1}=\sigma_1^{-2}P+\sigma_u^{-2}Q$,因为$(\sigma_1^{-2}P+\sigma_u^{-2}Q)(\sigma_1^2P+\sigma_u^2Q)=P+0+0+Q=I_{NT}$。事实上,此时$V^r=\sigma_1^{2r}P+\sigma_u^{2r}Q$,特别地,当$r=1/2$时,有$V^{-1/2}=\sigma_1^{-1}P+\sigma_u^{-1}Q$。如果我们将$\sigma_uV^{-1/2}=(\sigma_u/\sigma_1)P+Q$左乘到回归模型$y=X\beta+\varepsilon$中则有
\begin{equation}
\label{eq:2.36}
(y_{it}-\theta\bar{y}_{i\cdot})\beta+(\varepsilon_{it}-\theta\bar{\varepsilon}_{i\cdot})
\end{equation}
其中$\theta=1-\sigma_u/\sigma_1$。误差项$(\varepsilon_{it}-\theta\bar{\varepsilon}_{i\cdot})$是不相关的且对于所有的i和t有相同的方差。注意到$\varepsilon_{it}-\theta\bar{\varepsilon}_{i\cdot}$的方差是$\sigma_u^2$,所以如果OLS估计量是基于上述回归模型的话,则其为BLUE的。
有效估计量的一个替代方法为,首先引入式\eqref{eq:2.36}的转换形式,然后对于$t\neq s$在$X_i$的条件下确定$\theta$的值,因为$(\varepsilon_{it}-\theta\bar{\varepsilon}_{i\cdot})$与$(\varepsilon_{is}-\theta\bar{\varepsilon}_{i\cdot})$不相关。
1.2. 固定效应模型
在这里,我们还是考虑线性不可观测效应模型
\begin{equation}
y_{it}=x_{it}\beta+\alpha_i+u_{it}
\end{equation}
不过,此时我们假设$x_{it}$和$\alpha_i$时相关的。在这种情况下,随机效应模型估计量是有偏的。在固定效应模型下,我们仍然需要作如下假设。
1.2.1. 固定效应模型假设 FE.1$E(u_{it}|X_i,\alpha_i)=0$。如果$x_{it}$包含一些时不变变量,那么我们无法识别这些时不变变量对于$y_{it}$的影响;也就是说对于个体,种族和性别等因素不可以被包括在$x_{it}$内;对于企业,所属行业也不能被包括在$x_{it}$内;其唯一的要求是$x_{it}$的每个元素在某些横截面单元中随着时间变化.
那么该如何得出固定效应模型的估计量,一个思路是对方程进行变换以消除未观察到的效应。可以有以下几种方式实现此目的。回想一下,我们已经使用了“一阶差分”对于一个两阶段模型。现在可以考虑固定效应模型的转换,也被称为组内变换。
对方程$y_{it}=x_{it}\beta+\alpha_i+u_{it}$在t上求平均值,可以得到
\begin{equation}
\label{eq:2.39}
\bar{y}_i=\bar{x}_i\beta+\alpha_i+\bar{u}_i
\end{equation}
从模型方程$y_{it}=x_{it}+\alpha_i+u_{it}$中减去上式可以得到$y_{it}-\bar{y}_i=(x_{it}-\bar{x})\beta+(u_{it}-\bar{u}_i)$
\begin{equation}
\label{eq:2.40}
\ddot{y}_{i t}=\ddot{x}_{i t} \beta+\ddot{u}_{i t}
\end{equation}
用矩阵的形式表示式\eqref{eq:2.39}和式\eqref{eq:2.40}即分别为
\begin{equation}
\label{eq:2.41}
Py=PX\beta+P\varepsilon
\end{equation}
和
\begin{equation}
\label{eq:2.42}
Qy=QX\beta+Qu
\end{equation}
注意到$E(u_{it}-\bar{u}_i)(x_{it}-\bar{x}_i)=0$或者说更严格的正交条件$E((u_{it}-\bar{u}_i)|(x_{is}-\bar{x}_i))=0,\forall t,s$,所以OLS估计量是一致和无偏的。但是需要注意到,单个假设$E(u_{it}|x_{it},\alpha_i)=0$不能够确保上述条件的成立。
1.2.2. 固定效应模型假设FE.2识别条件$rank(E(X’QX))=k$。
\begin{equation}
\begin{aligned}
\hat{\beta}_{F E} &=\left(\sum_{i=1}^{N} \sum_{t=1}^{T}\left(x_{i t}-\bar{x}_{i}\right)^{\prime}\left(x_{i t}-\bar{x}_{i}\right)\right)^{-1} \sum_{i=1}^{N} \sum_{t=1}^{T}\left(x_{i t}-\bar{x}_{i}\right)^{\prime}\left(y_{i t}-\bar{y}_{i}\right) \\
&=\left(X^{\prime} Q X\right)^{-1}\left(X^{\prime} Q Y\right)
\end{aligned}
\end{equation}
需要注意到此时的自由度是$N(T-1)-k$。
为什么不用GLS估计方法来估计式\eqref{eq:2.42}?注意到$E(u_iu_i’|x_i,\alpha_i)=\sigma_{u}^2I_T$,所以扰动项方差化简为$EQuu’Q’=\sigma_u^2QQ’=\sigma_u^2Q$。此时GLS估计量为
\begin{equation}
(X’QQ^{-}QX)^{-1}(X’Q’Q^-Qy)=(X’QX)^{-1}(X’QY)=\hat{\beta}_{FE}
\end{equation}
式中$Q^{-}$是Q的广义逆矩阵,满足$Q’Q^-Q=Q$。所以GLS估计量和OLS估计量是一样的,利用GLS估计量效率并没有提高。
此处补充一个Kruskal定理,如果满足
\begin{equation}
\mathop{Vx}_{NT\times NT,NT\times K}=\mathop{xA}_{NT\times k,k\times k}
\end{equation}
对于一些矩阵A成立,则OLS=GLS。在前文中,V=Q,x=QX,化简条件$QX=QXA$,可以得到$A=I_k$。
如果我们对式\eqref{eq:2.41}使用OLS模型估计$\beta$,那么我们可以得到组间估计量$\hat{\beta}_{BE}=(X’PX)^{-1}(X’PY)$,此时$\hat{\beta}_{BE}$在固定效应假设下是不一致的,因为$\bar{x}_i$和$\alpha_i$彼此相关;但是,它在随机效应假设下是一致的,但是不是有效的,因为它在数据集中放弃了时间序列的信息。
我们保持以下假设
1.2.3. 固定效应模型假设FE.3$E(u_iu_i’|x_i,\alpha_i)=\sigma_u^2I_T$。此时可以得到
\begin{equation}
\hat{\beta}_{FE}-\beta=(X’QX)^{-1}(X’Qu)
\Rightarrow N(0,\sigma_u^2(EX’QX)^{-1})
\end{equation}
而固定效应的残差为
\begin{equation}
\begin{aligned}
\hat{u} &=Q y-Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime} Q y \\
&=Q X \beta+Q u-Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime}(Q X \beta+Q u) \\
&=Q u-Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime} Q u \\
&=\left(I-Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime}\right) Q u
\end{aligned}
\end{equation}
注意到
\begin{equation}
\begin{aligned}
\hat{u}^{\prime} \hat{u} &=u^{\prime} Q\left(I-Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime}\right) Q u \\
&=u^{\prime} Q u-u^{\prime} Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime} u
\end{aligned}
\end{equation}
所以有
\begin{equation}
\begin{aligned}
E \hat{u}^{\prime} \hat{u} &=E u^{\prime} Q u-E u^{\prime} Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime} u \\
&=E \operatorname{tr} Q u u^{\prime}-E \operatorname{tr} Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime} u u^{\prime} \\
&=N(T-1) \sigma_{u}^{2}-\operatorname{tr}\left(Q X\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q^{\prime}\right) \sigma_{u}^{2} \\
&=(N(T-1)-k) \sigma_{u}^{2}
\end{aligned}
\end{equation}
此时,可以得到$\sigma_u^2$的一个无偏估计量为
\begin{equation}
\hat{\sigma}_u^2=\frac{SSR}{N(T-1)-k}
\end{equation}
如果我们遇到非平衡面板会是什么样?在这种情况下令$Q_i=Q_{T_i}$为个体i的去均值矩阵,那么
\begin{equation}
\hat{\beta}_{F E}=\left(\sum_{i=1}^{N} X_{i}^{\prime} Q_{i} X_{i}\right)^{-1}\left(\sum_{i=1}^{N} X_{i}^{\prime} Q_{i} Y_{i}\right)
\end{equation}
此时可以得到
\begin{equation}
\begin{aligned}
\hat{u}_{i} &=Q_{i} Y_{i}-Q_{i} X_{i} \hat{\beta}_{F E}=Q_{i} Y_{i}-Q_{i} X_{i}\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j} X_{j}\right)^{-1}\left(\sum_{i=1}^{N} X_{j}^{\prime} Q_{j} Y_{j}\right) \\
&=Q_{i} u_{i}-Q_{i} X_{i}\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j} X_{j}\right)^{-1}\left(\sum_{i=1}^{N} X_{j}^{\prime} Q_{j} u_{j}\right)
\end{aligned}
\end{equation}
所以有
\begin{equation}
\begin{aligned}
\sum_{i=1}^{N} E \hat{u}_{i}^{\prime} \hat{u}_{i}=& \sum_{i=1}^{N} E\left[u_{i}^{\prime} Q_{i}-\left(\sum_{i=1}^{N} u_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)^{-1} X_{i}^{\prime} Q_{i}^{\prime}\right] \\
& \times\left[Q_{i} u_{i}-Q_{i} X_{i}\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j} X_{j}\right)^{-1}\left(\sum_{i=1}^{N} X_{j}^{\prime} Q_{j} u_{j}\right)\right] \\
=& \sum_{i=1}^{N} \sigma_{u}^{2} \operatorname{tr}\left(Q_{i}\right)-\sum_{i=1}^{N} E u_{i}^{\prime} Q_{i} X_{i}\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j} X_{j}\right)^{-1}\left(\sum_{i=1}^{N} X_{j}^{\prime} Q_{j} u_{j}\right) \\
&-E\left(\sum_{i=1}^{N} u_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)^{-1} \sum_{i=1}^{N} X_{i}^{\prime} Q_{i}^{\prime} u_{i} \\
&+E\left(\sum_{i=1}^{N} u_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)\left(\sum_{j=1}^{N} X_{j}^{\prime} Q_{j}^{\prime} X_{j}\right)^{-1}\left(\sum_{i=1}^{N} X_{j}^{\prime} Q_{j} u_{j}\right) \\
=& \sigma_{u}^{2}\left[\sum_{i=1}^{N}\left(T_{i}-1\right)-k\right] .
\end{aligned}
\end{equation}
$\sigma_u^2$的一个无偏估计量如下
\begin{equation}
\hat{\sigma}_u^2=\frac{\sum_{i=1}^NE\hat{u}_i’\hat{u}_i}{\sum_{i=1}^N(T_i-1)-k}
\end{equation}
传统的固定效应估计量的方法需要和$\beta$一起考察$\alpha_i$的参数估计值,那么如何来估计$\alpha_i$呢?
\begin{equation}
\hat{\alpha}_i=\bar{y}_i-\bar{x}_i\hat{\beta}_{FE}
\end{equation}
我们可以使用最小二乘虚拟变量(LSDV)估计,如果$i=j$则定义$d_{ij}=1$,反之则定义$d_{ij}=0$。令
\begin{equation}
d_{i}=\left(\begin{array}{c}
d_{i 1} \\
d_{i 2} \\
\vdots \\
d_{i N}
\end{array}\right)^{\prime}, \alpha=\left(\begin{array}{c}
\alpha_{1} \\
\alpha_{2} \\
\vdots \\
\alpha_{N}
\end{array}\right)
\end{equation}
注意到,$d_i\alpha=\alpha_i$所以
\begin{equation}
\begin{aligned}
y_{it}=&x_{it}\beta+d_i\alpha+u_{it}\\
=&(x_{it},d_i)
\begin{pmatrix}
\beta\\\alpha
\end{pmatrix}+u_{it}\\
=&z_{it}\gamma+u_{it}
\end{aligned}
\end{equation}
因此,线性模型还原为一般的形式。$\alpha$和$\beta$之间存在区别:固定T使$N\to\infty$,则$\hat{\beta}_{FE}$是一致的;$\hat{\alpha}_i$是$\alpha_i$的无偏估计量,但是固定T的情况下并不是一致的;同时也会存在偶然参数问题。
1.3. 一阶差分模型
滞后一期$y_{it}=x_{it}+\alpha_i+u_{it}$并从该式中减去可以得到
\begin{equation}
\Delta y_{it}=\Delta x_{it}\beta+\Delta u_{it}
\end{equation}
一阶差分(FD)估计量就是对上式模型进行混合回归。
1.3.1. 一阶差分模型假设FD.1和固定效应模型假设FE.1一样,在这个假设下,我们有$E(\Delta u_{it}|\Delta x_{i2},\Delta x_{i3},\cdots,\Delta x_{iT})=0$,所以$\hat{\beta}_{FD}$是一致的且无偏的,注意到
\begin{equation}
\begin{aligned}
\Delta x_{i t} \Delta u_{i t} &=\left(x_{i t}-x_{i t-1}\right)\left(u_{i t}-u_{i t-1}\right) \\
&=x_{i t} u_{i t}-x_{i t-1} u_{i t}-x_{i t} u_{i t-1}+x_{i t-1} u_{i t-1}
\end{aligned}
\end{equation}
所以当$u_{it}$与$x_{it-1}$,$x_{it}$或$x_{it+1}$相关时,$E\Delta x_{it}\Delta u_{it}$也许不等于零。
1.3.2. 一阶差分模型假设FD.2$Rank(\sum_{t=2}^TE\Delta x_{it}\Delta x_{it}’)=k$。需要注意的时,如果堆叠数据,则应该丢弃不同个体之间的差异;在FE假设下,FD估计量没有FE估计量更有效。
1.3.3. 一阶差分模型假设FD.3$Ee_ie_i’=E(\Delta u_i\Delta u_i’|x_i,\alpha_i)=\sigma_{e}^2I_{T-1}$。在假设FD.1-FD.3下,$\hat{\beta}_{FD}$是更有效的估计量;$\widehat{\operatorname{Avar}}\left(\hat{\beta}_{F D}\right)=\hat{\sigma}_{e}^{2}\left(\Delta X^{\prime} \Delta X\right)^{-1}, \hat{\sigma}_{e}^{2}=1 /(N T-N-k) \sum_{i=1}^{N} \sum_{t=2}^{T} \hat{e}_{i t}^{2}$;$\hat{e}_{i t}=\Delta y_{i t}-\Delta x_{i t} \hat{\beta}_{F D}$。
如果是在固定效应假设FE.3即$E(u_iu_i’|x_i,\alpha_i)=\sigma_u^2I_T$的条件下,则由于$var(\Delta u_{i1},\Delta u_{i2},\cdots,\Delta u_{iT})$不是对角矩阵,所以$\hat{\beta}_{FD}$没有$\hat{\beta}_{FE}$更有效。令
\begin{equation}
D=\left(\begin{array}{ccccc}
-1 & 1 & & & 0 \\
& -1 & 1 & & \\
& & \ddots& \ddots & \\
& & & \ddots & \\
0 & & & -1 & 1
\end{array}\right)_{(T-1) \times T}
\end{equation}
那么
\begin{equation}
\Delta X_i = DX_i,\;\Delta y_i = Dy,\; \Delta u_i=Du
\end{equation}
$\Delta u_i$的方差矩阵为$\sigma_u^2DD’$。基于一阶差分模型$Dy_i=DX_i+Du_i$的GLS估计量为
\begin{equation}
\hat{\beta}_{FD,GLS}=\left\{\sum_{i=1}^NX_i’D'(DD’)^{-1}DX_i\right\}^{-1}\left\{\sum_{i=1}^NX_i’D'(DD’)^{-1}Dy_i\right\}
\end{equation}
注意到$D'(DD’)^{-1}D$是一个投影到D的行空间的投影矩阵。如果$l_T$与D矩阵的行空间是正交的,那么$Dl_T=0$。所以投影到D的行空间等同于投影到与$l_T$正交的空间中,因此
\begin{equation}
D'(DD’)^{-1}D=I_T-l_T(l_T’l_T)^{-1}l_T’
\end{equation}
此时则有结果
\begin{equation}
\hat{\beta}_{FD,GLS}=\hat{\beta}_{FE}
\end{equation}
基于变换形式的模型$(DD’)^{-1/2}Dy_i=(DD’)^{-1/2}DX_i+(DD’)^{-1/2}Du_i$,有必要指出此时$\hat{\beta}_{FD,GLS}$估计量是OLS估计量。一个自然而然的问题是,对于任意的$u_i=(u_{i1},\cdots,u_{iT})’$,$u_i*=(DD’)^{-1/2}Du_i$具体是什么形式?经过运算可以得到
\begin{equation}
u_{it}*=c_t\left[
u_{it}-\frac{1}{T-t}(u_{i\,t+1}+\cdots+u_{iT})
\right]
\end{equation}
其中$c_t^2=(T-t)/(T-t+1)$。将这一转换称为前向正交转换。那么如果$var(u_i)=\sigma_u^2I_T$,那么$var(u_i*)=\sigma_u^2I_{T-1}$。因此可以将前向正交转换作为替代转换,与一阶差分估计量相同,消除了个体效应在转换过程中引入序列相关性。前向转换在动态模型中非常有用。
关于FE估计量和FD估计量的比较。当对于所有的个体都有2期的面板数据而言,两个是相等的。因为$y_{i2}-y_{i1}=2(y_{i2}-1/2(y_{i1}+y_{i2}))$,所以二者在数值上是相等的;当$T>2$时,选择FD还是选择FE主要取决于关于$u_{it}$的假设;当严格外生性假设被违背的时候,FD估计量和FE估计量将具有不同的概率限制;$u_{it}$与$x_{is}$之间的相关性将会导致FD估计量和FE估计量的不一致性。
关于RE估计量和FE估计量之间的比较。注意到$\hat{\beta}_{RE}=(X’V^{-1}X)^{-1}XV^{-1}y$和$V^{-1}=\sigma_1^{-2}P+\sigma_u^{-2}Q$。因此随机效应模型估计量可以作如下变换:
\begin{equation}
\begin{aligned}
\hat{\beta}_{R E}=&\left(\sigma_{1}^{-2} X^{\prime} P X+\sigma_{u}^{-2} X^{\prime} Q X\right)^{-1}\left(\sigma_{1}^{-2} X P y+\sigma_{u}^{-2} X Q y\right) \\
=&\left(\sigma_{1}^{-2} X^{\prime} P X+\sigma_{u}^{-2} X^{\prime} Q X\right)^{-1} \sigma_{1}^{-2} X^{\prime} P X\left(X^{\prime} P X\right)^{-1} X P y \\
&+\left(\sigma_{1}^{-2} X^{\prime} P X+\sigma_{u}^{-2} X^{\prime} Q X\right)^{-1} \sigma_{u}^{-2} X^{\prime} Q X\left(X^{\prime} Q X\right)^{-1} X Q y \\
=& W_{1} \widehat{\beta}_{\text {between }}+\left(I-W_{1}\right) \widehat{\beta}_{\text {within }}
\end{aligned}
\end{equation}
回忆起$\sigma_1^2=T\sigma_{\alpha}^2+\sigma_u^2$。如果$\sigma_{\alpha}^2=0$,那么$\sigma_1^2=\sigma_u^2$。所以$\hat{\beta}_{RE}=(X’X)^{-1}(X’y)=\hat{\beta}_{POLS}$;混合OLS估计量是组内估计量和组间估计量的加权平均,因为
\begin{equation}
\begin{aligned}
\hat{\beta}_{P O L S}=&\left(X^{\prime} X\right)^{-1}\left(X^{\prime} y\right)=\left(X^{\prime}[P+Q] X\right)^{-1}\left(X^{\prime}[P+Q] y\right) \\
=&\left(X^{\prime} P X+X^{\prime} Q X\right)^{-1}\left(X^{\prime} P y+X^{\prime} Q y\right) \\
=&\left\{\left(X^{\prime} P X+X^{\prime} Q X\right)^{-1} X^{\prime} P X\right\}\left(X^{\prime} P X\right)^{-1} X^{\prime} P y \\
&+\left\{\left(X^{\prime} P X+X^{\prime} Q X\right)^{-1} X^{\prime} Q X\right\}\left(X^{\prime} Q X\right)^{-1} X^{\prime} Q y
\end{aligned}
\end{equation}
如果$T\to\infty$,则$\sigma_u/\sigma_1\to 0$。所以$\hat{\beta}_{RE}\to\hat{\beta}_{within}=\hat{\beta}_{FE}$;如果$\sigma_{\alpha}^2\to\infty$,$\hat{\beta}_{RE}\to\hat{\beta}_{within}=\hat{\beta}_{FE}$。$\sigma_{\alpha}^2$越大,则$\hat{\beta}_{RE}$与$\hat{\beta}_{FE}$越接近;$asymVar(\hat{\beta}_{RE})=(\sigma_1^{-2}X’PX+\sigma_u^{-2}X’QX)^{-1}$且$asymVar(\hat{\beta}_{within})=(\sigma_u^{-2}X’QX)^{-1}$。因此,$asymVar(\hat{\beta}_{RE})\leq asymVar(\hat{\beta}_{within})$。
1.4. 稳健方差矩估计
当N很大固定T的情况。可以通过在混合回归$\tilde{y}_{it}=\tilde{x}_{it}\beta+\tilde{\varepsilon}_{it}$中的OLS估计获得前面所属的面板估计量。其中$\tilde{y}_{it},\tilde{x}_{it}$是FE估计量和RE估计量中的$y_{it}$和$x_{it}$去均值版或拟去均值版本。
所有的面板数据估计量可以改写成以下的形式
\begin{equation}
\begin{aligned}
\tilde{\beta}-\beta &=\left(\sum_{i=1}^{N} \sum_{t=1}^{T} \tilde{x}_{i t}^{\prime} \tilde{x}_{i t}\right)^{-1} \sum_{i=1}^{N} \sum_{t=1}^{T} \tilde{x}_{i t}^{\prime} \tilde{\varepsilon}_{i t} \\
&=\left(\sum_{i=1}^{N} \sum_{t=1}^{T} \tilde{x}_{i t}^{\prime} \tilde{x}_{i t}\right)^{-1} \sum_{i=1}^{N} v_{i}
\end{aligned}
\end{equation}
其中$v_i=\sum_{t=1}^T\tilde{x}_{it}’\tilde{\varepsilon}_{it}$。为了得出异质性和自相关的渐进方差,我们注意到,在某些条件下,例如某些$S_{XX}$有
\begin{equation}
p\lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\tilde{x}_{it}’\tilde{x}_{it}=TS_{XX}
\end{equation}
在截面独立性的条件下
\begin{equation}
\frac{1}{\sqrt{N}} \sum_{i=1}^{N} v_{i} \rightarrow_{d} N\left(0, T S_{X \varepsilon}\right)
\end{equation}
其中
$
S_{X \varepsilon}=p \lim _{N \rightarrow \infty} \frac{1}{N T} \sum_{i=1}^{N} E\left(v_{i} v_{i}^{\prime}\right)
$
所以可以得到
\begin{equation}
asymVar(\sqrt{N}(\hat{\beta}_{FE}-\beta))=\frac{1}{T}S_{XX}^{-1}S_{X\varepsilon}S_{XX}^{-1}
\end{equation}
其中,$S_{XX}$和$X_{X\varepsilon}$可以被一致估计:$\hat{S}_{X X}=\frac{1}{N T} \sum_{i=1}^{N} \sum_{t=1}^{T} \tilde{x}_{i t}^{\prime} \tilde{x}_{i t}$,
\begin{equation}
\begin{aligned}
\hat{S}_{X \varepsilon} &=\frac{1}{N T} \sum_{i=1}^{N} \sum_{t=1}^{T} \sum_{s=1}^{T} \tilde{x}_{i t}^{\prime} \tilde{\varepsilon}_{i t}^{e s t} \tilde{\varepsilon}_{i s}^{e s t} \tilde{x}_{i s} \\
&=\frac{1}{N T} \sum_{i=1}^{N} \tilde{X}_{i}^{\prime} \tilde{\varepsilon}_{i}^{e s t}\left(\tilde{\varepsilon}_{i}^{e s t}\right)^{\prime} \tilde{X}_{i}
\end{aligned}
\end{equation}
其中$\tilde{\varepsilon}_{it^{est}}$为估计的残差。上述的估计量被成为集群标准误(clustered standard error);需要大N来提供良好的方差估计量;上述的方差公式是有效的,无论异质性还是自相关性如何;上述公式的有效性取决于横截面独立性假设。
当N很小T很大的情况。当$T\to\infty$时,上述的公式是否还正确呢?考虑一个特殊的情况$\tilde{x}_{it}=x_{it}-\bar{x}_{i\cdot}$,我们假设
\begin{equation}
\frac{1}{\sqrt{T}} \sum_{t=1}^{T}\left(x_{i t}-x_{i, \cdot}\right)^{\prime}\left(u_{i t}-\bar{u}_{i, \cdot}\right) \rightarrow^{d} \xi_{i} \sim N(0, V)
\end{equation}
其中
\begin{equation}
V=V_{i}=\lim _{T \rightarrow \infty} \operatorname{var}\left[\frac{1}{\sqrt{T}} \sum_{t=1}^{T}\left(x_{i t}-x_{i, \cdot}\right)^{\prime}\left(u_{i t}-\bar{u}_{i, \cdot}\right)\right] \text { for all } i \text {. }
\end{equation}
且统计量$\xi_{i}$关于i时独立同分布的,同时有
$
[\frac{1}{T} \sum_{t=1}^{T}(x_{i t}-x_{i, \cdot})^{\prime}(x_{i t}-\bar{x}_{i, \cdot})][\frac{1}{T} \sum_{i=1}^{N} \sum_{t=1}^{T}(x_{i t}-x_{i \cdot})^{\prime}(x_{i t}-\bar{x}_{i \cdot})]^{-1}=\frac{1}{N}+o_{p}(1)
$