识别和估算具有群体交互作用、背景因素和固定效应的计量经济学模型

\newtheorem{prop}{命题} \newtheorem{defn}{假设} \newtheorem{cor}{推论}
摘要. 本文探讨了社会互动模型中结构互动效应的识别和估计问题。该模型允许群体结构中的不可观测因素,这些因素可能与所包含的回归因子相关。我们的研究表明,如果群体规模有足够的变化,内生和外生的交互效应都可以被识别出来。我们考虑用条件最大似然法和工具变量法来估计模型。对于群体规模较大的情况,可能的识别能力较弱,即估计值在分布上的收敛率较低。
1. 引言 本文所考虑的社会互动模型与空间计量经济模型有重要联系。典型的空间自回归(SAR)模型如下 \begin{equation}\label{eq:1.1} Y_n=\lambda_0 \mathscr{W}_n Y_n+X_n \beta_0+\mathscr{E}_n \end{equation} 其中,$\mathscr{E}_n$是一个 n 维向量,由 i.i.d.,均值为零,方差为$\delta_0^2$的扰动项组成。在该模型中,$X_n$是一个$n{\times}k$维度的回归系数矩阵,$\mathscr{W}_n$是指定的空间权重常数矩阵,对角线为零(Cliff 和 Ord,1973 年)。 在城市和区域经济研究中,一个区域、一个区或一个县可以是一个空间单位,其在$\mathscr{W}_n$中的相邻单位是根据一定的物理或经济距离定义的。\eqref{eq:1.1} 中的等式意味着$Y_n$的元素应在给定$x$和扰动$\varepsilon$的情况下同时确定为 \begin{equation}\label{eq:1.2} Y_n=\left(I_n-\lambda_0 \mathscr{W}_n\right)^{-1} X_n \beta_0+\left(I_n-\lambda_0 \mathscr{W}_n\right)^{-1} \mathscr{E}_n \end{equation} 该模型还可应用于劳动经济学和社会研究–即所谓的新社会经济学(Durlauf 和 Young,2001 年)。在这些研究中,空间单位可以是属于一个社会群体的个人。一个群体中的个体可以相互影响,但通常与其他群体的成员没有相互关系。假设有 $ R $ 个群体,第 $ r $ 个群体中有 $ m_r $ 个单位。典型的群体互动模型$\mathscr{W}_n$ 是一个对角分块矩阵,即 \begin{equation}\label{eq:1.3} \mathscr{W}_n=\operatorname{Diag}\left(W_1, \ldots, W_R\right), \quad W_r=\frac{1}{m_r-1}\left(l_{m_r} l_{m r}^{\prime}-I_{m_r}\right), \quad r=1, \ldots, R \end{equation} 其中,$ l_{m_r} $ 是 $ m_r $ 维的全为1的列向量,$ I_{m_r} $是 $ m_r $维的同一矩阵。关于群体互动的实证研究有 Case(1991,1992)关于消费模式和技术采用的研究、Betrand 等人(2000)关于福利文化的研究、Sacrerdote(2001)和 Hanushek 等人(2003)关于学生成绩的研究等。 在 SAR 模型中,社会交往的影响直接以观察到的群体结果 $ y $ 来建模。\eqref{eq:1.1} 中的参数 $ l $ 反映了同伴成就的同期和互惠效应。由于具有交互作用的群体效应模型可能会对政策产生影响,研究者们指出了群体效应 模型在典型空间模型之外的各种重要的规范问题。Manski (1993)、Brock 和 Durlauf (2001) 以及 Moffitt (2001)指出,对同伴影响的实证分析一直受到概念和数据问题的制约。Manski (1993) 和 Brock and Durlauf (2001)将互动效应分为内生效应和外生(背景)效应。内生效应指的是同伴的同期和互惠影响。情境效应包括不受当前行为影响的同伴测量。Manski (1993) 考虑了一个群体效应模型,在该模型中,社会互动是以预期结果来建模的,而预期结果则是社会均衡的解决方案。Manski 指出,他的社会效应模型存在一些难以识别的问题,因为社会均衡的预期结果可能线性取决于模型中观察到的群体外生变量–“反射 “问题。反映问题是指难以区分行为因素和环境因素。另一个主要问题是群体中可能存在的非观测变量,因为群体中的非观测变量可能会对观测结果产生直接影响。这些不可观测因素还可能导致群体中不同个体之间的总干扰相互关联。Moffitt 的批评尤其具有相关性,因为他的讨论是针对 \eqref{eq:1.1} 中具有群体结构的 SAR 模型提出的。Moffitt (2001) 认为,群体交互效应的基本识别问题是如何区分群体内部产生的结果相关性,即来自于社会互动的相关性与其他原因(尤其是相关的非观测变量)造成的相关性之间的关系。 [1] 在本文中,我们将 SAR 模型视为一个具有内生群体交互作用和背景因素的群体效应模型,并允许群体中存在相关的不可观测因素作为固定效应。当群体成员人数较多时,该模型与 Manski 内生效应模型非常相似。即便如此,具有群体交互作用的 SAR 模型仍有一个显著特点,即可以识别社会效应。在曼斯基的社会效应模型中,社会效应的识别是通过平均回归函数进行的,在他的设定中,社会互动产生的干扰不存在相关性。对于 SAR 模型,(1.1)中空间效应 $\lambda $ 的识别可以基于两个来源。一个是\eqref{eq:1.2}中的均值回归函数$\mathrm{E}\left(Y_n \mid X_n\right)=\left(I_n-\lambda_0 \mathscr{W}_n\right)^{-1} X_n$,另一个是由于$\left(I_n-\lambda_0 \mathscr{W}_n\right)^{-1} \mathscr{E}_n$中干扰的相关分布。我们将证明,如果结构模型中的群体规模有足够的变化,交互效应的识别是可能的。我们对识别条件进行了描述。 [2] 然而,当存在大量群体交互作用时,即使识别是可能的,识别效果也可能很弱。我们考虑了估计以及强识别和弱识别特征对可能估计值的影响。 [3] 2. 带有组间交互作用和固定效应的SAR模型 带有空间情景\eqref{eq:1.3}的模型\eqref{eq:1.1}具有明确的群体结构。为了捕捉可能对群体中 $ y $ 的结果产生共同影响的非观测变量,我们在模型\eqref{eq:1.1}中加入了固定效应$\alpha_r$ 和额外的解释成分$W_rX_{r_2} $,以反映背景效应: \begin{equation}\label{eq:2.1} Y_r=\lambda_0 W_r Y_r+X_{r 1} \beta_{10}+W_r X_{r 2} \beta_{20}+l_{m_r} \alpha_r+\varepsilon_r, \quad r=1, \ldots, R \end{equation} 其中,$ Y_r $ 、$ X_{r1} $ 和 $ X_{r2} $ 是第 $ r $ 组中$ m_r $ 观测数据的向量和矩阵,或者等价于第 $ r $ 组中每个单位 $ i $ 的观测数据, \begin{equation}\label{eq:2.1′} y_{r i}=\lambda_0\left(\frac{1}{m_r-1} \sum_{j=1, j \neq i}^{m_r} y_{r j}\right)+x_{r i, 1} \beta_{10}+\left(\frac{1}{m_r-1} \sum_{j=1, j \neq i}^{m_r} x_{r j, 2}\right) \beta_{20}+\alpha_r+\varepsilon_{r i}, \end{equation} 其中,$ y_{ri} $ 是第 $ r $ 组中的第 $ i $ 个个体,$ x_{ri,1} $ 和 $ x_{ri,2} $ 分别是外生变量的 $ k_1 $ 维和 $ k_2 $ 维行向量,$\varepsilon_{r i}$ 为 i.i.d. $(0,\delta_0^2)$。在模型中,单位 $ i $ 的结果可能会受到其他单位结果的影响,这种影响由参数 $ \lambda_0 $ 表示。 \footnote{使用第 $ i $ 个单位的平均值$\frac{1}{m_r-1} \sum_{j=1, j \neq i}^{m_r} y_{r j}$(不包括 yri)而不是平均值$\frac{1}{m_r} \sum_{j=1}^{m_r} y_{r j}$是有意义的,因为第 $ i $ 个单位的结果 $ y_{ri} $ 不会受其自身结果的影响。} $\alpha_r$代表第$r$组的不可观测因素。由于这些非观测变量可能与外生变量相关,因此它们被视为固定效应。所有外生变量 $ x_{ri} $的矢量都必须因群体中的个体而异,因为任何群体不变变量都将包含在$\alpha_r$中。在一般情况下,$ x_{ri,1} $和$ x_{ri,2} $ 是 $ x_{ri} $的子向量,它们可能有共同元素,也可能没有。引入的变量$\sum_{j=1,j\neq i}^{m_r}x_{ri,2}$,即$W_rX_{r2}$,可以通过观测到的邻里特征产生社会互动效应。邻里特征经常被用于邻里效应的实证研究中,例如,Weinberg 等人(2004 年)的回归研究。我们可能会问,这一额外的背景因素是否会影响\eqref{eq:2.1}中结构交互效应$\lambda_0$的识别,尤其是当$ x_{ri,2} $与 $ x_{ri,1} $相同时。 把这个等式分解成两部分,会有启发: \begin{equation}\label{eq:2.2} \left(1-\lambda_0\right) \bar{y}_r=\bar{x}_{r 1} \beta_{10}+\bar{x}_{r 2} \beta_{20}+\alpha_r+\bar{\varepsilon}_r, \quad r=1, \ldots, R \end{equation} 和 \begin{equation}\label{eq:2.3} \begin{aligned} & \left(1+\frac{\lambda_0}{m_r-1}\right)\left(y_{r i}-\bar{y}_r\right)=\left(x_{r i, 1}-\bar{x}_{r 1}\right) \beta_{10}-\frac{1}{m_r-1}\left(x_{r i, 2}-\bar{x}_{r 2}\right) \beta_{20}+\left(\varepsilon_{r i}-\bar{\varepsilon}_r\right), \\ & i=1, \ldots, m_r, \quad r=1, \ldots, R, \end{aligned} \end{equation} 其中,̄$\bar{y}_r=\frac{1}{m_r}\sum_{i=1}^{m_r}y_{ri}$,$\bar{x}_{r1}=\frac{1}{m_r}\sum_{i=1}^{m_r}x_{ri,1}$和$\bar{x}_{r2}=\frac{1}{m_r}\sum_{i=1}^{m_r}x_{ri,2}$是第 $ r $ 组的平均值。 \footnote{由\eqref{eq:2.1}得出 \eqref{eq:2.2}和\eqref{eq:2.3}的详细推导过程见数学附录。} 公式\eqref{eq:2.2} 可称为 “组间 “方程,\eqref{eq:2.3} 则是 “组内 “方程,因为它们与面板数据回归模型相似(Hsiao,1986)。在简化形式的间方程和内方程中,交互作用可能产生的影响得到了揭示: \begin{equation}\label{eq:2.4} \bar{y}_r=\bar{x}_{r 1} \frac{\beta_{10}}{\left(1-\lambda_0\right)}+\bar{x}_{r 2} \frac{\beta_{20}}{\left(1-\lambda_0\right)}+\frac{\alpha_r}{\left(1-\lambda_0\right)}+\frac{\bar{\varepsilon}_r}{\left(1-\lambda_0\right)}, \quad r=1, \ldots, R \end{equation} 和 \begin{equation}\label{eq:2.5} \begin{aligned} \left(y_{r i}-\bar{y}_r\right)= & \left(x_{r i, 1}-\bar{x}_{r 1}\right) \frac{\left(m_r-1\right) \beta_{10}}{\left(m_r-1+\lambda_0\right)} \\ & -\left(x_{r i, 2}-\bar{x}_{r 2}\right) \frac{\beta_{20}}{\left(m_r-1+\lambda_0\right)}+\frac{\left(m_r-1\right)}{\left(m_r-1+\lambda_0\right)}\left(\varepsilon_{r i}-\bar{\varepsilon}_r\right), \end{aligned} \end{equation} 其中$i=1,\cdots,m_r$;$r=1,\cdots,R$。假设交互作用$\lambda$为正。对于平均组结果̄$\bar{y}$,正的组交互作用会将\eqref{eq:2.4}中̄$\bar{x}_{r1}$和$\bar{x}_{r2}$对̄$\bar{y}_r$的回归效应提高$\frac{1}{1-\lambda_0}$。这也使不同组间̄$\bar{y}_r$(具有相同的̄$\bar{x}_r$的方差增加了$\frac{1}{(1-\lambda)^2}$。 [4] 然而,在$\alpha_r$中存在不可观测变量的情况下,群体交互效应$\lambda$无法通过间方程\eqref{eq:2.4}进行识别,因为它无法从 ar 中分离出来。在存在固定效应$\alpha_r$所代表的不可观测变量的情况下,间方程\eqref{eq:2.4}没有任何自由度来识别(和估计)任何未知参数。可能的识别将依赖于内部方程\eqref{eq:2.5}。正交互作用也会通过其平均回归函数和内部方程的干扰,减小个体结果 $y_{ri}$与群体平均值$\bar{y}_r$ 的偏差。$\lambda_0$的确定将依赖于各组间不同程度的偏差。当不同组的成员人数不同时,就有可能出现这种情况。当所有组的成员数相同时,即所有 $ r $ 的 $m_r$都是一个常数,例如 $ m $,则无法通过内方程识别效应 $\lambda$。这一点很明显,因为只有函数$\frac{(m-1)\beta_{10}}{(m-1+\lambda_0)}$,$\frac{\beta_{20}}{(m-1+\lambda_0)}$和$\frac{(m-1)\delta_0^2}{(m-1+\lambda_0)}$ 可以从\eqref{eq:2.5}中识别出来。 \footnote{如果已知一个群体中的成员会对彼此产生不同的影响,那么我们可以预期,结构更合理的群体权重矩阵$W_{r}$ 而不是\eqref{eq:1.3}中的矩阵可能也会有助于识别。} 在具有固定效应的群体交互模型中,结构参数的可能识别依赖于样本中不同的群体大小。 [5] 这种识别可能很弱,尤其是当群体交互作用较大时。当$m_r$都很大时,因子$(1+\frac{\lambda_0}{m_r-1})$可能接近于 $\lambda_0$,l0 可能不容易从(2.3)中估算出来。在随后的章节中,我们将描述该模型可能的一致估计,以及小群体和大群体交互作用情况下估计值的渐近特性。我们考虑的估计方法是条件极大似然估计方法(CML)和两阶段最小二乘估计方法(2SLS)。最大似然估计法和 2SLS 是估计 SAR 模型(无固定效应)的两种常用方法;参见 Ord (1975) 和 Kelejian and Prucha (1998)。当 mr 都很大时,直观上可以用传统方程$(y_{ri}-\bar{y}_r)=(x_{ri,1}-\bar{x}_{r1})\beta_{10}+(\varepsilon_{ri}-\bar{\epsilon}_r)$近似内方程,并用普通最小二乘法(OLS)估计参数$\beta_{10}$。由于这个传统的内等式对有大量群体交互作用的模型有轻微的规范错误,因此研究这种情况下$\beta_{10}$的 OLS 估计器的特性是很有意义的。我们发现,这个$\beta_{10}$的 OLS 估计值是一致的,但其收敛速率不同于通常的$\sqrt{n}$-收敛速率,而且其速率归一化后的极限分布是退化的。OLS 估计值的这些特征相当令人惊讶。 3. CML估计量 3.1. 条件似然函数和CML估计量(CMLE) 为了分析方便,记作$z_{r i}=\left(x_{r i, 1},-\frac{m}{m_r-1} x_{r i, 2}\right)$,其中$m=\frac{1}{R}\sum_{r=1}Rm_r$是组的平均规模。设$\delta_m=(\beta_1′,\beta_2’/m)’$。总样本量为$n=\sum_{r=1}^Rm_r=Rm$。为了简化重复符号,让$m_r(\lambda)=m_r-1+\lambda$。在$\varepsilon$是正态分布的假设下,则附录中得出的方程\eqref{eq:2.3}的似然函数为 \begin{equation}\label{eq:3.1} \begin{aligned} L_{w, n}(\theta)= & \prod_{r=1}^R \frac{\sqrt{m_r}}{(2 \pi)^{\frac{m_r(0)}{2}}}\left(\frac{m_r(\lambda)}{\sigma m_r(0)}\right)^{m_r(0)} \exp \left\{-\frac{1}{2 \sigma^2}\left(\frac{m_r(\lambda)}{m_r(0)} Y_r^*-Z_r^* \delta_m\right)^{\prime}\right. \\ & \left.\times\left(\frac{m_r(\lambda)}{m_r(0)} Y_r^*-Z_r^* \delta_m\right)\right\}, \end{aligned} \end{equation} 其中$\theta=(\lambda,\beta’,\delta^2)’$,$\beta=(\beta_1′,\beta_2′)’$,$ZZ^*_r=J_rZ_r$,且$Y_r^*=J_rY_r$,其中$J_r=I_{m_r}-\frac{1}{m_r}l_{m_r}l_{m_r}’$。$Z_r^*$和$Y_r^*$ 分别是$z_{ri}$和$y_{ri}$偏离均值的元素矩阵,即 $Z_r^*=(z_{ri}^{*\prime},\cdots,z_{r,m_r}^{*\prime})’$和$Y_r^*=(y_{ri}^{*\prime},\cdots,y_{r,m_r}^{*\prime})’$。对于任何符合$J_r$的向量或矩阵$A_r$,表示$A_r^*=J_rA_r$。为便于参考,附录中收集了一些常用符号。 这个似然函数不涉及任何固定效应$\alpha$。它是以充分统计量$\bar{y}_r,\;r=1,\cdots,R$为条件的整个样本$y_{ri}$的条件似然函数。整个样本$y_{ri}$可以一一对应地转换成观测值$y_{ri}-\bar{y}_r$,其中$i=1,\cdots,m_r$,$r=1,\cdots,R$表示内等式,而$\bar{y}_r,\;r=1,\cdots,R$表示间等式。在正态性条件下,内部方程和之间方程的干扰是独立的。这些转换观测值的似然函数是内部方程的似然函数与之间方程的似然函数的乘积。因此,似然函数\eqref{eq:3.1}就是条件似然函数。 \eqref{eq:3.1}的对数似然值为 \begin{equation}\label{eq:3.2} \begin{aligned} \ln L_{w, n}(\theta)=c & +\sum_{r=1}^R m_r(0) \ln \left(m_r(\lambda)\right)-\frac{(R(m-1))}{2} \ln \sigma^2 \\ & -\frac{1}{2 \sigma^2} \sum_{r=1}^R\left(\frac{m_r(\lambda)}{m_r(0)} Y_r^*-Z_r^* \delta_m\right)^{\prime}\left(\frac{m_r(\lambda)}{m_r(0)} Y_r^*-Z_r^* \delta_m\right), \end{aligned} \end{equation} 其中 $ c $ 是一个常数。这个对数似然函数可以集中在$\lambda$处,与整个函数相比,具有计算和分析上的优势。给定一个可能值$\lambda$,$\beta$和$\sigma^2$的 CML 估计值分别为 \begin{equation}\label{eq:3.3} \hat{\beta}_n(\lambda)=\left(\begin{array}{cc} I_{k_1} & 0 \\ 0 & m I_{k_2} \end{array}\right)\left(\sum_{r=1}^R Z_r^{*^{\prime}} Z_r^*\right)^{-1} \sum_{r=1}^R Z_r^{*^{\prime}} Y_r^*\left(\frac{m_r(\lambda)}{m_r(0)}\right) \end{equation} 和 \begin{equation}\label{eq:3.4} \begin{aligned} \hat{\sigma}_n^2(\lambda)= & \frac{1}{R(m-1)}\left\{\sum_{r=1}^R\left(\frac{m_r(\lambda)}{m_r(0)}\right)^2 Y_r^{*^{\prime}} Y_r^*\right. \\ & \left.-\sum_{r=1}^R\left(\frac{m_r(\lambda)}{m_r(0)}\right) Y_r^{*^{\prime}} Z_r^*\left(\sum_{r=1}^R Z_r^{*^{\prime}} Z_r^*\right)^{-1} \sum_{r=1}^R Z_r^{*^{\prime}} Y_r^*\left(\frac{m_r(\lambda)}{m_r(0)}\right)\right\} . \end{aligned} \end{equation} $\lambda$处的集中对数似然函数\eqref{eq:3.2}为 \footnote{\eqref{eq:3.5}随$\lambda$的导数为$\frac{\partial \ln L_{c,n}(\lambda)}{\partial \lambda}=\sum_{r=1}^R\left(\frac{m_r(0)}{m_r(\lambda)}\right)-\frac{(R(m-1))}{2}\frac{\partial\ln\hat{\sigma}_n^2(\lambda)}{\partial\lambda}$。在$m_r(=m)$都相等的特殊情况下,$\hat{\sigma}_n^2(\lambda)=\left(\frac{m-1+\lambda}{m-1}\right)^2 \frac{1}{R(m-1)}\left\{\sum_{r=1}^R Y_r^{*^{\prime}} Y_r^*-\sum_{r=1}^R Y_r^{*^{\prime}} Z_r^*\left(\sum_{r=1}^R Z_r^{*^{\prime}} Z_r^*\right)^{-1} \sum_{r=1}^R Z_r^{*^{\prime}} Y_r^*\right\}$和$\frac{\partial\ln\hat{\sigma}_n^2(\lambda)}{\partial \lambda}=\frac{2}{m-1+\lambda}$。这意味着对于所有$\lambda$,$\frac{\partial\ln L_{c,n}(\lambda)}{\partial \lambda}=0$。也就是说,在这种情况下,条件似然函数不提供关于 $\lambda_0$的信息。} \begin{equation}\label{eq:3.5} \ln L_{c, n}(\lambda)=c_1+\sum_{r=1}^R m_r(0) \ln \left(m_r(\lambda)\right)-\frac{(R(m-1))}{2} \ln \hat{\sigma}_n^2(\lambda) . \end{equation} 以下是模型的一些基本假设:
定义 1. $\epsilon_{ri}$是i.i.d. $N(0,\sigma_0^2)$。
定义 2. 假设$m_r=a_rm\geq 2$,其中$a_r$是比例因子,$\frac{1}{R}\sum_{r=1}^Ra_r=1$。存在一个下限$a_L>0$和一个上限 $a_U<\infty$,使得$a_L\leq a_r\leq a_U$适用于所有$r=1,2,\cdots$,且$a_Km\geq 2$。
定义 3. $x_{ri}$假设为有界(绝对值)常数。$(1/n)\sum_{r=1}^RZ_r^{*\prime}Z_r^*$的极限存在,并且是一个非奇异矩阵。
定义 4. $\lambda$的参数空间$\Lambda$是一个连通的紧凑子集,其内部有$\lambda_0$,对于所有$\lambda\in\Lambda$都满足$(1-\inf_{r=1,2,\cdots,m_r})<\lambda$的性质。
假设 1 是模型中扰动的基本分布假设。假设 2 中的 $ m $ 被视为 $ m_r $ 的经验平均值。系数 $a_r$ 的正下限 $a_L$ 及其上限$a_U$描述了一种可能的情况,即如果$m_r$较大,则它们均匀地较大。 在固定效应模型中,统计分析以非观测变量$\alpha_r$为条件。可以认为,分析也应以$x_{ri}$为条件。因此,在假设 3 中假定$x_{ri}$为非随机变量似乎是很自然的。 [6] $z_{ri}^*$的成分包括$x_{ri,1}^*$和$-\frac{m}{m_r(0)}x_{ri,2}^*$。由于$\frac{m}{m_r(0)}x_{ri,2}$即使在 $ m $ 变为无穷大时也应与 $x_{ri,2}$具有近似的大小,因此可以合理地假设$\frac{1}{n}\sum_{r=1}^*Z_r^{*\prime}Z_r^*$的极限具有有限的极限矩阵。 \footnote{根据假设 2, \[ \left(\frac{m}{a_{\mathrm{U}} m-1}\right)^2 \cdot \frac{1}{n} \sum_{r=1}^R X_{r 2}^{*^{\prime}} X_{r 2}^* \leqslant \frac{1}{n} \sum_{r=1}^R\left(\frac{m}{m_r(0)}\right)^2 X_{r 2}^{*^{\prime}} X_{r 2}^* \leqslant\left(\frac{m}{a_{\mathrm{L}} m-1}\right)^2 \cdot \frac{1}{n} \sum_{r=1}^R X_{r 2}^{*^{\prime}} X_{r 2}^* . \]。这表明假设 3 所暗示的$\frac{1}{n}\sum_{r=1}^R(\frac{m}{m_r(0)})^2X_{r2}^{*\prime}X_{r2}^*$的正定极限矩阵的存在与$\frac{1}{n}\sum_{r=1}^RX_{r2}^{*\prime}X_{r2}^*$收敛到有限矩阵的可能性是一致的。} 因此,$\frac{1}{n}\sum_{r=1}^RZ_{r}^{*\prime}Z_r^*$的有限极限矩阵将是非奇异的。这一假设可能会影响到$\beta_{10}$和$\beta_{20}$的估计。正如$J_rW_r=-\frac{1}{m_r(0)}J_r$,有 \begin{equation*} \begin{aligned} \frac{1}{n} \sum_{r=1}^R Z_r^{*^{\prime}} Z_r^*= & \frac{1}{n}\left(\begin{array}{cc} \sum_{r=1}^R X_{r 1}^{*^{\prime}} X_{r 1}^* & -\sum_{r=1}^R \frac{m}{m_r(0)} X_{r 1}^{*^{\prime}} X_{r 2}^* \\ -\sum_{r=1}^R \frac{m}{m_r(0)} X_{r 2}^{*^{\prime}} X_{r 1}^* & \sum_{r=1}^R\left(\frac{m}{m_r(0)}\right)^2 X_{r 2}^{*^{\prime}} X_{r 2}^* \end{array}\right) \\ = & \left(\begin{array}{cc} \frac{1}{\sqrt{n}} & 0 \\ 0 & \frac{m}{\sqrt{n}} \end{array}\right)\left(\begin{array}{cc} \sum_{r=1}^R X_{r 1}^{*^{\prime}} X_{r 1}^* & \sum_{r=1}^R X_{r 1}^{*^{\prime}}\left(W X_{r 2}\right)^* \\ \sum_{r=1}^R\left(W_r X_{r 2}\right)^{*^{\prime}} X_{r 1}^* & \sum_{r=1}^R\left(W_r X_{r 2}\right)^{)^{\prime}}\left(W_r X_{r 2}\right)^* \end{array}\right) \\ & \times\left(\begin{array}{cc} \frac{1}{\sqrt{n}} & 0 \\ 0 & \frac{m}{\sqrt{n}} \end{array}\right) . \end{aligned} \end{equation*} 归一化系数$\frac{1}{\sqrt{n}}$和$\frac{m}{\sqrt{n}}$对$\beta_{10}$和$\beta_{20}$估计值的可能收敛速度有影响。 假设 4 中的紧凑参数空间是必要的,因为 CM 方法使用的是集中似然\eqref{eq:3.5},而集中似然在$\lambda$中是非线性的。假设 4 中关于$\lambda$下限的条件保证了$\ln(m_r(\lambda))$的定义良好,并且对于所有$\lambda\in\Lambda$ 和所有 $ r $,$m_{r}(\lambda)$都有界于零。 \footnote{对于 Lee(2004)中无固定效应的群体效应模型的最大似然估计,我们需要评估每个 $ r $ 在相关 $ \lambda $ 值下的行列式$|I_{r}-\lambda W_r|$。根据\eqref{eq:1.3}中的$W_r$,$(I_{m_r}-\lambda W_r)$的行列式为$(1-\lambda)(\frac{m_r(\lambda)}{m_r(0)})^{m_r(0)}$,因为$\left(I_{m_r}-\lambda W_r\right)=\left(\frac{m_r(\lambda)}{m_r(0)}\right)\left(I_{m_r}-\frac{\lambda}{m_r(\lambda)} l_{m_r} l_{m_r}^{\prime}\right)$。当且仅当所有 r 的$\lambda\neq 1$和$m_r(\lambda)\neq 0$均为非奇异值时,该行列式为非奇异值。行列式$|I_{m_r}-\lambda W_r|$在其参数空间$\Lambda$上不应为零或改变符号。因为$\lambda=0$应在$\Lambda$中,所以对于所有 $ r $,$1>\lambda>1-m_r$。然而,CML 方法的重点是估计内等式,只需限制所有 $ r $ 的$\lambda>1-m_r$,就能很好地定义\eqref{eq:3.2}中的对数似然。因此,对于 CML 估计的渐近分析,不一定要限制$\lambda$小于 1。} 我们不需要为$\beta$和$\sigma^2$强加任何受限参数空间,因为 CML 估计值是从\eqref{eq:3.3} 和\eqref{eq:3.4}自然得出的。 我们考虑的是种群数量 $ n $ 变为无穷大时估计值的渐近特性。在群体相互作用较小的情况下,即 $\{m_r\}$是有界的,它将对应于群体数 $ R $ 趋于无穷大。 \footnote{为便于精确标注,可在 $ R $、$ m $ 和$a_{r}$上添加下标 $ n $,这样当 $ n $ 趋于无穷大时,$ R_n $ 和 $ m_n $ 可趋于无穷大,而 $ a_{rn} $ 的值仍受假设 2 中 $a_L$ 和 $ a_U $ 的约束。上述约定简化了符号。} 在大群体相互作用的情况下,估计值的一致性需要以下设置。
定义 5. 当 $ n $ 变为无穷大时,$ R_m $ 也趋于无穷大。
假设5等于$\frac{m^2}{n}$趋于零或$\frac{\sqrt{n}}{m}$趋于无穷大,因为$n=Rm$。直观地说,这要求每当 $ m $ 变为无穷大时,$ m $ 不会以快于或等于 $ R $ 的速度变为无穷大。在小组互动的情况下,$ n $ 趋向于无穷大等于 $ R $ 趋于无穷大。在大群体相互作用的情况下,需要 $ R $ 比 $ m $ 大得多,才能获得一致的估计值。 3.2. CMLE的识别和一致性 定义一个非随机函数 \begin{equation}\label{eq:3.6} Q_{c, n}(\lambda)=\max _{\beta, \sigma^{2}} \mathrm{E}\left(\ln L_{w, n}\left(\beta, \sigma^{2}, \lambda\right)\right) \end{equation} 命题1. 在假设1-5下,$\frac{m^{2}}{n}\left[\left(\ln L_{c, n}(\lambda)-\ln L_{c, n}\left(\lambda_{0}\right)\right)-\left(Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right)\right]$ 在$\lambda \in \Lambda$上一致收敛于零。
命题 6. 在假设1-5下, $\frac{m^{2}}{n}\left[\left(\ln L_{c, n}(\lambda)-\ln L_{c, n}\left(\lambda_{0}\right)\right)-\left(Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right)\right]$在 $\lambda \in \Lambda$中均匀的概率收敛到0。
命题1和随后的命题的详细证明收集在附录中。 命题1表明,对数集中似然的平均差异$\frac{1}{n}\left[\ln L_{c, n}(\lambda)-\ln L_{c, n}\left(\lambda_{0}\right)\right]$可以渐近等价于非随机函数(3.6)的平均差异$\frac{1}{n}\left[Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right]$。当$m$趋向无穷大时,收敛于零的速度可以至少为$m^{2}$的速度。平均差异$\frac{1}{n}\left[Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right]$在$\Lambda$上可能相对平坦。为了审视其形状和可能的$\lambda_{0}$的识别,有必要通过因子$m^{2}$放大这种差异。在附录中表明,$\frac{m^{2}}{n}\left(Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right)$满足以下假设条件下的识别唯一性条件(White,1994)。
定义 7 (识别1). 极限矩阵 \begin{equation*} \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{r=1}^{R}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)^{\prime}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right) \end{equation*} 存在且为正定。
注意,在假设3下,$\frac{1}{n} \sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}$的极限矩阵是非奇异的,假设6.1等价于 \begin{equation*} \begin{aligned} & \lim _{n \rightarrow \infty} \frac{1}{n}\left\{\sum_{r=1}^{R}\left(\frac{m}{m_{r}\left(\lambda_{0}\right)}\right)^{2}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime}\left(Z_{r}^{*} \delta_{m 0}\right)\right. \\ & \left.\quad-\sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime} Z_{r}^{*}\left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*^{\prime}}\left(Z_{r}^{*} \delta_{m 0}\right)\right\}>0 \end{aligned} \end{equation*} (例如,Theil,1971年,第18页关于分块对称矩阵的逆)。 假设6.1中的识别条件对于小组交互的情况有效;对于大组交互的情况,当$x_{r 1}$具有不在$x_{r 2}$中的相关分量时,也是有效的。如果假设6.1不成立,可以退而求其次,依赖于\eqref{eq:2.5}中扰动项的协方差结构。
定义 8 (识别2). 对于任意的 $\lambda \neq \lambda_{0}$, \[ \limsup _{n \rightarrow \infty} m^{2}\left[\sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right) \ln \left(\frac{m_{r}(\lambda)}{m_{r}\left(\lambda_{0}\right)}\right)^{2}-\ln \left(\sum_{r=1}^{R} \frac{m_{r}(0)}{R(m-1)}\left(\frac{m_{r}(\lambda)}{m_{r}\left(\lambda_{0}\right)}\right)^{2}\right)\right]<0 \]
这些鉴定条件的更详细的动机和理由在附录中(在命题1的证明之后)。 以下命题总结了CMLE $\hat{\lambda}_{n}$的一致性。
命题 9. 在假设 1-5、6.1 或 6.2 下,对于任何 $\Lambda$ 中 $\lambda_{0}$ 的开邻域 $N_{\varepsilon}(\lambda)$,鉴定唯一性条件为 $$\lim \sup _{n \rightarrow \infty} \max _{\lambda \in \bar{N}_{\varepsilon}\left(\lambda_{0}\right)} \frac{m^{2}}{n}\left(Q_{c, n}(\lambda)-Q_{c, n}\left(\lambda_{0}\right)\right)<0$$ 将成立,并且 $\lambda_{n}$ 是 $\lambda_{0}$ 的一致估计量。
在假设 6.1 或 6.2 中的全局识别条件意味着局部识别条件,即 $\lim _{n \rightarrow \infty} \frac{m^{2}}{n} \frac{\partial^{2} Q_{c n}\left(\lambda_{0}\right)}{\partial \lambda^{2}}$ 应为负定。假设 6.2 引起的局部识别的充分条件是,$\frac{m}{m_{r}\left(\lambda_{0}\right)}, r=1, \ldots, R$ 的极限加权方差不为零,即 \begin{equation}\label{eq:3.7} \lim _{n \rightarrow \infty} \sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right)\left[\frac{m}{m_{r}\left(\lambda_{0}\right)}-\sum_{s=1}^{R}\left(\frac{m_{s}(0)}{R(m-1)}\right) \frac{m}{m_{s}\left(\lambda_{0}\right)}\right]^{2}>0 \end{equation} (见附录)。 3.3. CMLE 的渐近分布 对于渐近分布,重要的是研究在 $\lambda_{0}$ 处评估的 $\frac{\partial \ln L_{c, n}(\lambda)}{\partial \lambda}$。以下命题显示,$\frac{1}{n} \frac{\partial \ln L_{c, n}\left(\lambda_{0}\right)}{\partial \lambda}$ 可能没有通常的 $\sqrt{n}$ 收敛率。相反,它的收敛率是 $m \sqrt{n}$ 的更高阶。在渐近意义上,这个评分是 $\mathscr{E}_{n}$ 的线性项和二次项的总和。
命题 10. 在假设 1-5 和 6.1 或 6.2 下, \begin{equation}\label{eq:3.8} \frac{\sqrt{n}}{m}\left(\hat{\lambda}_{n}-\lambda_{0}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Sigma_{\lambda}^{-1}\right) \end{equation} 其中 \begin{equation}\label{eq:3.9} \begin{aligned} \Sigma_{\lambda}= & \lim _{n \rightarrow \infty}\left\{\frac { 1 } { n \sigma _ { 0 } ^ { 2 } } \left[\sum_{r=1}^{R}\left(\frac{m}{m_{r}\left(\lambda_{0}\right)}\right)^{2}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime}\left(Z_{r}^{*} \delta_{m 0}\right)\right.\right. \\ & \left.-\sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime} Z_{r}^{*}\left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*^{\prime}}\left(Z_{r}^{*} \delta_{m 0}\right)\right] \\ & \left.+2\left(\frac{m-1}{m}\right) \sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right)\left[\frac{m}{m_{r}\left(\lambda_{0}\right)}-\sum_{s=1}^{R}\left(\frac{m_{s}(0)}{R(m-1)}\right) \frac{m}{m_{s}\left(\lambda_{0}\right)}\right]^{2}\right\} \end{aligned} \end{equation}
对于估计量 $\hat{\lambda}_{n}$ 的可能非退化分布将依赖于识别条件,即 $$\lim _{n \rightarrow \infty} \sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right)\left[\frac{m}{m_{r}\left(\lambda_{0}\right)}-\sum_{s=1}^{R}\left(\frac{m_{s}(0)}{R(m-1)}\right) \frac{m}{m_{s}\left(\lambda_{0}\right)}\right]^{2} \neq 0$$ 或假设 6.1 成立。$$\frac{1}{n}\left[\sum_{r=1}^{R}\left(\frac{m}{m_{r}\left(\lambda_{0}\right)}\right)^{2}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime}\left(Z_{r}^{*} \delta_{m 0}\right)-\sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)}\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime} Z_{r}^{*}\right.\left.\left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \sum_{r=1}^{R} \frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*^{\prime}}\left(Z_{r}^{*} \delta_{m 0}\right)\right]$$ 是 $\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}$ 对 $Z_{r}^{*}$ 的回归的平均平方残差。在假设 6.1 下,其极限应严格为正。 从(3.8)可知,CMLE $\hat{\lambda}_{n}$ 以 $\frac{\sqrt{n}}{m}$ 的速度收敛于 $\lambda_{0}$。对于小组互动的情况,$\left\{m_{r}\right\}$ 有界,其收敛率是通常的 $\sqrt{n}$ 收敛率。对于大组互动,收敛率通过 $m$ 缩放,导致更慢的收敛率,即等效于 $\sqrt{\frac{R}{m}}$ 收敛率。$\hat{\lambda}_{n}$ 的精度由回归的平方残差和 $\frac{m}{m_{r}\left(\lambda_{0}\right)}$ 的加权变化决定。 CMLE的$\beta_{0}$是 \begin{equation}\label{eq:3.10} \hat{\beta}_{n}=\left(\begin{array}{cc} I_{k_{1}} & 0 \tag{3.10}\\ 0 & m I_{k_{2}} \end{array}\right)\left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \sum_{r=1}^{R}\left(\frac{m_{r}\left(\hat{\lambda}_{n}\right)}{m_{r}(0)}\right) Z_{r}^{*^{\prime}} Y_{r}^{*} \end{equation} $\hat{\beta}_{n}$的渐近分布如下:
命题 11. 在假设 1-5 和 6.1 或 6.2 下, \begin{equation}\label{eq:3.11} \binom{\sqrt{n}\left(\hat{\beta}_{n 1}-\beta_{10}\right)}{\frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2}-\beta_{20}\right)} \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\beta}\right) \end{equation} 其中 \begin{gather*}\label{eq:3.12} \Omega_{\beta}=\Sigma_{\lambda}^{-1} \lim _{n \rightarrow \infty}\left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \sum_{r=1}^{R}\left(\frac{m}{m_{r}\left(\lambda_{0}\right)}\right) Z_{r}^{*^{\prime}}\left(Z_{r}^{*} \delta_{m 0}\right) \sum_{r=1}^{R}\left(\frac{m}{m_{r}\left(\lambda_{0}\right)}\right)\left(Z_{r}^{*} \delta_{m 0}\right)^{\prime} Z_{r}^{*} \\ \left(\sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1}+\sigma_{0}^{2} \lim _{n \rightarrow \infty}\left(\frac{1}{n} \sum_{r=1}^{R} Z_{r}^{*^{\prime}} Z_{r}^{*}\right)^{-1} \tag{3.12} \end{gather*}
该命题显示,$\hat{\beta}_{n 1}$ 和 $\hat{\beta}_{n 2}$ 的渐近分布取决于 $\hat{\lambda}_{n}$ 的渐近分布。然而,收敛速度较低的 $\hat{\lambda}_{n}$ 不会主导涉及 $\varepsilon_{r}$ 的其他随机组分。由于解释变量 $x_{r i, 1}$ 和 $\frac{1}{m_{r}(0)} x_{r i, 2}$ 的量级在 $m$ 趋向于无穷大时不同,回归系数 $\beta_{10}$ 和 $\beta_{20}$ 的CML估计 $\hat{\beta}_{n 1}$ 和 $\hat{\beta}_{n 2}$ 具有不同的收敛速度。$\hat{\beta}_{n 1}$ 的适当收敛速度是 $\sqrt{n}$,而 $\hat{\beta}_{n 2}$ 的适当收敛速度是 $\frac{\sqrt{n}}{m}$(或等效地,$\sqrt{\frac{R}{m}}$)。上下文效应参数比其他回归系数更难精确估计。 命题 3 和 4 的结果可以结合以推导$\hat{\lambda}_{n}$ 和 $\hat{\beta}_{n}$ 的联合分布。
命题 12. 在假设 1-5 和 6.1 或 6.2 下, \begin{equation}\label{eq:3.13} \left(\begin{array}{c} \frac{\sqrt{n}}{m}\left(\hat{\lambda}_{n}-\lambda_{0}\right) \tag{3.13}\\ \sqrt{n}\left(\hat{\beta}_{n 1}-\beta_{10}\right) \\ \frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2}-\beta_{20}\right) \end{array}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\lambda, \beta}\right) \end{equation} 其中 \begin{align*}\label{eq:3.14} \Omega_{\lambda, \beta}= & \lim _{n \rightarrow \infty}\left[\frac{1}{\sigma_{0}^{2} n} \sum_{r=1}^{R}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)^{\prime}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)\right. \\ & \left.+2\left(\frac{m-1}{m}\right) \sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right)\left[\frac{m}{m_{r}\left(\lambda_{0}\right)}-\sum_{s=1}^{R}\left(\frac{m_{s}(0)}{R(m-1)}\right) \frac{m}{m_{s}\left(\lambda_{0}\right)}\right]^{2} e_{1} e_{1}^{\prime}\right]^{-1} \tag{3.14} \end{align*} 其中 $e_{1}$ 是维数为 $\left(k_{1}+k_{2}+1\right)$ 的第一个单位向量。
4. 工具变量估计 在等式内可以重写为 $y_{r i}-\bar{y}_{r}=-\lambda_{0} \frac{\left(y_{r i}-\bar{y}_{r}\right)}{m_{r}(0)}+\left(z_{r i}-\bar{z}_{r}\right) \delta_{m 0}+\left(\varepsilon_{r i}-\bar{\varepsilon}_{r}\right)$,明确为 \begin{equation}\label{eq:4.1} y_{r i}-\bar{y}_{r}=-\lambda_{0} \frac{\left(y_{r i}-\bar{y}_{r}\right)}{m_{r}(0)}+\left(x_{r i, 1}-\bar{x}_{r, 1}\right) \beta_{10}-\frac{\left(x_{r i, 2}-\bar{x}_{r, 2}\right)}{m_{r}(0)} \beta_{20}+\left(\varepsilon_{r i}-\bar{\varepsilon}_{r}\right) \end{equation} 这个方程可以通过工具变量方法估计。由于简化形式Eq. (2.5) 意味着 \begin{equation}\label{eq:4.2} \mathrm{E}\left[\frac{1}{m_{r}(0)}\left(y_{r i}-\bar{y}_{r}\right)\right]=\frac{1}{m_{r}\left(\lambda_{0}\right)}\left(z_{r i}-\bar{z}_{r}\right) \delta_{m 0} \end{equation} 最佳工具变量向量是 $\left(\frac{1}{m_{r}\left(\lambda_{0}\right)}\left(z_{r i}-\bar{z}_{r}\right) \delta_{m 0}, z_{r i}-\bar{z}_{r}\right)$,或者等效地,$\left(\frac{1}{m_{r}\left(\lambda_{0}\right)}\left(z_{r i}-\bar{z}_{r}\right), z_{r i}-\bar{z}_{r}\right)$,由Amemiya(1985年)和Lee(2003年)激发。如果$m_{r}$在不同群体之间变化,则最佳工具变量向量的组成部分可能不完全多重共线性。由于(4.1)的系数的任何工具变量估计可能具有不同的收敛速度,我们将明确考虑(4.1)的估计。 让$p_{ri}$作为一个工具变量变量。在重新调整之后,$\frac{p_{r i}}{m_{r}(0)}$可以用作$-\frac{\left(y_{r i}-\bar{y}_{r}\right)}{m_{r}(0)}$的工具变量。设$P_{r}$是第$r$组的$m_{r}$维列向量$p_{r i}$。$\theta_{0}=$ $\left(\lambda_{0}, \beta_{10}^{\prime}, \beta_{20}^{\prime}\right)^{\prime}$的工具变量估计量是 \begin{equation}\label{eq:4.3} \hat{\theta}_{n, \mathrm{IV}}= {\left[\sum_{r=1}^{R}\left(\frac{P_{r}^{*}}{m_{r}(0)}, X_{r 1}^{*},-\frac{X_{r 2}^{*}}{m_{r}(0)}\right)^{\prime}\left(-\frac{Y_{r}^{*}}{m_{r}(0)}, X_{r 1}^{*},-\frac{X_{r 2}^{*}}{m_{r}(0)}\right)\right]^{-1} } \times \sum_{r=1}^{R}\left(\frac{P_{r}^{*}}{m_{r}(0)}, X_{r 1}^{*},-\frac{X_{r 2}^{*}}{m_{r}(0)}\right)^{\prime} Y_{r}^{*} \end{equation} 以下命题提供了工具变量估计量的收敛速度和渐近分布。它提供了估计的最佳工具变量矩阵。
命题 13. 在假设 1-3, 5 和 6.1 下, \[ \left(\begin{array}{c} \frac{\sqrt{n}}{m}\left(\hat{\lambda}_{n, \mathrm{IV}}-\lambda_{0}\right) \tag{4.4}\\ \sqrt{n}\left(\hat{\beta}_{n 1, \mathrm{IV}}-\beta_{10}\right) \\ \frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2, \mathrm{IV}}-\beta_{20}\right) \end{array}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\mathrm{IV}}\right) \] 其中 \begin{equation*} \begin{aligned} \Omega_{\mathrm{IV}}= &\sigma_{0}^{2} \lim _{n \rightarrow \infty}\left[\frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)\right]^{-1} \\ &\times \frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right) \\ &\times \left[\frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)\right]^{\prime-1} \end{aligned} \end{equation*} 这被假设存在。可行的最佳工具变量是$\frac{1}{m_{r}(0)} P_{r}=\left(-\frac{X_{r, 1} \hat{\beta}_{n 1}}{m_{r}\left(\hat{\lambda}_{n}\right)}+\frac{X_{r, 2} \hat{\beta}_{n 2}}{m_{r}(0) m_{r}\left(\hat{\lambda}_{n}\right)}\right)$,其中$\left(\hat{\lambda}_{n}, \hat{\beta}_{n 1}, \hat{\beta}_{n 2}\right)$可以是任何初步的工具变量一致估计量。其渐近分布是 \[ \left(\begin{array}{c} \frac{\sqrt{n}}{m}\left(\hat{\lambda}_{n, \mathrm{BIV}}-\lambda_{0}\right) \tag{4.5}\\ \sqrt{n}\left(\hat{\beta}_{n 1, \mathrm{BIV}}-\beta_{10}\right) \\ \frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2, \mathrm{BIV}}-\beta_{20}\right) \end{array}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\mathrm{BIV}}\right) \] 其中$\Omega_{\mathrm{BIV}}=\sigma_{0}^{2} \lim _{n \rightarrow \infty}\left[\frac{1}{n} \sum_{r=1}^{R}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)^{\prime}\left(-\frac{m}{m_{r}\left(\lambda_{0}\right)} Z_{r}^{*} \delta_{m 0}, Z_{r}^{*}\right)\right]^{-1}$。
从命题可以看出,IV估计量$\hat{\beta}_{n 1, \mathrm{IV}}$以通常的$\sqrt{n}$速率收敛,但$\hat{\lambda}_{n, \mathrm{IV}}$和$\hat{\beta}_{n 2, \mathrm{IV}}$的IV估计在$\frac{\sqrt{n}}{m}$速率上收敛。 \footnote{对于大群体的情况,由于$Z_{r} \delta_{m 0}$的$\frac{m}{m_{r}(0) m_{r}\left(\lambda_{0}\right)} X_{r 2} \beta_{20}$项相对较小,可以近似忽略,因此最佳IV可以简单地为第 $ r $组的$\frac{P_{r}}{m_{r}(0)}=\left(-\frac{X_{r 1} \hat{\beta}_{n, 1}}{m_{r}\left(\hat{\lambda}_{n}\right)}\right)$。 ${ }^{14}$。} 比较IV估计量的渐近相对效率与CMLE的效率。从命题 5 和 6 可以看出,$\Omega_{\lambda, \beta} \leqslant \Omega_{\mathrm{BIV}}$。实际上,在它们的精度矩阵$\Omega_{\lambda, \beta}^{-1}-\Omega_{\mathrm{BIV}}^{-1}=2\left(\frac{m-1}{m}\right) \sum_{r=1}^{R}\left(\frac{m_{r}(0)}{R(m-1)}\right)\left[\frac{m}{m_{r}\left(\lambda_{0}\right)}-\sum_{s=1}^{R}\left(\frac{m_{s}(0)}{R(m-1)}\right) \frac{m}{m_{s}\left(\lambda_{0}\right)}\right]^{2}$ $e_{1} e_{1}^{\prime}$。因此,CMLE的主要效率增益归因于其对Eq. \eqref{eq:2.5}内部扰动的交互效应。 正如我们所指出的,如果只有上下文因素起作用而不是回归变量$X_{r 1}$,即$\beta_{10}=0$,假设 6.1 将不会得到满足。另一种情况是对于所有$r$和$m \rightarrow \infty$,$X_{r 2}=X_{r 1}$。下一个命题说明了IV估计量在$\beta_{10}=0$的情况下的渐近特性。在这种情况下,IV估计量的一致性将需要更强的设置,并且它们的收敛速度也可能较低。 \begin{prop 如果\eqref{eq:4.1}中的$\beta_{10}=0$符合假设 $1-3,5$,且 \begin{equation*} \lim _{n \rightarrow \infty} \frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(\frac{m^{2}}{m_{r}\left(\lambda_{0}\right) m_{r}(0)} X_{r 2}^{*} \beta_{20}, Z_{r}^{*}\right) \end{equation*} 存在,并且是非奇异矩阵,那么 \begin{equation} \label{eq:4.6} \left(\begin{array}{c} \frac{\sqrt{n}}{m^{2}}\left(\hat{\lambda}_{n, \mathrm{IV}}-\lambda_{0}\right) \tag{4.6}\\ \sqrt{n}\left(\hat{\beta}_{n 1, \mathrm{IV}}-\beta_{10}\right) \\ \frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2, \mathrm{IV}}-\beta_{20}\right) \end{array}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\mathrm{IV}}\right) \end{equation} 其中 \begin{equation*} \begin{aligned} \Omega_{\mathrm{IV}}= & \sigma_{0}^{2} \lim _{n \rightarrow \infty}\left[\frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(\frac{m^{2}}{m_{r}\left(\lambda_{0}\right) m_{r}(0)} X_{r 2}^{*} \beta_{20}, Z_{r}^{*}\right)\right]^{-1} \\ & \times \frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)\left[\frac{1}{n} \sum_{r=1}^{R}\left(\frac{m P_{r}^{*}}{m_{r}(0)}, Z_{r}^{*}\right)^{\prime}\right. \\ & \left.\times\left(\frac{m^{2}}{m_{r}\left(\lambda_{0}\right) m_{r}(0)} X_{r 2}^{*} \beta_{20}, Z_{r}^{*}\right)\right]^{\prime-1} \end{aligned} \end{equation*} 假定是存在的。 最佳 IV 将是$\frac{1}{m_{r}(0)} P_{r}=\left(-\frac{X_{r, 1}, \hat{\beta}_{n 1}}{\left.m_{r} \hat{\lambda}_{n}\right)}+\frac{X_{r, 2} \hat{\beta}_{n 2}}{m_{r}(0) m_{r}\left(\hat{\lambda}_{n}\right)}\right)$,其中$\left(\hat{\lambda}_{n}, \hat{\beta}_{n 1}, \hat{\beta}_{n 2}\right)$可以是任何初始 IV 一致估计值。其渐近分布为 \begin{equation} \label{eq:4.7} \left(\begin{array}{c} \frac{\sqrt{n}}{m^{2}}\left(\hat{\lambda}_{n, \mathrm{BIV}}-\lambda_{0}\right) \tag{4.7}\\ \sqrt{n}\left(\hat{\beta}_{n 1, \mathrm{BIV}}-\beta_{10}\right) \\ \frac{\sqrt{n}}{m}\left(\hat{\beta}_{n 2, \mathrm{BIV}}-\beta_{20}\right) \end{array}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \Omega_{\mathrm{BIV}}\right) \end{equation} 其中$\Omega_{\mathrm{BIV}}=\sigma_{0}^{2} \lim _{n \rightarrow \infty}\left[\frac{1}{n} \sum_{r=1}^{R}\left(\frac{m^{2}}{m_{r}\left(\lambda_{0}\right) m_{r}(0)} X_{r 2}^{*} \beta_{20}, Z_{r}^{*}\right)^{\prime}\left(\frac{m^{2}}{m_{r}\left(\lambda_{0}\right) m_{r}(0)} X_{r 2}^{*} \beta_{20}, Z_{r}^{*}\right)\right]^{-1}$。 \end{prop} 从上述结果中我们可以看出,如果空间模型中只有背景因素而没有其他回归因子,那么内生交互效应$\lambda$的 IV 估计值的一致性要求组数 $ R $ 应远大于 $ m^3 $,其收敛速度只能是$\frac{\sqrt{n}}{m^{2}}$。值得注意的是,外生交互效应$\beta_{2}$的收敛率$\frac{\sqrt{n}}{m}$相对较好。对于大群体交互作用的情况,这可能是对样本的过度要求。我们可以很容易地发现,如果对 IV 估计施加约束$\beta_{1}=0$,约束 IV 估计的收敛率不会提高。即使极限方差矩阵可能更小,它们的收敛率也与命题 7 中的收敛率相同。对于 CML 方法,即使$\beta_{10}=0$,内生交互效应$\lambda$的 CMLE 仍具有命题 5 中的$\frac{\sqrt{n}}{m}$收敛率。只要满足假设 6.2,不考虑假设 6.1,命题 5 也是有效的。这是因为,在这种情况下,方程内约化扰动中的信息主导了均值约化回归函数中的信息。 5. 采用 OLS(组内)方法处理具有大量群体交互作用的模型 对于大群相互作用的情况,由于$m$很大,人们可能会对$\beta$的OLS(传统内)估计感兴趣,方法是用$Y_{r}^{*}\doteq X_{r1}^{**}\beta_{10}+J_{r}\varepsilon_{r}$的简化方程近似内方程(2.3),并用OLS估计$\beta_{10}$: \begin{equation}\label{eq:5.1} \hat{\beta}_{n 1, \mathrm{~L}}=\left[\sum_{r=1}^{R} X_{r 1}^{*^{\prime}} X_{r 1}^{*}\right]^{-1} \sum_{r=1}^{R} X_{r 1}^{*^{\prime}} Y_{r}^{*} \end{equation} 在假设5的设置下,$m\left(\hat{\beta}_{n 1, \mathrm{~L}}-\beta_{10}\right)=m b_{n}+\mathrm{O}_{\mathrm{P}}\left(\sqrt{\frac{m}{R}}\right)$如附录所示。当$\frac{m}{R} \rightarrow 0, m\left(\hat{\beta}_{n, \mathrm{~L}}-\beta_{0}\right)$在概率上收敛到$m b_{n}$极限。$\hat{\beta}_{n 1, \mathrm{~L}}$的OLS(内)估计是一致的,但其收敛速度为$\mathrm{O}(\mathrm{m})$,低于$\sqrt{n}$的收敛速度,并且$m\left(\hat{\beta}_{n 1, \mathrm{~L}}-\beta_{0}\right)$的极限分布是退化的。因此,可以得出结论,如果内方程是正确的模型,那么忽略结构空间相互作用的回归方程看似微小的错误指定似乎会对传统的内估计产生破坏性影响。 在$m\rightarrow\infty$但$\frac{m}{R}\rightarrow c$的情况下,其中$c$是一个有限的正常数。根据附录(A.85)可以得出$m\left(\hat{\beta}_{n 1, \mathrm{~L}}-\beta_{10}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(\lim _{n \rightarrow \infty} m b_{n}, \sigma_{0}^{2}\left(\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{r=1}^{R}\right.\right.$ $\left.X_{r 1}^{*^{\prime}} X_{r 1}^{*}\right)^{-1}$),其具有非零渐近偏差的渐近正态分布。 只有在$\frac{m}{R} \rightarrow \infty$的情况下,即各组的规模远大于各组的总数时,组内OLS才会正常运算。在这种情况下,即$\frac{\sqrt{n}}{m} \rightarrow 0$,(A.85)意味着$\sqrt{n}\left(\hat{\beta}_{n 1, \mathrm{~L}}-\beta_{10}\right) \xrightarrow{\mathrm{D}} \mathrm{N}\left(0, \sigma^{2}(\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{r=1}^{R}X_{r 1}^{*^{\prime}} X_{r 1}^{*})^{-1}\right)$ 。 6. 一些蒙特卡洛结果 对于 CML 和 2SLS 估计的有限样本性能,我们进行了一些蒙特卡罗实验。样本数据由两个回归系数 $x_{r i, 1}$ 和 $x_{r i, 2}$ 生成,这两个回归系数均为 $\mathrm{N}(0,1)$。我们考虑的情况是,$x_{r i, 1}$ 和 $x_{r i, 2}$ 既可以是不同的变量,也可以是相同的变量。在所有情况下,对于所有 $r$ 和 $i$,$\left(x_{r i, 1}, x_{r i, 2}\right)$ ‘s 都是 i.i.d.的。$\varepsilon_{r i}$ ‘s 是 i.i.d. $\mathrm{N}\left(0, \sigma^{2}\right)$ 并且与 $x_{r i, 1}$ 和 $x_{r i, 2}$ 无关。在小组互动较少的情况下,每循环 10 个小组,小组规模从 2,3 到 11 不等。根据设计,小群体交互情况下的平均群体规模为 6.5。对于大群体互动的情况,群体规模放大了 8 倍和 10 倍。在放大系数为 8 的情况下,最小的小组人数为 16 人,最大的小组人数为 88 人,平均每组人数为 52 人。放大系数为 10 时,最小的组为 20,最大的组为 110,平均每组为 65。对于 CML,我们尝试了不同的组数 $R$,小组交互情况下从 50 到 3000 不等,大组交互情况下从 50 到 6000 不等。 Hanushek 等人(2003 年)的研究分析了德克萨斯州立大学学校项目构建的学校运营面板数据集。该数据追踪了德克萨斯州公立小学连续三届学生的整体情况。每个组群有 3000 多所公立学校的 20 多万名学生。因此,如果将一所学校的一个年级视为一个 组,每批学生大约有 3000 个组,每个年级的平均人数约为 66 人。Monte Carlo 设计的每组平均人数为 65 人,共 3000 或 6000 组,试图校准 UTD 数据的规模。 [7] 真实参数是 $\lambda_{0}=0.5,\beta_{10}=1.0,\beta_{20}=1.0$ 和 $\sigma_{0}=1.0$。蒙特卡洛重复中的回归变量观测值是独立抽取的。蒙特卡罗重复次数为 300 次。 表 1 列出了具有小群体交互作用的模型的 CML 估计值。SG-IX “表示小群体交互模型,其中 $x_{1}$ 和 $x_{2}$ 是独立的。SG-SX “是$x_{1}=x_{2}$的小群体相互作用模型。这些模型是用 CML 方法估计的,其参数空间 $\lambda$ 限制为 $(-1,1)$。由于 CML 估计值也可以在不设上限的情况下得出,因此这些估计值在 “SG-IX(UC) “和 “SG-SX(UC) “两栏中报告。所有表格的主要条目都是各重复的估计值的平均值和标准误(括号内)。表 2 报告了具有大群体交互作用的模型的 CML 估计值。LG8 “表示平均每组 52 人的情况,”LG10 “表示平均每组 65 人的情况。在大群体交互模型中,$x_{1}$ 和 $x_{2}$ 是独立的。LG8 和 LG10 的 CML 估计值是在 $\lambda$ 的参数空间限制为 $(-1,1)$ 的情况下得出的。在不施加上限的情况下,(无约束)估计值在 “LG8(UC) “和 “LG10(UC) “列中报告。 对于小群体交互模型 SG-IX,当 $R=50$ 时,CMLE $\hat{\lambda}_{n}$ 是向上偏置的。这种偏差随着 $R$ 的增加而减小。对于所有 $R$,$\beta_{1}、\beta_{2}$ 和 $\sigma$ 的 CMLE 都是无偏的。正如预期的那样,$\hat{\lambda}_{n}$ 和 $\hat{\beta}_{n 2}$ 的 CMLE 的标准偏差大于 $\hat{\beta}_{n 1}$ 和 $\hat{sigma}_{n}$ 的 CMLE 的标准偏差。当 $R$ 不大时,会出现 CML 估计值 $\hat{\lambda}_{n}$ 出现在边界值 1 的情况。当 $R=50$ 或 100 时,$(-1,1)$ 约束值的 CML 估计值比 SG-IX(UC)列下的估计值方差小。对于 $R=200$ 或更高,有限制参数空间或无限制参数空间的 CML 估计差异不大。 [8]当 $x_{2}=x_{1}$ 时,SG-SX 和 SG-SX(UC)的 CMLE 与 SG-IX 和 SG-IX(UC) 的 CMLE 性质相似,只是这些估计值的标准差更大。 对于具有大群体交互作用的模型 LG8 和 LG10,尽管其他参数 $\beta_{1}、\beta_{2}$ 和 $\sigma$的估计值令人满意,但 $\lambda$ 的估计值总体上表现不佳。当 $R=50$ 和 100 时,LG8 和 LG10 的估计值均向下偏移。但当 $R$ 值越大时,它们的偏差反而越大。当 R=3000 或 6000 时,这些偏差可能不会减小。另一方面,$hhat{\beta}_{n 2}$的偏差相当小。看来,在大组交互情况下,外生交互效应 $\beta_{2}$ 比内生效应 $\lambda$ 的估计效果更好。有很多情况下,$\lambda$ 的估计值边界值为 1。在不强制参数小于 1 的情况下,LG8(UC) 和 LG10(UC) 列下的 $\lambda$ 估计值在 R 较小的情况下会向上偏移。同样,对于较大的 R=1600、3000 或 6000,偏差的大小并不稳定。即使 $ R $ 大到 3000 或 6000,$\lambda$的估计值仍有相当大的方差。交互效应$\hat{\lambda}_n$和$\hat{\beta}_{n2}$的标准差明显比表 1 中的小群体交互效应大得多。 7. 结论 本文考虑了具有 SAR 结构的固定效应社会互动模型的识别和估计。结构性群体交互效应的识别和估计受到群体不可观测因素的影响,因为不可观测因素可能会导致与群体交互效应相混淆的虚假效应。在我们的分析中,在模型中存在固定群体效应的情况下,我们允许内生和外生群体交互作用。 [9] 在固定群体效应模型中,允许群体非观测变量与所包含的解释变量相关。我们的研究表明,对于我们熟悉的小组成员权重相等的小组互动规范,SAR 模型可以分解为组内方程和组间方程。在组内方程中,固定组效应已被消除。组间方程为固定效应提供了充分的统计数据,但没有为结构交互效应的识别提供信息。在固定组效应规格下,结构交互效应的识别和估计只能通过内部方程来揭示。只有当存在不同的组别规模时,才有可能识别结构交互效应。内生交互效应的存在通过回归因素和干扰因素的反应减少了组内差异。当各组规模相同时,我们无法推断出交互作用效应,因为各组之间不存在因交互作用而产生的差异。当组别大小不同时,由于交互作用的程度不同,推断可能是可行的。我们提供了识别和估计交互效应的特征条件。 我们考虑用 CML 方法估计内等式。估计值的一致性要求样本中的组数远大于组的平均规模。对于群体交互作用较大的情况,交互作用效应的 CML 估计值在分布上的收敛率较低,因此识别能力较弱。除了有效的个体回归因素外,引入背景因素不会给内生交互效应带来额外的识别和估计问题。但是,在群体交互作用较大的情况下,背景(外生)效应的估计值也会与内生效应的估计值一样具有较低的收敛率。我们还比较了 CMLE 相对 IV 估计的效率收益。相应的 CML 和 IV 估计可能具有相同的随机收敛率。然而,IV 估计与 CML 估计相比效率相对较低。当模型中的回归因子仅由背景因素组成时,内生交互效应的 IV 估计值可能会变得更糟,因为它的收敛率会比 CML 估计值低得多。而 CML 估计值的收敛率不会发生变化。之所以如此,是因为 IV 方法没有考虑简化形式扰动的相关信息,而 CML 却考虑了。我们的蒙特卡罗结果证实了这一点。 如果固定组效应与所包含的回归因子不相关,那么在估计结构交互效应时,除了组内方程外,组间方程还能提供有价值的信息。本文没有考虑组随机效应对估计的影响。将在另一个场合进行研究。 \footnote{当固定的群体效应与所包含的外生变量不相关或存在有效的 IV,并且存在不完全与背景相关的回归效应时,就有可能实现强识别和相对较快的估计值收敛速度。对于无群体不可观测变量模型的 MLE,Lee(2004)的研究结果表明,内生效应$\lambda$的收敛率可以是$\sqrt{n}$或$\sqrt{R}$。Ioannides和Zabel(2003)最近对住房需求的实证研究中使用了随机效应规范的模型\eqref{eq:2.1’},即$\alpha_r$是随机的,与x不相关。}

  1. 如果扰动中存在因群体而异的特定成分,并与个人的外生特征相关,则可能出现相关的非观测变量。他认为,相关非观测变量一般有两个来源。第一种来源可能是排序和内生的群体成员资格,也可能是偏好或其他力量导致某些类型的个体被组合在一起。第二个来源可能是一些共同的环境因素。例如,对于学生成绩的研究,Hanushek 等人(2003 年)指出,学生成绩中共同环境因素的一个重要且相关的例子可能是教师质量中一些系统但无法测量的因素。
  2. Moffitt (2001)关于交互效应识别不足的说明是基于每组有两名成员的模型。如下文所示,如果小组人数没有变化,模型中的交互效应就无法识别。
  3. Lee (2004)考虑了 SAR 模型的(准)最大似然估计值的渐近分布,该模型包括群体效应模型,但没有外生交互作用和群体非观测变量。这种 SAR 模型的识别问题较小。但对于具有较大群体交互结构的 SAR 模型,在某些情况下,l 的估计收敛率也可能较低。但其收敛率仍高于固定效应模型。
  4. 在 Glaeser 等人(1996 年)的犯罪行为分析中,正向群体互动导致的群体方差增大是至关重要的观察结果。
  5. 在两项与小组互动有关的研究中,小组规模是其中一个值得关注的变量。Hoxby (2000) 调查了班级规模对学生成绩的影响。Rees 等人(2003 年)研究了群体规模对工人生产率的影响。不过,他们的研究动机与我们不同。Hoxby (2000) 认为班级规模是学校生产函数中的一个因素。在 Rees 等人(2003 年)的研究中,班级规模越大,就越难监控工人的工作表现。
  6. 这一条件主要用于独立随机变量的简单 Lyapounov 中心极限定理的应用。这个有界性条件可以用更一般的三阶经验矩条件来代替。
  7. UTD数据集不供一般公众用户使用。可供公众使用的一个相对较小的数据集是全国青少年健康纵向研究(Add Health)。这是一项具有全国代表性的以学校为基础的研究,研究对象是 132 所学校 7 至 12 年级的青少年。从 1994 年 9 月到 1995 年 4 月,我们向抽样学校的所有学生发放了一份校内调查问卷,抽样学生总数超过 90,000 人。青少年被要求提名朋友。通过朋友的身份证号码,可以构建学校中的友谊网络。该数据集有助于研究小群体的互动。有关该数据集的信息,请参见 Bearman 等人(1997 年)。我们可以将年级视为一个群体。但是,如果把友谊网络也考虑在内,本文中的模型就不能不加修改地直接应用了。OSU 的一名学生在控制了年级固定效应和友谊网络后,将扩展模型和 IV 估计方法应用于学生的学业成绩。一些初步结果见 Lin (2004)。
  8. 对于 R = 400,除了一个例外,所有的 CML 估计值都小于 1
  9. 与基于聚类建模方法的模型相比,该模型具有更多的结构。在聚类方法中,假设样本观测值仅因聚类内的不可观测因素而具有依赖性(参见 Trivedi(2003 年,第 24.5 章))。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注