一文详解t检验

虎威将军 · 发表于 2025-3-12 12:10

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

不排除书写错误，文中几乎所有的公式都给出了详细的证明。仅为教科书相关内容，不代表学术前沿。关于实验的设计与分析，可看混乱数据分析：设计的实验
引子

t检验（t test）又称学生t检验（Student t-test）可以说是统计推断中非常常见的一种检验方法，用于统计量服从正态分布，但方差未知的情况。
有关t检验的历史（以及学生t检验的由来）可以参考维基百科。
t检验的前提是要求样本服从正态分布或近似正态分布，不然可以利用一些变换（取对数、开根号、倒数等等）试图将其转化为服从正态分布是数据，如若还是不满足正态分布，只能利用非参数检验方法。不过当样本量大于30的时候，可以认为数据近似正态分布。
t检验最常见的四个用途：

单样本均值检验（One-sample t-test）
用于检验 总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等
两独立样本均值检验（Independent two-sample t-test）
用于检验两对独立的正态数据或近似正态的样本的均值是否相等，这里可根据总体方差是否相等分类讨论
配对样本均值检验（Dependent t-test for paired samples）
用于检验 一对配对样本的均值的差是否等于某一个值
回归系数的显著性检验（t-test for regression coefficient significance）
用于检验 回归模型的解释变量对被解释变量是否有显著影响

1.单样本均值检验

目的：检验单样本的均值是否和已知总体的均值相等。
要求：

总体方差未知，否则就可以利用Z检验（也叫U检验，就是正态检验）
正态数据或近似正态

应用场景举例：

从某厂生产的零件中随机抽取若干件，检验其某种规格的均值是否与要求的规格相等（双侧检验）
在某偏远地区随机抽取若干健康男子，检验其脉搏均数是否高于全体健康男子平均水平（单侧检验）
检验某一线城市全体高三学生视力水平是否比全国全体高三学生视力水平低（单侧检验）

检验原理：

H_0：样本均值与总体均值相等
H_1：样本均值与总体均值不等

记总体均值为\mu，总体方差为\sigma^2（未知），样本均值\bar X=\frac{1}{n}\sum_{i=1}^nX_i，样本标准差s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2}，有：

\begin{aligned}X_i\sim N(\mu,\sigma^2) &\rightarrow \bar X =\frac{1}{n}\sum_{i=1}^{n}X_i\sim N(\mu,\frac{\sigma^2}{n})\\ &\rightarrow \frac{\bar X-\mu}{\frac{\sigma}{\sqrt n}}=\frac{\sqrt n(\bar X-\mu)}{\sigma}\sim N(0,1)\quad (1)\end{aligned} \\

对于熟悉数理统计的朋友，上面这一条是显然的。下面我们试着构造出一个t统计量，我们知道t变量的构造定义是一个分子为标准正态变量、分母为卡方变量除以它自由度后开根号的分式。上面我们已经得到了一个标准正态变量，不难想到卡方变量的一个重要定理：

\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)\quad(2)

(1)÷\sqrt{(2)/(n-1)}：

\frac{\frac{\sqrt n(\bar X-\mu)}{\sigma}}{\sqrt\frac{{\frac{(n-1)s^2}{\sigma^2}}}{n-1}}=\frac{\sqrt n(\bar X-\mu)}{s}\sim t(n-1) \quad (3)

检验原理
在H_0成立的条件下，\bar X-\mu=0，若上述统计量的值偏离0“太多”，是小概率事件，在一次抽样中几乎不可能发生，其发生的概率即为p值。给定显著性水平\alpha（如0.05），根据研究的问题确定是双侧检验（two-side test）还是单侧检验（one-side test），若为双侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\frac{\alpha}{2},n-1}；若为单侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\alpha,n-1}。

对于要检验样本均值是否等于总体均值的双侧检验，若根据样本数据算出来的t统计量的绝对值\left|\frac{\sqrt n(\bar X-\mu)}{s}\right|>t_{\frac{\alpha}{2},n-1}，则拒绝原假设，认为样本均值与总体均值不等，否则不拒绝原假设。
对于要检验样本均值是否比总体均值大的单侧检验，若根据样本数据算出来的t统计量\frac{\sqrt n(\bar X-\mu)}{s}>t_{{\alpha},n-1} ，则拒绝原假设，认为样本均值不大于总体均值，否则不拒绝原假设。
对于要检验样本均值是否比总体均值小的单侧检验，若根据样本数据算出来的t统计量-\frac{\sqrt n(\bar X-\mu)}{s}>t_{{\alpha},n-1}，则拒绝原假设，认为样本均值不小于总体均值，否则不拒绝原假设。

2.两独立样本均值检验

目的：检验两独立样本的均值是否相等。
要求：两样本独立，服从正态分布或近似正态。
应用场景举例：

检验两工厂生产同种零件的规格是否相等（双侧检验）
为研究某种治疗儿童贫血新药的疗效，以常规药作为对照，治疗一段时间后，检验施以新药的儿童血红蛋白的增加量是否比常规药的大（单侧检验）
检验两种药物对治疗高血压的效果，检验两组药物的降压水平是否相等（双侧检验）

记两总体分别为X_1\sim N(\mu_1,\sigma_1^2),X_2\sim N(\mu_2,\sigma_2^2)，样本均值、样本标准差：

\bar X_1=\frac{1}{n_1}\sum_{i=1}^{n_1}X_{1i},\quad \bar X_2=\frac{1}{n_2}\sum_{i=1}^{n_2}X_{2i}
s_1=\sqrt{\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2},\quad s_2=\sqrt{\frac{1}{n_2-1}\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2}

根据总体方差是否相等可以分为两类
2.1总体方差相等且未知，样本方差满足\frac{1}{2}<\frac{s_1^2}{s_2^2}<2

记总体方差为\sigma^2=\sigma_1^2=\sigma_2^2。
跟之前的思路类似，要检验两总体均值是否相等，先给出样本均值的差的分布，根据假设易得：

\begin{aligned}&\quad\quad \bar X_1-\bar X_2\sim N\left(\mu_1-\mu_2,(\frac{1}{n_1}+\frac{1}{n_2})\sigma^2\right)\\&\rightarrow\frac{(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1)\quad (4)\end{aligned}

由卡方变量的重要定理：

\frac{(n_1-1)s_1^2}{\sigma^2}\sim\chi^2(n_1-1),\quad \frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_2-1)

由于两分布独立，则s_1^2,s_2^2独立，由卡方变量的可加性：

\frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2) \quad (5)

由t分布的构造定义，(4)÷\sqrt{(5)/(n_1+n_2-2)}，化简整理后可以得到：

\frac{(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) \quad (6)

其中：

s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}=\sqrt{\frac{\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2+\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2}{n_1+n_2-2}}\quad(7)

为两样本的合并标准差（pooled standard deviation），可以证明它的方差，即两样本的合并方差是总体方差\sigma^2的无偏估计（unbiased estimator），证明见文末附录1。
同样地，在H_0成立的条件下，\mu_1-\mu_2=0。根据研究的问题确定是双侧检验（two-side test）还是单侧检验（one-side test），若为双侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\frac{\alpha}{2},n-1}；若为单侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\alpha,n-1}。
检验原理

对于要检验两总体均值是否相等的双侧检验，若根据样本数据算出来的t统计量的绝对值\left|\frac{\bar X_1-\bar X_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\right|>t_{\frac{\alpha}{2},n-1}，则拒绝原假设，认为样本均值与总体均值不等，否则不拒绝原假设。
对于要检验总体均值\bar X_1>\bar X_2单侧检验，若根据样本数据算出来的t统计量\left|\frac{\bar X_1-\bar X_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\right|>t_{{\alpha},n-1}，则拒绝原假设，认为总体均值\bar X_1>\bar X_2，否则不拒绝原假设。
对于要检验总体均值\bar X_1<\bar X_2单侧检验，若根据样本数据算出来的t统计量 \left|\frac{\bar X_1-\bar X_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\right|>t_{{\alpha},n-1}，则拒绝原假设，认为总体均值\bar X_1<\bar X_2，否则不拒绝原假设。

2.2总体方差不等且未知（或者对它们一无所知），满足s_1^2>2s_2^2或s_2^2>2s_1^2

在这种情况（来自正态总体的两独立样本，无法假定它们方差相等）下，如何进行区间估计和假设检验的这个问题是由Walter Behrens and Ronald Fisher提出来的，故称为Behrens–Fisher problem。对于这个问题的研究，Behrens和Fisher给出了他们的估计Behrens_and_Fisher_approach，而现在最常用的是Welch's_approximate_t_solution，它是Satterthwaite_equation的解。
回到我们的问题。这里要引入Welch's t test，又名Welch's unequal variances t-test、unequal variances t-test（不等方差t检验)
在总体方差不等的情况下，2.1中t统计量的分母已不是总体方差的无偏估计，已不再适用，需重新构造一个t统计量，这里需要利用Satterthwaite近似法。
取统计量：

t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\quad(8)

它的自由度（df, degrees of freedom）：

\nu\approx\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{s_1^4}{n_1^2\nu_1}+\frac{s_2^4}{n_2^2\nu_2}}\quad(9)

其中\nu_1=n_1-1,\nu_2=n_2-1分别是X_1,X_2的自由度，当n_1,n_2>5时，近似t分布的效果比较好。
同样地，根据研究的问题确定是双侧检验（two-side test）还是单侧检验（one-side test），若为双侧检验，则查t界值表中自由度为\nu，双侧\alpha，得到临界值t_{\frac{\alpha}{2},\nu}；若为单侧检验，则查t界值表中自由度为\nu，单侧\alpha，得到临界值t_{\alpha,\nu}。
检验原理同2.1
3.配对样本均值检验

这种情况常常出现在生物医学研究中，常见的情形有：

配对的受试对象分别接受不同的处理（如将小白鼠配对为两组，分别接受不同的处理，检验处理结果的差异）
同一受试对象的两个部分接受不同的处理（如对于一批血清样本，将其分为两个部分，利用不同的方法接受某种化合物的检验，检验结果的差异）
同一受试对象的自身前后对照（如检验癌症患者术前、术后的某种指标的差异）

要求：

总体方差相等
正态数据或近似正态

既然是配对设计，不妨设n=n_1=n_2；方差相等，有\sigma^2=\sigma_1^2=\sigma_2^2。取要检验的指标的差值d_i=X_{1i}-X_{2i}，计算d_i的样本标准差s_d=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(d_i-\bar d)^2}。要检验配对样本均数的差是否为0，即检验d_i的均值是否为0，这样就转化为了“1.单样本t检验”，由于正态性和方差相等的假定，差值的均值（以大写字母表示随机变量，小写字母表示样本取值）：

\bar D=\bar X_1-\bar X_2\sim N(\mu_1-\mu_2,\frac{2\sigma^2}{n})

从而：

\frac{\bar D-(\mu_1-\mu_2)}{\sigma\sqrt\frac{2}{n}}\sim N(0,1)\quad(10)

构造\chi^2变量：

\frac{(n-1)s_d}{2\sigma^2}\sim\chi^2(n-1)\quad(11)

(10)÷\sqrt{(11)/(n-1)}化简整理得到：

\begin{equation}\frac{\sqrt n\left(\bar D-(\mu_1-\mu_2)\right)}{s_d}\end{equation}\sim t(n-1) \quad(12)

同样地，在H_0成立的条件下，\mu_1-\mu_2=0。根据研究的问题确定是双侧检验（two-side test）还是单侧检验（one-side test），若为双侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\frac{\alpha}{2},n-1}；若为单侧检验，则查t界值表中自由度为n-1，双侧\alpha，得到临界值t_{\alpha,n-1}。
检验原理

对于要检验差值的均值是否为0的双侧检验，若根据样本数据算出来的t统计量的绝对值\left|\frac{\sqrt n \bar D}{s_d}\right|>t_{\frac{\alpha}{2},n-1}，则拒绝原假设，认为样本均值与总体均值不等，否则不拒绝原假设。
对于要检验\mu_1>\mu_2的单侧检验，若根据样本数据算出来的t统计量\frac{\sqrt n \bar D}{s_d}<t_{{\alpha},n-1} ，则拒绝原假设，认为\mu_1\leq\mu_2，否则不拒绝原假设。
对于要检验\mu_1<\mu_2的单侧检验，若根据样本数据算出来的t统计量\frac{\sqrt n \bar D}{s_d}>t_{{\alpha},n-1}，则拒绝原假设，认为\mu_1\geq\mu_2，否则不拒绝原假设。

注意，第2条和第3条两种检验不要误用，否则可能会得到错误的结论，参考文献[1]例7.2.4就是一个典型的例子，在此例中，配对检验消除了每一对自身的差异，若直接利用两独立样本检验，则无法消除这个差异，得到错误的结论。

4.回归系数的显著性检验

目的：检验回归模型的回归系数是否等于给定的值，一般取为0，此时检验的意义是检验该回归系数对应的解释变量对被解释变量是否有显著影响（因为若接受取值为0的假设，则该解释变量的项对被解释变量没有作用了）。
将多元线性回归模型：

Y_i=\beta_0+\beta_1X_{1i}+\beta_2X_{2i}+\cdots+\beta_pX_{pi}+\varepsilon_i \quad(13)

写为矩阵形式：

\boldsymbol {y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol\varepsilon \quad or\quad \boldsymbol {\hat y}=\boldsymbol{X}\boldsymbol{\hat \beta}\quad(14)

其中：

\boldsymbol {y}=\left( \begin{matrix} y_1\\y_2\\\vdots\\y_n \end{matrix} \right)_{n×1},\quad\boldsymbol {X}=\left( \begin{matrix} 1&x_{11}&x_{12}&\cdots&x_{1p}\\1&x_{21}&x_{22}&\cdots&x_{2p}\\\vdots&\vdots&\vdots&&\vdots\\1&x_{n1}&x_{n2}&\cdots&x_{np} \end{matrix} \right)_{n×(p+1)}
\boldsymbol {\beta}=\left( \begin{matrix} \beta_0\\\beta_1\\\vdots\\\beta_p \end{matrix} \right)_{(p+1)×1},\quad\boldsymbol {\varepsilon}=\left( \begin{matrix} \varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n \end{matrix} \right)_{n×1}\sim \boldsymbol N(\boldsymbol 0,\sigma^2\boldsymbol I_n)

其中\boldsymbol I_n为n阶单位方阵。方程满足\boldsymbol X满秩、Gauss-Markov条件、随机误差项服从正态分布等假定。
可以证明（见附录2.1）：

\boldsymbol {\hat \beta}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\quad(15)
E(\boldsymbol {\hat \beta})=\boldsymbol {\beta}\quad(16)
D(\boldsymbol {\hat \beta})=\sigma^2(\boldsymbol X^T\boldsymbol X)^{-1}\quad(17)

其中D(\boldsymbol {\hat \beta})表示\boldsymbol {\hat \beta}的方差-协方差矩阵。在\boldsymbol {\varepsilon}服从正态分布的假定下，由于\boldsymbol{\beta}是常向量（回归模型背后蕴含的未知的规律），给定一组\boldsymbol X（\boldsymbol X可以看成变量，但不是随机变量，因为\boldsymbol X的取值是人为给定的），从而\boldsymbol \beta\boldsymbol X是常向量，从而 \boldsymbol {y}=\boldsymbol{\beta}\boldsymbol{X}+\boldsymbol\varepsilon\sim \boldsymbol N(\boldsymbol{\beta}\boldsymbol{X},\sigma^2\boldsymbol I_n)是正态变量。由(15)，\boldsymbol {\hat \beta}是\boldsymbol y的线性函数，从而\boldsymbol {\hat \beta}也是正态变量，再由(16)、(17)：

\boldsymbol {\hat \beta}\sim \boldsymbol N(\boldsymbol {\beta},\sigma^2(\boldsymbol X^T\boldsymbol X)^{-1})\quad(18)

令(\boldsymbol X^T\boldsymbol X)^{-1}=(c_{ij}),\quad i,j=1,2,\cdots,p+1，从而：

\hat\beta_{j-1}\sim N(\beta_{j-1},\sigma^2c_{{j-1},{j-1}})\rightarrow \frac{\hat\beta_{j-1}-\beta_{j-1}}{\sigma \sqrt{c_{{j-1},{j-1}}}}\sim N(0,1)\quad(19)

这样我们找到了一个标准正态变量，为了构造一个t统计量，接着就是要寻找一个与之独立的卡方变量，这一步是最难的，我们在这里直接给出来，(20)的证明见附录2.3。两者独立的证明见附录2.4。

\frac{\hat \sigma^2(n-p-1)}{\sigma^2}\sim \chi^2(n-p-1)\quad(20)

其中\hat\sigma^2=\frac{SSE}{n-p-1}=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2的无偏估计（证明见附录2.2）。
根据t分布的构造定义，由(19)/\sqrt{(20)/(n-p-1)}得：

\frac{\hat\beta_{j-1}-\beta_{j-1}}{\hat\sigma \sqrt{c_{{j-1},{j-1}}}}\sim t(n-p-1)\quad j=1,2,\dots,p+1\quad(21)

一般要检验解释变量X_j对被解释变量Y是否有显著影响，也即检验回归系数\hat\beta_{j-1}是否显著不为0，在这种情况下取\beta_{j-1}=0。而在一般情况下，要检验回归系数\hat\beta_{j-1}是否等于给定的\beta_{j-1}就有：

H_0：\hat \beta_{j-1}等于\beta_{j-1}
H_1：\hat \beta_{j-1}不等于\beta_{j-1}

取显著性水平\alpha，查得自由度为n-p-1的双侧\alpha的t界值t_{\frac{\alpha}{2},n-p-1}。若计算出来的t统计量的绝对值\left|\frac{\hat\beta_{j-1}-\beta_{j-1}}{\hat\sigma \sqrt{c_{jj}}}\right|>t_{\frac{\alpha}{2},n-p-1}，则拒绝原假设，认为\hat \beta_{j-1}不等于\beta_{j-1}，否则不拒绝原假设。绝大多数情况都是取\beta_{j-1}=0。
<hr/>附录1 合并方差是总体方差的无偏估计的证明
“加一项减一项”是很多数理统计证明题的灵魂，这里就用到了这个技巧。对于X_1：

\begin{aligned}\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2&=\sum_{i=1}^{n_1}[(X_{1i}-\mu_1)-(\bar X_1-\mu_1)]^2\\&=\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-2(\bar X_1-\mu_1)\sum_{i=1}^{n_1}(X_{1i}-\mu_1)+n_1(\bar X_1-\mu_1)^2\\&=\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-n_1(\bar X_1-\mu_1)^2\end{aligned}

由于：

\mu_1=E(X_{1i})=E(\bar X)

从而：

\begin{aligned}E\left(\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2\right)&=E\left(\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-n_1(\bar X_1-\mu_1)^2\right)\\&=\sum_{i=1}^{n_1}E(X_{1i}-\mu_1)^2-n_1E(\bar X_1-\mu_1)^2\\&=\sum_{i=1}^{n_1}E\left(X_{1i}-E(X_{1i})\right)^2-n_1E(\bar X_1-E(\bar X_1))^2\\&=\sum_{i=1}^{n_1}Var(X_{1i})-n_1Var(\bar X_{1})\\&=n_1\sigma^2-n_1\frac{\sigma^2}{n_1}\\&=(n_1-1)\sigma^2\end{aligned}

同理，对于X_{2}：

\begin{aligned}E\left(\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2\right)=(n_2-1)\sigma^2\end{aligned}

从而证明了是无偏估计：

\begin{aligned}E(s_p^2)&=E\left(\frac{\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2+\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2}{n_1+n_2-2}\right)\\&=\frac{(n_1+n_2-2)\sigma^2}{n_1+n_2-2}\\&=\sigma^2\end{aligned}

附录2.1 (15)-(17) 的证明
先证明(15)。这里介绍一个很方便的求\boldsymbol \beta的估计值的方法，不过要熟悉矩阵的运算，而且要首先给出三个引理：
Lemma 1 向量求导法则

\forall\boldsymbol A\in \mathbb R^{n×p},\boldsymbol X\in \mathbb R^{p}，有：
\frac{\partial(\boldsymbol A\boldsymbol X)}{\partial \boldsymbol X}=\boldsymbol A^T,\quad \frac{\partial(\boldsymbol X^T\boldsymbol X)}{\partial \boldsymbol X}=\boldsymbol 2X

第一个等式右边一定要记得转置，第二个等式可以类比一元函数求导：(x^2)'=2x
Lemma 2 复合向量函数求导法则
若\boldsymbol Z(\boldsymbol Y)是\boldsymbol Y的向量函数，\boldsymbol Y(\boldsymbol X)是\boldsymbol X的向量函数，则：

\frac{\partial\boldsymbol Z}{\partial \boldsymbol X}=\frac{\partial\boldsymbol Y}{\partial \boldsymbol X}\boldsymbol·\frac{\partial\boldsymbol Z}{\partial \boldsymbol Y}

等式右边的求导顺序一定不能反。
Lemma 3
对于下式左边，由前两个引理，不妨将(\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X视为Lemma2中的\boldsymbol Z(\boldsymbol Y)，\boldsymbol A\boldsymbol X视为\boldsymbol Y(\boldsymbol X)，易得：

\begin{aligned}\frac{\partial\left((\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X\right)}{\partial \boldsymbol X}&=\frac{\partial(\boldsymbol A\boldsymbol X)}{\partial \boldsymbol X}\frac{\partial\left((\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X\right)}{\partial(\boldsymbol A\boldsymbol X)}\\&=\boldsymbol A^T·2\boldsymbol A\boldsymbol X\\&=2\boldsymbol A^T\boldsymbol A\boldsymbol X\end{aligned}

接着我们定义残差e_i=y_i-\hat y_i，从而残差向量：

\left(\begin{matrix}e_1\\e_2\\\vdots\\e_n\end{matrix}\right):=\boldsymbol e=\boldsymbol y-\boldsymbol {\hat y}=\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta}

根据最小二乘估计（Least Square Estimation, LSE），要求\boldsymbol{\hat\beta}，即求使得\sum_{i=1}^ne_i^2最小的\boldsymbol{\hat\beta}。

\begin{aligned}\sum_{i=1}^ne_i^2&=\left(\begin{matrix}e_1,e_2,\cdots,e_n\end{matrix}\right)\boldsymbol·\left(\begin{matrix}e_1\\e_2\\\vdots\\e_n\end{matrix}\right)\\&=\boldsymbol e^T\boldsymbol e\\&=(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})^T(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\end{aligned}

根据Lemma 3的结论：

\begin{aligned}\frac{\partial\left(\sum_{i=1}^ne_i^2\right)}{\partial\boldsymbol {\hat\beta}}&=\frac{\partial\left((\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})^T(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\right)}{\partial\boldsymbol {\hat\beta}}\\&=-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol \beta)\end{aligned}

令上式等于0，得到：

\begin{aligned}-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol \beta)&=0\\\rightarrow\boldsymbol X^T\boldsymbol y &=\boldsymbol X^T\boldsymbol X\boldsymbol \beta\\\rightarrow\boldsymbol {\hat\beta}&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\quad (两边同乘(\boldsymbol X^T\boldsymbol X)^{-1})\end{aligned}

接着证明(16)：

\begin{aligned}E(\hat {\boldsymbol \beta})&=E\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\right]\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol E(y)\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol X{\boldsymbol \beta}\\&={\boldsymbol \beta}\end{aligned}

为了证明(17)，先给出一个引理：
Lemma 4

若Var(\boldsymbol y)=\sigma^2\boldsymbol I_n，\boldsymbol {c}=\left( \begin{matrix} c_1\\c_2\\\vdots\\c_n \end{matrix} \right)_{n×1}\in\mathbb R^n，则：
Var(\boldsymbol c^T\boldsymbol y)=\boldsymbol c^T\boldsymbol I_n\boldsymbol c·Var({\boldsymbol y})=\sigma^2\boldsymbol c^T\boldsymbol c
若\boldsymbol c_1,\boldsymbol c_2\in\mathbb R^n，则：
Cov(\boldsymbol c_1^T\boldsymbol y,\boldsymbol c_2^T\boldsymbol y)=\boldsymbol c_1^T\boldsymbol I_n\boldsymbol c_2·Var({\boldsymbol y})=\sigma^2\boldsymbol c_1^T\boldsymbol c_2

利用该引理：

\begin{aligned}D(\hat {\boldsymbol \beta})&=Cov(\hat {\boldsymbol \beta},\hat {\boldsymbol \beta})\\&=Cov\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y,(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\right]\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\sigma^2\boldsymbol I_n·\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right]^T\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\\&=\sigma^2(\boldsymbol X^T\boldsymbol X)^{-1}\end{aligned}

附录2.2 \hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2 的无偏估计的证明
这里要对于矩阵取方差-协方差的运算给出引理：
Lemma 5
设\boldsymbol A\in \mathbb R^{m×n}为常矩阵，\boldsymbol y\in \mathbb R^{n×1}为随机向量，则\boldsymbol A \boldsymbol y的方差-协方差矩阵：

D(\boldsymbol A \boldsymbol y)=\boldsymbol AD(\boldsymbol y)\boldsymbol A^T

在附录2.1中我们得到了\boldsymbol{\hat\beta}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y，从而：

\begin{aligned}\boldsymbol e&=\boldsymbol y-\boldsymbol {\hat y}\\&=\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta}\\&=\boldsymbol y-\boldsymbol {X}(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\\&=\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \right)\boldsymbol y\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol y\quad \left(\mathrm{Let}\,\boldsymbol H=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\end{aligned}

上式中的H=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T称为帽子矩阵，因为它作用在\boldsymbol y上就得到了\boldsymbol {\hat y}，就像给\boldsymbol y戴了一顶帽子。\boldsymbol I是\boldsymbol I_n的简写。现在证明两个很重要的结论：

\boldsymbol I-\boldsymbol H为对称阵
\begin{aligned}(\boldsymbol I-\boldsymbol H)^T&=\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)^T\\&=\boldsymbol I^T-\left(\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)^T\\&=\boldsymbol I-(\boldsymbol X^T)^T\boldsymbol ·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol ·\boldsymbol X^T\\&=\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\\&=\boldsymbol I-\boldsymbol H\end{aligned}
\boldsymbol I-\boldsymbol H为幂等阵
\begin{aligned}(\boldsymbol I-\boldsymbol H)\boldsymbol·(\boldsymbol I-\boldsymbol H)&=\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\boldsymbol ·\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\boldsymbol I-2\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\\&\quad +\left(\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\boldsymbol ·\left(\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\boldsymbol I-2\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T+\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\\&=\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\\&=\boldsymbol I-\boldsymbol H\end{aligned}

稍安勿躁，现在求\boldsymbol e的期望：

\begin{aligned}E(\boldsymbol e)&=E(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\\&=\boldsymbol y-\boldsymbol XE(\boldsymbol {\hat \beta})\\&=\boldsymbol y-\boldsymbol X\boldsymbol \beta\\&=\boldsymbol 0\end{aligned}

从而E(e_i)=0,\quad i=1,2,\cdots,n
再求\boldsymbol e的方差-协方差矩阵，由Lemma 4：

\begin{aligned}D(\boldsymbol e)&=D\left((\boldsymbol I-\boldsymbol H)\boldsymbol y\right)\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol·D(\boldsymbol y)\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\end{aligned}

在正文中已证明了D(\boldsymbol y)=\sigma^2\boldsymbol I，从而

\begin{aligned}D(\boldsymbol e)&=(\boldsymbol I-\boldsymbol H)D(\boldsymbol y)(\boldsymbol I-\boldsymbol H)^T\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol·\sigma^2\boldsymbol I\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\\&=\sigma^2\boldsymbol I\boldsymbol·(\boldsymbol I-\boldsymbol H)\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\\&=\sigma^2(\boldsymbol I-\boldsymbol H)\boldsymbol ·(\boldsymbol I-\boldsymbol H)\\&=\sigma^2(\boldsymbol I-\boldsymbol H)\end{aligned}

记\boldsymbol H=(h_{ij}),\quad i,j=1,2,\cdots,n。从而Var(e_i)=\sigma^2(1-h_{ii}),\quad i=1,2,\cdots,n
现在来看一下\boldsymbol H的迹，也即对角线元素之和，需要用到性质：tr(\boldsymbol A\boldsymbol B)=tr(\boldsymbol B\boldsymbol A)：

\begin{aligned}\sum_{i=1}^nh_{ii}&=tr(\boldsymbol H)\\&=tr\left(\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=tr\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol X\right)\\&=tr(\boldsymbol I_{p+1})\\&=p+1\end{aligned}

现在就可以回到原来的问题，证明\hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2的无偏估计：

\begin{aligned}E\left(\frac{\sum_{i=1}^n e_i^2}{n-p-1}\right)&=\frac{1}{n-p-1}\sum_{i=1}^nE(e_i^2)\\&=\frac{1}{n-p-1}\sum_{i=1}^n[E(e_i^2)-0]\\&=\frac{1}{n-p-1}\sum_{i=1}^n[E(e_i^2)-E(e_i)]\\&=\frac{1}{n-p-1}\sum_{i=1}^nVar(e_i)\\&=\frac{1}{n-p-1}\sum_{i=1}^n\sigma^2(1-h_{ii})\\&=\frac{\sigma^2}{n-p-1}\left(n-\sum_{i=1}^{n}h_{ii}\right)\\&=\frac{\sigma^2}{n-p-1}(n-p-1)\\&=\sigma^2\end{aligned}

附录2.3 证明\frac{\hat \sigma^2(n-p-1)}{\sigma^2}\sim \chi^2(n-p-1)
首先，记\boldsymbol y^*=\boldsymbol y-\boldsymbol X\boldsymbol\beta\sim \boldsymbol N(\boldsymbol 0,\sigma^2\boldsymbol I)，利用“\boldsymbol H \boldsymbol X=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol X=\boldsymbol X”的性质得到：

\begin{aligned}\boldsymbol e&=\boldsymbol y-\boldsymbol{\hat y}\\&=(\boldsymbol y-\boldsymbol X\boldsymbol \beta)-(\boldsymbol{\hat y}-\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-(\boldsymbol H\boldsymbol y-\boldsymbol H\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-\boldsymbol H(\boldsymbol y-\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-\boldsymbol H\boldsymbol y^*\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\end{aligned}

从而：

\begin{aligned}\hat \sigma^2(n-p-1)&=\boldsymbol e^T \boldsymbol e\\&=\boldsymbol (y^{*})^T(\boldsymbol I- \boldsymbol H)^T\boldsymbol · (\boldsymbol I-\boldsymbol H)\boldsymbol y^*\\&=(y^{*})^T(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\end{aligned}

由于\boldsymbol I-\boldsymbol H为幂等阵，故存在一个对角矩阵

\begin{aligned}\Lambda_r&=\mathrm{diag}(\underbrace{1,1,\cdots,1}_{r个1},\underbrace{0,0,\cdots,0}_{n-r个0})\\&=\left(\begin{matrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&&0&&\\&&&&\ddots&\\&&&&&0\end{matrix}\right)\end{aligned}

和正交矩阵\boldsymbol P（满足\boldsymbol P\boldsymbol P^T=\boldsymbol P^T\boldsymbol P =\boldsymbol I），使得：

\boldsymbol I-\boldsymbol H=\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P

由此关系重新考虑\boldsymbol I-\boldsymbol H的迹可以得到r的值：

n-p-1=tr(\boldsymbol I-\boldsymbol H)=tr(\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P)=tr(\boldsymbol \Lambda_r\boldsymbol P\boldsymbol P^T)=tr(\boldsymbol \Lambda_r)=r

另一方面，令\boldsymbol Z=\boldsymbol P\boldsymbol y^*，利用矩阵乘法以及期望的线性性质容易得到（这也是多元统计分析里的基本结论）：

E(\boldsymbol Z)=E(\boldsymbol P\boldsymbol y^*)=\boldsymbol PE(\boldsymbol y^*)=\boldsymbol P\boldsymbol ·\boldsymbol 0=\boldsymbol 0

再由Lemma 4：

\begin{aligned}D(\boldsymbol Z)&=D(\boldsymbol P\boldsymbol y^*)\\&=\boldsymbol P D(\boldsymbol y^*)\boldsymbol P^T\\&=\boldsymbol P \boldsymbol·\sigma^2\boldsymbol I\boldsymbol·\boldsymbol P^T\\&=\sigma^2\boldsymbol I\boldsymbol ·\boldsymbol P\boldsymbol P^T\\&=\sigma^2\boldsymbol I\end{aligned}

由于\boldsymbol Z为正态变量\boldsymbol y^*的线性函数，故\boldsymbol Z也为正态变量，取它的每一个分量z_i\sim N(0,\sigma^2),\quad i=1,2,\cdots,n。从而：

\frac{z_i}{\sigma}\sim N(0,1)\rightarrow \frac{z_i^2}{\sigma^2}\sim \chi^2(1)

再回到对\sigma^2(n-p-1)的探究上：

\begin{aligned}\sigma^2(n-p-1)&=(y^{*})^T(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\\&=(y^{*})^T(\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P)\boldsymbol y^*\\&=(\boldsymbol P\boldsymbol y^*)^T\boldsymbol \Lambda_r(\boldsymbol P\boldsymbol y^*)\\&=\boldsymbol Z^T \boldsymbol \Lambda_r\boldsymbol Z\\&=\left(\begin{matrix}z_1,z_2,\cdots,z_n\end{matrix}\right)\left(\begin{matrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&&0&&\\&&&&\ddots&\\&&&&&0\end{matrix}\right)\left(\begin{matrix}z_1\\z_2\\\vdots\\z_n\end{matrix}\right)\\&=\sum_{i=1}^rz_i^2\end{aligned}

最后利用卡方分布的可加性我们证明了结论：

\begin{aligned}\frac{\hat \sigma^2(n-p-1)}{\sigma^2}&=\frac{\sum_{i=1}^rz_i^2}{\sigma^2}\\&=\sum_{i=1}^{n-p-1}\frac{z_i^2}{\sigma^2}\quad(r=n-p-1)\\&\sim \chi^2(n-p-1)\end{aligned}

其实这里 \Lambda_r 的秩 rank(\Lambda_r)=r 恰恰就是卡方变量的自由度，这也是自由度与矩阵的关系。
附录2.4 标准正态变量与卡方变量的独立性的证明
要证\hat\beta_j与\frac{\hat \sigma^2(n-p-1)}{\sigma^2}的独立性，由于\hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1}，我们来考察\hat {\boldsymbol \beta}与\boldsymbol e的关系，为了计算它们的协方差，我们首先给出一个引理：
Lemma 5

若Var(\boldsymbol y)=\sigma^2\boldsymbol I_n，\boldsymbol {c}=\left( \begin{matrix} c_1\\c_2\\\vdots\\c_n \end{matrix} \right)_{n×1}\in\mathbb R^n，则：
Var(\boldsymbol c^T\boldsymbol y)=\boldsymbol c^T\boldsymbol I_n\boldsymbol c·Var({\boldsymbol y})=\sigma^2\boldsymbol c^T\boldsymbol c
若\boldsymbol c_1,\boldsymbol c_2\in\mathbb R^n，则：
Cov(\boldsymbol c_1^T\boldsymbol y,\boldsymbol c_2^T\boldsymbol y)=\boldsymbol c_1^T\boldsymbol I_n\boldsymbol c_2·Var({\boldsymbol y})=\sigma^2\boldsymbol c_1^T\boldsymbol c_2

根据Lemma 5：

\begin{aligned}Cov(\hat {\boldsymbol \beta},\boldsymbol e)&=Cov\left((\boldsymbol X^T\boldsymbol X)^{-1}X^T\boldsymbol y,(\boldsymbol I\boldsymbol -\boldsymbol H)\boldsymbol y\right)\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·(\boldsymbol I-\boldsymbol H)\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\sigma^2·\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T-(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\sigma^2·\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T-(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=0\end{aligned}

说明\hat {\boldsymbol \beta}与\boldsymbol e不相关。由于它们都是正态变量，两正态变量不相关等价于独立，且两独立变量的函数变量也相互独立。而\hat \sigma^2=\frac{\sum e_i^2}{n-p-1}=\frac{\boldsymbol e^T\boldsymbol e}{n-p-1}是\boldsymbol e的函数。从而\hat{\boldsymbol \beta}与\hat \sigma^2独立，从而标准正态分布与卡方变量独立。自此，t检验的原理结束了。
后记

这样一篇八千多字的文章写了我一天多的时间，查阅资料并学习花了半天多，打出来又花了半天多，主要还是打公式太耗时间了。这样系统地梳理了一遍t检验的原理，应该给出的、教材上缺失的证明我几乎都给出来了，虽然很多证明都不难（除了回归系数那个），而且也有资料可查，但是花一天多的时间系统地梳理一遍还是挺费心思的，也能够对加深对t检验的理解。
参考文献

[1]茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].高等教育出版社:北京,2011:284-291,368-369,371-375.
[2]何晓群,刘文卿.应用回归分析[M].中国人民大学出版社:北京,2001:59-64.
[3]王炳顺等.医学统计学及SAS应用[M].上海交通大学出版社:上海,2009:68-77.
[4]https://en.wikipedia.org/wiki/Student%27s_t-test
更新日志
2020.9.26 修改了一些错误并增加附录2.4：标准正态变量与卡方变量独立性的证明
2020.9.27 增加(16),(17)的证明，修改了beta的角标问题

原文地址：https://zhuanlan.zhihu.com/p/138711532

图文播报

[分享] 一文详解t检验

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心