12第12章多元线性回归2009_图文

统计学
STATISTICS (第四版)

第12章 多元线性回归

12 - 1

作者:中国人民大学统计学院
贾俊平
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

第12章 多元线性回归

12.1 多元线性回归模型 12.2 回归方程的拟合优度 12.3 显著性检验 12.4 多重共线性 12.5 利用回归方程进行估计和预测 12.6 变量选择与逐步回归

12 - 2

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

学习目标

1. 回归模型、回归方程、估计的回归方程 2. 回归方程的拟合优度 3. 回归方程的显著性检验 4. 多重共线性问题及其处理 5. 利用回归方程进行估计和预测 6. 变量选择与逐步回归 7. 用 Excel 进行回归分析

12 - 3

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

12.1 多元线性回归模型

12.1.1 多元回归模型与回归方程 12.1.2 估计的多元回归方程 12.1.3 参数的最小二乘估计

12 - 4

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
多元回归模型与回归方程

12 - 5

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多元回归模型
(multiple regression model)

1. 一个因变量与两个及两个以上自变量的回归
2. 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 ? 的方程,称为多元回归模型
3. 涉及 k 个自变量的多元回归模型可表示为

12 - 6

y ? b0 ? b1x1 ? b2 x2 ? ?? bk xk ? ?
? b0 ,b1,b2 ,?,bk是参数 ? ? 是被称为误差项的随机变量 ? y 是x1,,x2 ,? ,xk 的线性函数加上误差项? ? ? 包含在y里面但不能被k个自变量的线性关系
所解释的变异性
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多元回归模型
(基本假定)

1. 误差项ε是一个期望值为0的随机变量,即
E(?)=0
2. 对于自变量x1,x2,…,xk的所有值,?的 方差? 2都相同
3. 误差项ε是一个服从正态分布的随机变量 ,即ε~N(0,?2),且相互独立

12 - 7

作者:贾俊平,中国人民大学统计学院

统计学

多元回归方程

STATISTICS (第四版)

(multiple regression equation)

1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xk的方程
2. 多元线性回归方程的形式为
E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xk
? b1,b2,?,bk称为偏回归系数 ? bi 表示假定其他变量不变,当 xi 每变
动一个单位时,y 的平均变动值

12 - 8

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

二元回归方程的直观解释

二元线性回归模型
回归面

y

y ? b0 ? b1x1 ? b2x2 ? ?

(观察到的y)

} b0

?i

x1
12 - 9

x2
(x1,x2)
E( y) ? b0 ? b1x1 ? b2x2
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
估计的多元回归方程

12 - 10

作者:贾俊平,中国人民大学统计学院

统计学 估计的多元回归的方程

STATISTICS (第四版)

(estimated multiple regression equation)

1. 用样本统计量 b?0 , b?1 , b?2 ,?, b?k 估计回归方 程中的 参数 b0 , b1 , b2 ,?, bk 时得到的方程
2. 由最小二乘法求得

3. 一般形式为

y? ? b?0 ? b?1x1 ? b?2 x2 ??? b?k xk

12 - 11

? b?0 , b?1 , b?2 ,?, b?k是 b0 , b1 , b2 ,?, bk
估计值
? y? 是 y 的估计值
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
参数的最小二乘估计

12 - 12

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

参数的最小二乘法

1. 使因变量的观察值与估计值之间的离差平方和 达到最小来求得 b?0 , b?1 , b?2 ,?, b?k 。即

2. 求解各回归参数的标准方程如下

12 - 13

? ?Q

? ?

?b

0

?

b0 ?b?0

?0

? ?Q

? ?

?b

i

bi ?b?i

?0

(i ? 1,2,?,k)
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

参数的最小二乘法
(例题分析)

【例】一家大型商业银行在多个地区设有分
行,为弄清楚不良贷款形成的原因,抽取 了该银行所属的25家分行2002年的有关业 务数据。试建立不良贷款y与贷款余额x1、 累计应收贷款x2、贷款项目个数x3和固定资 产投资额x4的线性回归方程,并解释各回 归系数的含义

12 - 14

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

12.2 回归方程的拟合优度

12.2.1 多重判定系数 12.2.2 估计标准误差

12 - 15

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
多重判定系数

12 - 16

作者:贾俊平,中国人民大学统计学院

统计学

多重判定系数

STATISTICS (第四版)

(multiple

coefficient

of

determination)

1. 回归平方和占总平方和的比例 2. 计算公式为

3. 因变量取值的变差中,能被估计的多元回 归方程所解释的比例

12 - 17

作者:贾俊平,中国人民大学统计学院

统计学

修正多重判定系数

STATISTICS (第四版)

(adjusted multiple coefficient of determination)

1. 用样本量n和自变量的个数k去修正R2得到 2. 计算公式为

3. 避免增加自变量而高估 R2 4. 意义与 R2类似 5. 数值小于R2

12 - 18

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

估计标准误差 Sy

1. 对误差项?的标准差? 的一个估计值 2. 衡量多元回归方程的拟合优度 3. 计算公式为

12 - 19

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

12.3 显著性检验

12.3.1 线性关系检验 12.3.2 回归系数检验和推断

12 - 20

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
线性关系检验

12 - 21

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

线性关系检验

1. 检验因变量与所有自变量之间的线性关系是 否显著
2. 也被称为总体的显著性检验 3. 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方
(MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著
? 如果是显著的,因变量与自变量之间存在线性 关系
? 如果不显著,因变量与自变量之间不存在线性 关系

12 - 22

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

线性关系检验

1. 提出假设
? H0:b1?b2???bk=0 线性关系不显著 ? H1:b1,b2,? bk至少有一个不等于0
2. 计算检验统计量F

3. 确定显著性水平?和分子自由度k、分母自由度n-

k-1找出临界值F ? 4. 作出决策:若F>F ?,拒绝H0

12 - 23

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
回归系数检验和推断

12 - 24

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

回归系数的检验

1. 线性关系检验通过后,对各个回归系数有 选择地进行一次或多次检验

2. 究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定

3. 对回归系数检验的个数进行限制,以避免 犯过多的第Ⅰ类错误(弃真错误)
4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量

12 - 25

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

回归系数的检验
(步骤)

1. 提出假设
? H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) ? H1: bi ? 0 (自变量 xi 与 因变量 y有线性关系)
2. 计算检验的统计量 t

3. 确定显著性水平?,并进行决策

? ? t?>t??2,拒绝H0; t?<t??2,不拒绝H0

12 - 26

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

回归系数的推断
(置信区间)

?回归系数在(1-?)%置信水平下的置信区间为

b?i ? t? 2 (n ? k ?1)sb?i

回归系数的 抽样标准差

12 - 27

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

12.4 多重共线性

12.4.1 多重共线性及其所产生的问题 12.4.2 多重共线性的判别 12.4.3 多重共线性问题的处理

12 - 28

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
多重共线性及其产生的问题

12 - 29

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性
(multicollinearity)

1. 回归模型中两个或两个以上的自变量彼此 相关
2. 多重共线性带来的问题有
? 可能会使回归的结果造成混乱,甚至会把分 析引入歧途
? 可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同预期的正负 号相反

12 - 30

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
多重共线性的识别

12 - 31

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性的识别

1. 检测多重共线性的最简单的一种办法是计算模型 中各对自变量之间的相关系数,并对各相关系数 进行显著性检验
? 若有一个或多个相关系数显著,就表示模型中所用 的自变量之间相关,存在着多重共线性
2. 如果出现下列情况,暗示存在多重共线性
? 模型中各对自变量之间显著相关
? 当模型的线性关系检验(F检验)显著时,几乎所有回 归系数的t检验却不显著
? 回归系数的正负号与预期的相反

12 - 32

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性
(例题分析)

【例】判别各自变量之间是否存在多重共线性
贷款余额、应收贷款、贷款项目、固定资产投资额之间的相关矩阵

12 - 33

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性
(例题分析)

【例】判别各自变量之间是否存在多重共线性
相关系数的检验统计量

12 - 34

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性
(例题分析)

1. t??2(25-2)=2.069,所有统计量t >t??2(25-2)=2.069,所 以均拒绝原假设,说明这4个自变量两两之间都有显著 的相关关系
2. 由表Excel输出的结果可知,回归模型的线性关系显著
(Significance-F=1.03539E-06<?=0.05)。而回归系数
检 验 时 却 有 3 个 没 有 通 过 t 检 验 (P-Value=0.074935 ,
0.862853,0.067030>?=0.05) 。这也暗示了模型中存
在多重共线性
3. 固定资产投资额的回归系数为负号(-0.029193) ,与预 期的不一致

12 - 35

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)
多重共线性问题的处理

12 - 36

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

多重共线性
(问题的处理)

1. 将一个或多个相关的自变量从模型中剔 除,使保留的自变量尽可能不相关

2. 如果要在模型中保留所有的自变量,则 应
? 避免根据 t 统计量对单个参数进行检验
? 对因变量值的推断(估计或预测)的限定在自 变量样本值的范围内

12 - 37

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

提示

1. 在建立多元线性回归模型时,不要试图 引入更多的自变量,除非确实有必要

2. 在社会科学的研究中,由于所使用的大 多数数据都是非试验性质的,因此,在 某些情况下,得到的结果往往并不令人 满意,但这不一定是选择的模型不合适 ,而是数据的质量不好,或者是由于引 入的自变量不合适

12 - 38

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS 12.5 利用回归方程进行估计和预测
(第四版)
软件应用

12 - 39

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS

用SPSS求置信区间和预测区间

(第四版)

12 - 40

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

置信区间和预测区间
(例题分析)

12 - 41

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS

12.6 变量选择与逐步回归

(第四版)

12.6.1 变量选择过程 12.6.2 向前选择 12.6.3 向后剔除 12.6.4 逐步回归

12 - 42

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

变量选择过程

1. 在建立回归模型时,对自变量进行筛选

2. 选择自变量的原则是对统计量进行显著性检验

? 将一个或一个以上的自变量引入到回归模型中时,是否使 得残差平方和(SSE)有显著地减少。如果增加一个自变量 使SSE的减少是显著的,则说明有必要将这个自变量引入 回归模型,否则,就没有必要将这个自变量引入回归模型

? 确定引入自变量是否使SSE有显著减少的方法,就是使用F 统计量的值作为一个标准,以此来确定是在模型中增加一 个自变量,还是从模型中剔除一个自变量

3. 变量选择的方法主要有:向前选择、向后剔除、逐步 回归、最优子集等

12 - 43

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

向前选择
(forward selection)

1. 从模型中没有自变量开始

2. 对k个自变量分别拟合对因变量的一元线性 回归模型,共有k个,然后找出F统计量的值
最高的模型及其自变量,并将其首先引入模 型

3. 分别拟合引入模型外的k-1个自变量的线性 回归模型

4. 如此反复进行,直至模型外的自变量均无统 计显著性为止

12 - 44

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

向后剔除
(backward elimination)

1. 先对因变量拟合包括所有k个自变量的回归模型。 然后考察p(p<k)个去掉一个自变量的模型(这些模 型中每一个都有的k-1个自变量),使模型的SSE值 减小最少的自变量被挑选出来并从模型中剔除
2. 考察p-1个再去掉一个自变量的模型(这些模型中在 每一个都有k-2个的自变量),使模型的SSE值减小 最少的自变量被挑选出来并从模型中剔除
3. 如此反复进行,一直将自变量从模型中剔除,直至 剔除一个自变量不会使SSE显著减小为止

12 - 45

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

逐步回归
(stepwise regression)

1. 将向前选择和向后剔除两种方法结合起来筛选自变量

2. 在增加了一个自变量后,它会对模型中所有的变量进 行考察,看看有没有可能剔除某个自变量。如果在增 加了一个自变量后,前面增加的某个自变量对模型的 贡献变得不显著,这个变量就会被剔除

3. 按照方法不停地增加变量并考虑剔除以前增加的变量 的可能性,直至增加变量已经不能导致SSE显著减少

4. 在前面步骤中增加的自变量在后面的步骤中有可能被 剔除,而在前面步骤中剔除的自变量在后面的步骤中 也可能重新进入到模型中

12 - 46

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

逐步回归
(例题分析—SPSS输出结果)

Variable Entered/Removed a

model Variable Entered Variable Removed

method

1

各项贷款余额x1

Stepwise(Criteria:Probability-of-F-toenter<=.050,
Probability-of-F-to-remove<=.100).

2

固定资产投资额x4

a Dependent variable:不良贷款y 12 - 47

Stepwise(Criteria:Probability-of-F-toenter<=.050, Probability-of-F-to-remove<=.100).
作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

逐步回归
(例题分析—SPSS输出结果)

Model summary

model
1
只含x1的模型

R .844
a

R-Square Adjusted R-

Square

.712

.699

Std.Error of the Estimate 1.9799

2

.872

含x1和x4的模型

b

.761

.739

1.8428

a Predictors:(Constant),各项贷款余额x1 b Predictors:(Constant),各项贷款余额x1,固定资产投资额x4

12 - 48

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

逐步回归
(例题分析—SPSS输出结果)

ANOVA c

model

Sum of Squares

df

Mean Square

F

Sig.

1 Regress 222.486 Residual 90.164 Total 312.650

1

222.486 56.754 .000a

23

3.920

24

2 Regress Residual Total

237.941 74.709 312.650

2 22

118.971 3.396

35.034

.000
b

24

a Predictors:(Constant),各项贷款余额x1

b Predictors:(Constant),各项贷款余额x1,固定资产投资额x4

c De1p2e-nd4e9nt variable:不良贷款y

作者:贾俊平,中国人民大学统计学院

统计学
STATISTICS (第四版)

逐步回归
(例题分析—SPSS输出结果)

Coefficients a

Unstandardized Unstandardized

Coefficients

Coefficients

Model
1 (Constant) 贷款余额x1

B
-.830 .038

Std.Error
.723 .005

2 (Constant)

-.443 .697

贷款余额x1

.050 .007

固定资产投资 -.032 .015

x4

a Dependent variable:不良贷款y

Beta

t

Sig.

0844 -1.147 .263 7.534 .000

1.120 -.636 .531 -.355 6.732 .000
-2.133 .044

12 - 50

y?

?

?0.433

?

0.050x1

? 0.032x 作者:贾俊平,中国人民大学统计学院 4

统计学
STATISTICS (第四版)

本章小结

1. 多元回归模型、回归方程、估计方程

2. 回归方程的拟合优度

3. 显著性检验

4. 多重共线性

5. 利用回归方程进行估计和预测

6. 变量选择与逐步回归

7. 虚拟自变量的回归
12 - 51

作者:贾俊平,中国人民大学统计学院

结束


相关文档

12第12章多元线性回归2019
统计学12第12章多元线性回归
第三章多元线性回归模型11-12
(09)第9章多元线性回归
第6章多元线性回归分析
第10章多元线性回归与相关
第15章多元线性回归分析
第5章多元线性回归模型
第3章多元线性回归模型
第13章多元线性回归 共52页
学霸百科
59909058文学网 599090581php网站 599090582jsp网站 599090583小说站 599090584算命网 599090585占卜网 599090586星座网
电脑版 |