14个常见回归模型

1 线性回归 (Linear Regression):
- 概念:线性回归是最基本的回归分析方法,用于预测一个因变量(连续)与一个或多个自变量(连续或离散)之间的线性关系。
- 变量特征:连续的因变量、连续或分类的自变量
- 适用场景:当研究变量间存在线性关系时使用
- 公式:
,其中 是误差项。 - 参考课题:经济增长对就业率的影响
2 逻辑回归 (Logistic Regression):
- 概念:逻辑回归用于处理二分类问题,通过对数几率 (log-odds) 来预测事件发生的概率。
- 变量特征:因变量为二分类,自变量可适用于预测事以是连续的或件发生的概率分类的。
- 使用场景:适用于预测事件发生的概率
- 公式:
,其中 是事件发生的概率。 - 参考课题:消费者购买行为的预测
3 多项式回归 (Polynomial Regression):
- 概念:多项式回归是一种扩展线性回归的方法,允许回归模型中的自变量是多项式形式,以捕捉非线性关系。
- 变量特征:连续的因变量,自变量可以是连续的或分类的
- 使用场景:当数据显示更复杂的曲线趋势时使用
- 公式:
。 - 参考课题:气温变化对电力消耗的影响
4 步进回归 (Stepwise Regression):
- 概念:步进回归是一种特征选择方法,通过逐步添加或移除预测变量来构建回归模型,通常采用前向选择、后向消除或双向逐步选择的方法。
- 变量特征:连续的因变量,连续或分类的自变量
- 使用条件:需要确定哪些自变量对因变量有显著影响
- 参考课题:城市发展对房价的影响
5 岭回归 (Ridge Regression):
- 概念:岭回归是一种正则化方法,通过在损失函数中添加
正则项来减小回归系数的绝对值,从而避免过拟合。用于处理自变量之间多重共线性。 - 变量特征:连续的因变量,连续或分类的自变量。
- 使用场景:当自变量间存在强烈的多重共线性时。
- 公式:
。 - 参考课题:股票价格的影响因素分析
6 LASSO回归 (LASSO Regression):
- 概念:LASSO (Least Absolute Shrinkage and Selection Operator) 回归是一种正则化方法,通过在损失函数中添加
正则项来实现特征选择和参数收缩。与岭回归类似,但可以将某些系数缩减到0,从而进行变量选择。 - 变量特征:连续的因变量,连续或分类的自变量
- 适用场景:当需要变量选择以及处理多重共线性时
- 公式:
- 参考课题:基因表达数据的分析
7 弹性网回归 (Elastic Net Regression):
- 概念:弹性网回归结合了岭回归和LASSO回归的优点,通过在损失函数中同时添加
和 正则项来控制模型的复杂度。 - 变量特征:连续的因变量,连续或分类的自变量
- 适用场景:当需要处理多重共线性并进行变量选择时
- 公式:
。 - 参考课题:金融风险评估
8 量化回归 (Quantile Regression):
- 概念:量化回归是一种对响应变量的分位数进行建模的回归方法,一种允许不同条件下因变量分布的不同部分有不同线性关系的回归方法。
- 变量特征:连续的因变量,连续或分类的自变量
- 适用场景:当数据的条件分布房价分布的不均匀性研究不均匀时使用
- 参考课题:房价分布的不均匀性研究
9 泊松回归 (Poisson Regression):
- 概念:泊松回归用于建模计数数据(即事件发生次数)
- 变量特征:因变量为计数数据,自变量可以是连续的或分类的
- 使用场景:适用于事件发生次数的研究
- 公式:假设响应变量服从泊松分布。其公式为
,其中 是事件发生率。 - 参考课题:交通事故发生次数分析
10 负二项回归 (Negative Binomial Regression):
- 概念:负二项回归是泊松回归的扩展,适用于过度离散(即方差大于均值)的计数数据,假设响应变量服从负二项分布。
- 变量特征:因变量为计数数据,自变量可以是连续的或分类的。
- 使用场景:当计数数据存在过度离散时
- 课题示例:医院入院次数的分析
11 广义估计方程 (Generalized Estimating Equations, GEE):
- 概念:广义估计方程是一种用于分析相关数据(如纵向或群组数据)的回归方法,能够处理数据中的相关性和异质性。
- 变量特征:连续或分类的因变量,连续或分类的自变量
- 使用场景:适用于重复测量或聚类数据
- 课题示例:社区健康研究
关键特点和优势
- 处理相关数据:GEE能够处理数据中的相关性和异质性(不同观测值之间的差异)。这在纵向研究或群组研究中非常重要,因为同一对象的多次观测通常不是独立的。
- 纵向数据的回归分析:如研究某强化方案治疗某疾病的疗效(结局为治愈)。两组患者分别实施强化和常规方案后,每隔2周进行一次随访,对某项疗效指标进行检查,查看是否恢复正常。【如果是连续性变量,可以用重复测量方差分析】、
- 因变量间存在相关性的其他数据:如耐药肺结核患者可能耐一种或多种药物,耐药数目相同者可能耐药种类不同,不同药物的耐药性间可能存在相关性。因此,建议将每位患者的每一种药物的耐药情况都清晰列出,作为因变量,采用GEEs进行影响因素探究。
- 灵活的相关结构:GEE允许用户指定不同的相关结构(如独立、交换性、自回归等),从而能够灵活地适应数据的实际情况。
- 鲁棒性:GEE对于误差分布的假设相对宽松,即使误差分布假设不完全正确,估计结果仍然是稳健的(即估计量是无偏的)。
- 一般线性模型:只能拟合因变量服从正态分布的资料,不适用于分类资料。
模型结构
GEE扩展了广义线性模型,将其适用于具有相关性的重复测量数据。其基本形式为:
其中:
是第 i 个个体第 j 次观测的期望值。 - g 是连接函数(例如,logit函数用于二元数据,log函数用于泊松数据)。
是自变量矩阵。 是回归系数。
估计步骤
- 初始模型拟合:使用广义线性模型(GLM)进行初始估计,得到初始参数估计值
。 - 相关结构指定:选择并指定数据的相关结构,例如:
- 独立结构(每个观测值相互独立)
- 交换性结构(同一个体内观测值之间的相关性相同)
- 自回归结构(时间序列数据,观测值之间的相关性随着时间的推移递减)
- 迭代更新:基于指定的相关结构,迭代更新参数估计值,直到收敛。
- 鲁棒估计:使用鲁棒估计方法计算标准误差,从而得到稳健的参数估计和置信区间。
12 混合效应模型 (Mixed-Effects Models):
- 概念:混合效应模型用于处理具有嵌套结构的数据,包含固定效应和随机效应,适用于纵向数据和分层数据。
- 变量特征:连续或分类的因变量,连续或分类的自变量。
- 适用条件:适用于数据结构具有分层或群体内相关性时。
- 课题示例:学生学业表现的影响因素
- 固定效应:固定效应指的是模型中感兴趣的因素,其水平是特定的且有限的。例如,如果你正在研究某种药物对血压的影响,并且药物剂量只有三种(低、中、高),那么药物剂量就是一个固定效应,因为你只对这三种特定剂量感兴趣。
- 随机效应:随机效应指的是模型中引入的变异因素,其水平是从一个更大总体中随机抽取的,且研究者对这些水平的推断不限于已观测的样本。例如,如果你在研究全国不同学校学生的考试成绩,而你只从几个随机选取的学校中收集数据,那么“学校”就是一个随机效应。
13 生存分析 (Survival Analysis):
- 概念:生存分析用于处理时间到事件的数据,分析个体从起始点到事件发生时间的分布,常用方法包括Cox比例风险模型和Kaplan-Meier曲线。
- 变量特征:时间到事件数据的因变量,连续或分类的自变量。
- 适用场景:当研究的焦点是事件发生的时间时
- 课题示例:患者生存时间分析
14 有序逻辑回归 (Ordered Logistic Regression):
- 概念:有序逻辑回归用于处理有序因变量的回归分析,例如Likert量表数据。其模型形式类似于逻辑回归,但考虑了因变量的有序性。
- 变量特征:因变量为有序分类,自变量可以是连续的或分类的。
- 适用场景:当因变量是有序分类时,如调查问卷的满意度评级
- 课题示例:顾客满意度调查分析
推荐阅读
https://bookdown.org/xiangyun/masr/mixed-effects-models.html
- Title: 14个常见回归模型
- Author: Starry
- Created at : 2024-10-07 23:39:19
- Updated at : 2024-10-09 19:44:56
- Link: https://kilig1210.github.io/2024/10/07/14个常见回归模型/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments