回归分析变量之间的关系
回归是一种数据挖掘技术,用于在给定特定数据集的情况下预测一系列数值(也称为连续值 )。 例如,回归可能用于预测产品或服务的成本,给出其他变量。
回归用于多个行业,用于商业和营销计划,财务预测,环境建模和趋势分析。
回归与VS 分类
回归和分类是用于解决类似问题的数据挖掘技术,但它们经常被混淆。 两者都用于预测分析,但回归用于预测数值或连续值,而分类将数据分配到离散类别中。
例如,回归将用于根据其位置,平方英尺,上次售出时的价格,类似房屋的价格以及其他因素来预测房屋的价值。 如果您希望将房屋划分为类别,例如可步行,批量或犯罪率,则分类将是有序的。
回归技术的类型
最简单和最古老的回归形式是线性回归,用于估计两个变量之间的关系。 该技术使用直线的数学公式(y = mx + b)。 简而言之,这仅仅意味着,给定具有Y和X轴的图,X和Y之间的关系是一条具有少量异常值的直线。 例如,我们可以假设,鉴于人口的增加,粮食产量将以同样的速度增加 - 这要求两个数字之间有强烈的线性关系。 为了想象这一点,考虑一个图表,其中Y轴跟踪人口增加,X轴跟踪食物产量。 随着Y值的增加,X值会以相同的速率增加,从而使它们之间的关系成为一条直线。
诸如多元回归等先进技术可以预测多个变量之间的关系 - 例如,收入,教育和人们选择居住的地方之间是否存在关联? 增加更多变量显着增加了预测的复杂性。 有多种类型的多元回归技术,包括标准,分层,逐步和逐步,每种都有其自己的应用程序。
在这一点上,了解我们要预测的内容(依赖或预测的变量)和我们用来进行预测的数据(独立或预测变量)很重要。 在我们的例子中,我们想要预测给定收入和受教育程度( 预测变量)的选择生活地点( 预测变量)。
- 标准多元回归同时考虑所有预测变量。 例如1)收入和教育(预测者)和邻居选择(预测)之间的关系是什么; 2)每个个体预测因素在多大程度上对这种关系做出贡献?
- 逐步多元回归回答了一个完全不同的问题。 逐步回归算法将分析哪些预测因子最适合用来预测邻域选择 - 意味着逐步模型评估预测变量的重要性顺序,然后选择相关子集。 这种类型的回归问题使用“步骤”来开发回归方程。 鉴于这种类型的回归,所有预测变量甚至可能不出现在最终的回归方程中。
- 分阶段回归就像一步一步,是一个连续的过程,但是预测变量以事先定义的预先指定的顺序输入到模型中,即该算法不包含内置的一组方程,用于确定输入预测变量。 当创建回归方程的人具有该领域的专业知识时,这通常被使用。
- 逐步回归也类似于逐步回归 ,但分析变量组而不是单个变量。