定义回归统计模型

by 麦克查普尔

回归分析变量之间的关系

回归是一种数据挖掘技术，用于在给定特定数据集的情况下预测一系列数值（也称为连续值 ）。例如，回归可能用于预测产品或服务的成本，给出其他变量。

回归用于多个行业，用于商业和营销计划，财务预测，环境建模和趋势分析。

回归与VS 分类

回归和分类是用于解决类似问题的数据挖掘技术，但它们经常被混淆。两者都用于预测分析，但回归用于预测数值或连续值，而分类将数据分配到离散类别中。

例如，回归将用于根据其位置，平方英尺，上次售出时的价格，类似房屋的价格以及其他因素来预测房屋的价值。如果您希望将房屋划分为类别，例如可步行，批量或犯罪率，则分类将是有序的。

回归技术的类型

最简单和最古老的回归形式是线性回归，用于估计两个变量之间的关系。该技术使用直线的数学公式（y = mx + b）。简而言之，这仅仅意味着，给定具有Y和X轴的图，X和Y之间的关系是一条具有少量异常值的直线。例如，我们可以假设，鉴于人口的增加，粮食产量将以同样的速度增加 - 这要求两个数字之间有强烈的线性关系。为了想象这一点，考虑一个图表，其中Y轴跟踪人口增加，X轴跟踪食物产量。随着Y值的增加，X值会以相同的速率增加，从而使它们之间的关系成为一条直线。

诸如多元回归等先进技术可以预测多个变量之间的关系 - 例如，收入，教育和人们选择居住的地方之间是否存在关联？增加更多变量显着增加了预测的复杂性。有多种类型的多元回归技术，包括标准，分层，逐步和逐步，每种都有其自己的应用程序。

在这一点上，了解我们要预测的内容（依赖或预测的变量）和我们用来进行预测的数据（独立或预测变量）很重要。在我们的例子中，我们想要预测给定收入和受教育程度（预测变量）的选择生活地点（预测变量）。

标准多元回归同时考虑所有预测变量。例如1）收入和教育（预测者）和邻居选择（预测）之间的关系是什么; 2）每个个体预测因素在多大程度上对这种关系做出贡献？
逐步多元回归回答了一个完全不同的问题。逐步回归算法将分析哪些预测因子最适合用来预测邻域选择 - 意味着逐步模型评估预测变量的重要性顺序，然后选择相关子集。这种类型的回归问题使用“步骤”来开发回归方程。鉴于这种类型的回归，所有预测变量甚至可能不出现在最终的回归方程中。
分阶段回归就像一步一步，是一个连续的过程，但是预测变量以事先定义的预先指定的顺序输入到模型中，即该算法不包含内置的一组方程，用于确定输入预测变量。当创建回归方程的人具有该领域的专业知识时，这通常被使用。

逐步回归也类似于逐步回归，但分析变量组而不是单个变量。

回归与VS 分类

回归技术的类型

Alike posts

See Newest

Sapid posts