定义回归统计模型

回归分析变量之间的关系

回归是一种数据挖掘技术,用于在给定特定数据集的情况下预测一系列数值(也称为连续值 )。 例如,回归可能用于预测产品或服务的成本,给出其他变量。

回归用于多个行业,用于商业和营销计划,财务预测,环境建模和趋势分析。

回归与VS 分类

回归和分类是用于解决类似问题的数据挖掘技术,但它们经常被混淆。 两者都用于预测分析,但回归用于预测数值或连续值,而分类将数据分配到离散类别中。

例如,回归将用于根据其位置,平方英尺,上次售出时的价格,类似房屋的价格以及其他因素来预测房屋的价值。 如果您希望将房屋划分为类别,例如可步行,批量或犯罪率,则分类将是有序的。

回归技术的类型

最简单和最古老的回归形式是线性回归,用于估计两个变量之间的关系。 该技术使用直线的数学公式(y = mx + b)。 简而言之,这仅仅意味着,给定具有Y和X轴的图,X和Y之间的关系是一条具有少量异常值的直线。 例如,我们可以假设,鉴于人口的增加,粮食产量将以同样的速度增加 - 这要求两个数字之间有强烈的线性关系。 为了想象这一点,考虑一个图表,其中Y轴跟踪人口增加,X轴跟踪食物产量。 随着Y值的增加,X值会以相同的速率增加,从而使它们之间的关系成为一条直线。

诸如多元回归等先进技术可以预测多个变量之间的关系 - 例如,收入,教育和人们选择居住的地方之间是否存在关联? 增加更多变量显着增加了预测的复杂性。 有多种类型的多元回归技术,包括标准,分层,逐步和逐步,每种都有其自己的应用程序。

在这一点上,了解我们要预测的内容(依赖或预测的变量)和我们用来进行预测的数据(独立或预测变量)很重要。 在我们的例子中,我们想要预测给定收入和受教育程度( 预测变量)的选择生活地点( 预测变量)。