数据挖掘中的分类

分类是一种数据挖掘技术,它将类别分配给一组数据,以帮助进行更准确的预测和分析。 有时也称为决策树 ,分类是几种方法之一,旨在使非常大的数据集的分析有效。

为什么分类?

非常大的数据库正在成为当今“大数据”世界的常态。 想象一下具有数TB数据的数据库 - 一兆兆字节是一万亿字节的数据。

仅Facebook就每天都会处理600 TB的新数据(截至2014年,这是上次报告这些规格的时间)。 大数据的主要挑战是如何理解它。

数量并不是唯一的问题:大数据也往往是多样化的,非结构化和快速变化的。 考虑音频和视频数据,社交媒体帖子,3D数据或地理空间数据。 这类数据不容易分类或组织。

为了应对这一挑战,已经开发了一系列用于提取有用信息的自动方法,其中包括分类

分类如何工作

我们将讨论如何进行分类的工作,以避免过度使用技术手段。 目标是创建一套分类规则来回答问题,做出决定或预测行为。首先,开发一套训练数据,其中包含一组特定的属性以及可能的结果。

分类算法的工作是发现这组属性如何达到其结论。

情景 :也许一家信用卡公司正试图确定哪些潜在客户应该收到信用卡优惠。

这可能是其一套训练数据:

培训数据
名称 年龄 性别 年收入 信用卡优惠
John Doe 25 中号 $ 39,500 没有
Jane Doe 56 F $ 125,000个

“预测变量”列年龄性别和年收入确定“预测变量属性” 信用卡优惠的价值 。 在训练集中,预测属性是已知的。 分类算法然后试图确定预测变量属性的值如何达到:预测变量与决策之间存在什么关系? 它将制定一套预测规则,通常是IF / THEN声明,例如:

IF(年龄> 18岁或年龄<75岁)和年收入> 40,000 THEN信用卡优惠=是

显然,这是一个简单的例子,算法需要比这里显示的两条记录更大的数据采样。 此外,预测规则可能要复杂得多,包括捕获属性细节的子规则。

接下来,该算法被给出要分析的数据的“预测集”,但是该集缺乏预测属性(或决策):

预测数据
名称 年龄 性别 年收入 信用卡优惠
杰克弗罗斯特 42 中号 $ 88,000
玛丽默里 16 F $ 0

这个预测数据有助于估计预测规则的准确性,然后对规则进行调整,直到开发人员认为预测有效且有用。

日常分类示例

分类和其他数据挖掘技术背后的大部分日常消费者体验背后。

天气预报可能会利用分类来报告是否下雨,晴天或多云。 医学界可能会分析健康状况以预测医疗结果。 一种分类方法Naive Bayesian使用条件概率对垃圾邮件进行分类。 从欺诈检测到产品报价,每天都会对数据进行分类并产生预测。