分类是一种数据挖掘技术,它将类别分配给一组数据,以帮助进行更准确的预测和分析。 有时也称为决策树 ,分类是几种方法之一,旨在使非常大的数据集的分析有效。
为什么分类?
非常大的数据库正在成为当今“大数据”世界的常态。 想象一下具有数TB数据的数据库 - 一兆兆字节是一万亿字节的数据。
仅Facebook就每天都会处理600 TB的新数据(截至2014年,这是上次报告这些规格的时间)。 大数据的主要挑战是如何理解它。
数量并不是唯一的问题:大数据也往往是多样化的,非结构化和快速变化的。 考虑音频和视频数据,社交媒体帖子,3D数据或地理空间数据。 这类数据不容易分类或组织。
为了应对这一挑战,已经开发了一系列用于提取有用信息的自动方法,其中包括分类 。
分类如何工作
我们将讨论如何进行分类的工作,以避免过度使用技术手段。 目标是创建一套分类规则来回答问题,做出决定或预测行为。首先,开发一套训练数据,其中包含一组特定的属性以及可能的结果。
分类算法的工作是发现这组属性如何达到其结论。
情景 :也许一家信用卡公司正试图确定哪些潜在客户应该收到信用卡优惠。
这可能是其一套训练数据:
| 名称 | 年龄 | 性别 | 年收入 | 信用卡优惠 |
|---|---|---|---|---|
| John Doe | 25 | 中号 | $ 39,500 | 没有 |
| Jane Doe | 56 | F | $ 125,000个 | 是 |
“预测变量”列年龄 , 性别和年收入确定“预测变量属性” 信用卡优惠的价值 。 在训练集中,预测属性是已知的。 分类算法然后试图确定预测变量属性的值如何达到:预测变量与决策之间存在什么关系? 它将制定一套预测规则,通常是IF / THEN声明,例如:
IF(年龄> 18岁或年龄<75岁)和年收入> 40,000 THEN信用卡优惠=是
显然,这是一个简单的例子,算法需要比这里显示的两条记录更大的数据采样。 此外,预测规则可能要复杂得多,包括捕获属性细节的子规则。
接下来,该算法被给出要分析的数据的“预测集”,但是该集缺乏预测属性(或决策):
| 名称 | 年龄 | 性别 | 年收入 | 信用卡优惠 |
|---|---|---|---|---|
| 杰克弗罗斯特 | 42 | 中号 | $ 88,000 | |
| 玛丽默里 | 16 | F | $ 0 |
这个预测数据有助于估计预测规则的准确性,然后对规则进行调整,直到开发人员认为预测有效且有用。
日常分类示例
分类和其他数据挖掘技术背后的大部分日常消费者体验背后。
天气预报可能会利用分类来报告是否下雨,晴天或多云。 医学界可能会分析健康状况以预测医疗结果。 一种分类方法Naive Bayesian使用条件概率对垃圾邮件进行分类。 从欺诈检测到产品报价,每天都会对数据进行分类并产生预测。