数据挖掘中的分类

分类是一种数据挖掘技术，它将类别分配给一组数据，以帮助进行更准确的预测和分析。有时也称为决策树 ，分类是几种方法之一，旨在使非常大的数据集的分析有效。

非常大的数据库正在成为当今“大数据”世界的常态。想象一下具有数TB数据的数据库 - 一兆兆字节是一万亿字节的数据。

仅Facebook就每天都会处理600 TB的新数据（截至2014年，这是上次报告这些规格的时间）。大数据的主要挑战是如何理解它。

数量并不是唯一的问题：大数据也往往是多样化的，非结构化和快速变化的。考虑音频和视频数据，社交媒体帖子，3D数据或地理空间数据。这类数据不容易分类或组织。

为了应对这一挑战，已经开发了一系列用于提取有用信息的自动方法，其中包括分类。

我们将讨论如何进行分类的工作，以避免过度使用技术手段。目标是创建一套分类规则来回答问题，做出决定或预测行为。首先，开发一套训练数据，其中包含一组特定的属性以及可能的结果。

分类算法的工作是发现这组属性如何达到其结论。

情景：也许一家信用卡公司正试图确定哪些潜在客户应该收到信用卡优惠。

这可能是其一套训练数据：

**培训数据**
名称	年龄	性别	年收入	信用卡优惠
John Doe	25	中号	$ 39,500	没有
Jane Doe	56	F	$ 125,000个	是

“预测变量”列年龄，性别和年收入确定“预测变量属性” 信用卡优惠的价值 。在训练集中，预测属性是已知的。分类算法然后试图确定预测变量属性的值如何达到：预测变量与决策之间存在什么关系？它将制定一套预测规则，通常是IF / THEN声明，例如：

IF（年龄> 18岁或年龄<75岁）和年收入> 40,000 THEN信用卡优惠=是

显然，这是一个简单的例子，算法需要比这里显示的两条记录更大的数据采样。此外，预测规则可能要复杂得多，包括捕获属性细节的子规则。

接下来，该算法被给出要分析的数据的“预测集”，但是该集缺乏预测属性（或决策）：

**预测数据**
名称	年龄	性别	年收入	信用卡优惠
杰克弗罗斯特	42	中号	$ 88,000
玛丽默里	16	F	$ 0

这个预测数据有助于估计预测规则的准确性，然后对规则进行调整，直到开发人员认为预测有效且有用。

分类和其他数据挖掘技术背后的大部分日常消费者体验背后。

天气预报可能会利用分类来报告是否下雨，晴天或多云。医学界可能会分析健康状况以预测医疗结果。一种分类方法Naive Bayesian使用条件概率对垃圾邮件进行分类。从欺诈检测到产品报价，每天都会对数据进行分类并产生预测。

Alike posts