你需要知道的关于贝叶斯垃圾邮件过滤

by Heinz Tschabitscher

了解统计信息如何帮助您保持收件箱清洁

贝叶斯垃圾邮件过滤器根据邮件的内容计算邮件为垃圾邮件的概率。与简单的基于内容的过滤器不同，贝叶斯垃圾邮件过滤从垃圾邮件和良好邮件中学习，从而产生非常健壮，适应性强和高效的反垃圾邮件方法，最重要的是，它几乎不会带来任何误报。

你如何识别垃圾邮件？

想想你如何检测垃圾邮件。快速浏览通常就足够了。你知道垃圾邮件是什么样子的，你知道邮件是什么样的。

垃圾邮件看起来像好邮件的概率大约为零。

对基于内容的过滤器进行评分不适应

如果自动垃圾邮件过滤器也能这样工作，它会不会很好？

对基于内容的垃圾邮件过滤器进行评分就是为了尝试。他们寻找垃圾邮件的典型词汇和其他特征。每个特征元素都会被分配一个分数，并且整个消息的垃圾邮件分数是从各个分数中计算出来的。一些评分过滤器还会查找合法邮件的特征，从而降低邮件的最终分数。

评分过滤器方法确实有效，但它也有一些缺点：

特征列表由过滤器工程师提供的垃圾邮件（以及良好的邮件）构建而成。为了更好地掌握任何人可能得到的典型垃圾邮件，必须在数百个电子邮件地址收集邮件。这削弱了过滤器的效率，特别是因为好邮件的特性对于每个人都是不同的 ，但是这不被考虑在内。
要寻找的特征或多或少都是石头 。如果垃圾邮件制造者努力适应（并使其垃圾邮件看起来像邮件过滤器一样），则必须手动调整过滤特征 - 这是一项更大的努力。
分配给每个单词的分数可能基于良好的估计，但它仍然是任意的。就像特征清单一样，它也不适应垃圾邮件不断变化的世界，也不适应个人用户的需求。

贝叶斯垃圾邮件过滤器调整自己，变得更好，更好

贝叶斯垃圾邮件过滤器也是一种基于内容的过滤器。尽管如此，他们的方法消除了简单评分垃圾邮件过滤器的问题，并且它从根本上做到了。由于评分过滤器的弱点在于手动建立的特征列表和它们的分数，所以这个列表被消除。

相反，贝叶斯垃圾邮件过滤器自己构建列表。理想情况下，您从一大堆您已归类为垃圾邮件的电子邮件开始，并从另一堆好邮件开始。过滤器会查看并分析合法邮件以及垃圾邮件，以计算垃圾邮件中出现各种特征的可能性以及良好的邮件。

贝叶斯垃圾邮件过滤器如何检查电子邮件

贝叶斯垃圾邮件过滤器可以查看的特征可以是：

信息正文中的单词，当然和
它的头部（例如发件人和消息路径！），还有
其他方面，如HTML / CSS代码（如颜色和其他格式），甚至
单词对，短语和
元信息（例如，特定短语出现的位置）。

如果一个词，例如“笛卡尔”，从未出现在垃圾邮件中，但通常在您收到的合法电子邮件中，“笛卡儿式”指示垃圾邮件的概率接近于零。另一方面，“碳粉”只会出现在垃圾邮件中，而且经常出现在垃圾邮件中。 “碳粉”在垃圾邮件中发现的可能性非常高，不会低于1（100％）。

当一条新消息到达时，它将通过贝叶斯垃圾邮件过滤器进行分析，并且完整邮件是垃圾邮件的可能性是使用个人特征进行计算的。

假设消息包含“笛卡儿”和“墨粉”。单从这些词来看，我们是否有垃圾邮件或合法邮件尚不清楚。其他特征（希望和最可能）表示允许过滤器将邮件分类为垃圾邮件或好邮件的概率。

贝叶斯垃圾邮件过滤器可以自动学习

现在我们有了一个分类，这个消息可以用来进一步训练过滤器本身。在这种情况下，“笛卡儿式”表示好邮件的可能性降低（如果包含“笛卡儿”和“碳粉”的邮件被发现是垃圾邮件），或者必须重新考虑“碳粉”指示垃圾邮件的可能性。

使用这种自适应技术，贝叶斯过滤器可以从他们自己和用户的决定中学习 （如果她手动纠正了过滤器的错误判断）。贝叶斯过滤的适应性也确保它们对于单个电子邮件用户最有效。尽管大多数人的垃圾邮件可能具有类似的特征，但合法邮件在每个人身上都有不同的特征。

垃圾邮件发送者如何获得过去的贝叶斯过滤器？

合法邮件的特征与垃圾邮件的贝叶斯垃圾邮件过滤过程同等重要。如果过滤器专门针对每个用户进行培训，那么垃圾邮件制造者将更加努力解决每个人（甚至大多数人）的垃圾邮件过滤器问题，并且过滤器可以适应几乎所有垃圾邮件发送者的尝试。

如果垃圾邮件的垃圾邮件看起来完全像每个人都可能得到的普通邮件，垃圾邮件发件人只会使其通过训练有素的贝叶斯过滤器。

垃圾邮件发送者通常不会发送这样的普通邮件。让我们假设这是因为这些电子邮件不起垃圾邮件的作用。所以，当普通，枯燥的电子邮件是通过垃圾邮件过滤器的唯一方式时，他们很可能不会这样做。

但是，如果垃圾邮件发送者转而使用大多数普通电子邮件，我们将再次在我们的收件箱中看到大量垃圾邮件，并且电子邮件可能会变得像在贝叶斯前的日子（或更糟糕的日子）一样令人沮丧。但它也会破坏大多数垃圾邮件的市场，因此不会持续很长时间。

强指标可能是贝叶斯垃圾邮件过滤器的跟腱＆＃39; 脚跟

对于垃圾邮件发送者来说，即使他们有通常的内容，也可以通过贝叶斯过滤器工作。根据贝叶斯统计的性质，经常出现在良好邮件中的一个词或特征可能如此重要，以至于将任何邮件从垃圾邮件看起来像被过滤器评定为火腿。

如果垃圾邮件发送者通过使用HTML回执来查看您打开的邮件的方式来确定您的邮件内容 - 例如，他们可以将其中一个垃圾邮件包含在垃圾邮件中，训练有素的贝叶斯过滤器。

John Graham-Cumming试图通过让两个贝叶斯过滤器互相作用来实现这一点，这个“坏”的过滤器适应于哪些消息被发现通过“好”过滤器。他表示它很有效，尽管这个过程非常耗时和复杂。我们认为我们不会看到大部分情况发生，至少不是大规模的，并且不适合个人的电子邮件特征。垃圾邮件发送者可能会（试图）为组织找出一些关键字（比如IBM的某些人的“Almaden”）。

通常情况下，垃圾邮件将永远与常规邮件（显着）不同，或者它不会是垃圾邮件。

底线：贝叶斯过滤的力量可能是其弱点

贝叶斯垃圾邮件过滤器是基于内容的过滤器 ：

经过专门培训，可以识别个人电子邮件用户的垃圾邮件和优秀邮件 ，使其非常有效，难以适应垃圾邮件发送者。
可以不断地进行，而且不需要太多努力或手动分析就能适应垃圾邮件发送者的最新技巧。
考虑到个人用户的好邮件，误报率很低 。
不幸的是，如果这会导致对贝叶斯反垃圾邮件过滤器的盲目信任，那么偶尔会出现更严重的错误 。 错误否定 （垃圾邮件看起来与普通邮件完全相同）的相反作用有可能打扰和阻止用户。