如何在Google图书中使用'Ngram Viewer'工具

Ngram(通常也称为N-gram)是文本或语音内容的统计分析,用于查找文本中某种项目的n (一个数字)。 它可以是各种各样的东西,如音素,前缀,短语或字母。 尽管N-gram在研究人员之外有些模糊,但它实际上用于各种领域,对于使计算机程序理解并用自然语言作出回应的人有很大的影响。 简言之,Google会对这个想法感兴趣。

在Google Books Ngram Viewer中,要分析的文本来自Google从公共图书馆扫描的大量图书以填充其Google图书搜索引擎。 对于Google Books Ngram Viewer,它们将您要搜索的文本称为“语料库”。 Ngram Viewer中的下士按语言划分,尽管您可以单独分析英式和美式英语,或将它们组合在一起。 从英国到美国使用术语并查看图表变化,它最终变得非常有趣。

Ngram如何工作

  1. 请前往Google图书Ngram查看器,网址为books.google.com/ngrams。
  2. 项目区分大小写,与谷歌网络搜索不同,所以一定要大写专有名词。
  3. 输入您想要分析的任何短语或短语。 一定要用逗号分隔每个短语。 谷歌建议,“爱因斯坦,福尔摩斯,弗兰肯斯坦”让你开始。
  4. 接下来,输入日期范围。 默认值是1800到2000,但有更新的书籍(2011年是最近在Google文档中列出的,但可能已更改)。
  5. 选择一个语料库。 您可以搜索外文文本或英文,除了标准选项外,您还可以在底部看到诸如“英语(2009年)或美国英语(2009年)”之类的内容。 这些是谷歌自更新以来的旧语料库,但您可能有理由对旧数据集进行比较。 大多数用户可以忽略它们并关注最近的语料库。
  6. 设置你的平滑水平。 平滑指的是图表最终的平滑程度。 最准确的表示将是平滑0级,但可能难以阅读。 默认设置为3.在大多数情况下,您不需要调整它。
  1. 按下“ 搜索大量书籍”按钮。 (您也可以在搜索提示中按回车。)

Ngram展示的是什么?

Google图书Ngram Viewer将输出一个图表,表示图书中特定短语的使用情况。 如果您输入了多个单词或短语,则会看到用颜色编码的线条来对比不同的搜索词。 这与Google趋势非常相似,只是搜索涵盖了更长的时间。

这是一个真实的例子。我们最近对醋馅饼很好奇。 他们在Laura Ingalls Wilder的草原系列小房子中被提及,但我们从未听说过这样的事情。 我们首先使用Google的网络搜索来了解更多关于醋馅饼的信息。 显然,他们被认为是美国南部美食的一部分,真的是用醋制成的。 他们重新回到了不是每个人都能在一年中的任何时候都能获得新鲜农产品的时代。 这是整个故事吗?

我们搜索了谷歌Ngram Viewer,并且在19世纪早期和晚期都有一些提到这个派,在20世纪40年代有很多提及,并且近来有越来越多的提及(可能是一些派乡情)。好吧,有一些数据处于平滑水平3的问题。在19世纪提及的数据有一个平台。 五年来,每年有没有同样数量的提到一个特定的馅饼? 发生了什么事是因为在那段时间内没有出版很多书籍,而且我们的数据设置得很流畅,所以它扭曲了图片。 可能有一本书提到了醋馅饼,它只是平均,以避免高峰。 通过将平滑设置为0,我们可以看到情况正是如此。 穗位于1869年,1897年和1900年又出现了穗。

剩下的时间没有人谈论醋馅饼吗? 他们可能确实谈论过这些馅饼。 有可能食谱漂浮在这个地方。 他们只是没有在书中写出关于他们的文章,这是对这些Ngram搜索的限制。

高级Ngram搜索

请记住我们如何说Ngrams可以包含各种不同的文本搜索? Google允许您使用Ngram Viewer深入钻研。 如果你想搜索动词而不是钓鱼名词,你可以通过使用标签来实现。 在这种情况下,你会搜索“fish_VERB”

Google提供您可以在其网站上使用的命令和其他高级文档的完整列表。