什么是光学字符识别(OCR)?

光学字符识别(OCR)是指创建计算机无需手动输入或输入文本即可阅读的打印,打印或手写文档的数字版本的软件。 OCR通常用于PDF格式的扫描文档,但也可以在图像文件中创建计算机可读版本的文本。

什么是OCR?

OCR也称为文本识别,是一种软件技术,可将数字,字母和标点(也称为字形)等字符从打印或书写文档转换为电子表格,更容易被计算机和其他软件程序识别和读取。 一些OCR程序会在数码相机扫描或拍摄文档时执行此操作,而其他OCR程序可将此过程应用于先前已扫描或未使用OCR进行拍摄的文档。 OCR允许用户在PDF文档中搜索,编辑文本和重新格式化文档。

什么是OCR用于?

为了快速,每天都需要扫描,OCR可能不是什么大问题。 如果您进行大量扫描,能够在PDF中进行搜索以找到所需的确切文件可以节省相当多的时间,并使扫描程序中的OCR功能更为重要。 以下是OCR帮助的其他一些事情:

为什么使用OCR?

为什么不拍一张照片,对吧? 因为你将无法编辑任何内容或搜索文本,因为它只是一个图像。 扫描文档并运行OCR软件可以将该文件转换为您可以编辑并能够搜索的文件。

OCR的历史

虽然最早使用文本识别可以追溯到1914年,但OCR相关技术的广泛开发和使用始于20世纪50年代,特别是创建非常简单的字体,这些字体更易于转换为数字可读文本。 第一种简化字体由David Shepard创建,俗称OCR-7B。 OCR-7B今天在金融行业仍然在使用信用卡和借记卡上使用的标准字体。 在20世纪60年代,几个国家的邮政服务开始使用OCR技术来加速邮件分拣,包括美国,英国,加拿大和德国。 OCR仍然是全球邮政分拣邮件的核心技术。 2000年,OCR技术的限制和能力的关键知识被用于开发用于阻止漫游器和垃圾邮件发送者的CAPTCHA程序

数十年来,由于人工智能机器学习和计算机视觉等相关技术领域的进步,OCR变得更加精确和复杂。 今天,OCR软件使用模式识别,特征检测和文本挖掘功能,可以比以往更快,更准确地转换文档。