Linux语音识别状态

介绍

我花了很多时间研究文章,并且经常考虑一篇文章的主题,同时步行到火车站或者外面和一般。

有一天晚上,我从工作中走了1.5英里到车站,我想“如果我能记录我想说的话,然后将它自动转录成一个文本文件,我稍后可以编辑和格式化,这会不会很好” 。

我花了许多时间来研究可用于语音识别和听写的不同选项,包括使用Linux中的听写软件直接录制麦克风,将文件录制为MP3或WAV格式并通过命令行转换,以及使用Chrome和Android应用程序。

本文重点介绍了经过几天艰苦劳动后的发现。

Linux选项

尝试在Linux中寻找听写和语音识别软件并不容易,可用的选项并不那么聪明。

这个维基百科页面有一个可能的选项列表,包括CMU Sphinx,Julius和Simon。

我现在使用的是基于Debian测试的SparkyLinux,我可以告诉你,存储库中唯一可用的语音识别软件包是Sphinx。

我最终尝试的原生Linux程序是PocketSphinx,我用它将WAV文件转换为文本,以及Freespeech-VR,这是一个可让您直接从麦克风录制的python应用程序。

我还尝试了一些Chrome应用程序,包括VoiceNote II和Dictanote。

最后,我尝试了“听写和电子邮件”和“谈话和口述听写”Android应用程序。

Freespeech-VR

Freespeech-VR在标准存储库中不可用。 我从这里下载了这些文件。

在下载并提取zip文件的内容后,我打开一个终端并导航到文件被提取到的文件夹。

我输入以下命令打开freespeech-vr。

sudo python freespeech-vr

我有一副带有相当像样的麦克风和相当清晰的南方英语口音的耳机。

以下文字出现在freespeech-vr窗口中:

欢迎来到结果单位今天有保证如何进行管理测试一个必须测试什么时候要文本用系统的方式言语我到一个每个只有一个希望入住和一只鸡的手段金系统Ea当我的名字下一个电话这个文件电话这个文件很快一个例子手机到手 - 空间狮身人面像去那不是电话将被共享一个训练有素和工具使用说话当你说完了说一个使用过的文件最后一个故事A和使用的时候它是如何成功的这个Linux是如何避免的

我现在想说的是,这不是Unit Of Dogs网站,我也没有提及任何与金鸡有关的事情。 其实我试图描述使用语音识别软件的过程。

我尝试了几次软件,包括变化的音调和速度,但准确性很差。

PocketSphinx

PocketSphinx能够采用WAV文件并使用命令行将其转换为文本。

PocketSphinx可通过Debian存储库获得,并且应可用于大多数发行版。

我在PocketSphinx中发现的主要问题是您几乎需要语音识别,语言文件,词典以及如何培训系统的概念。

安装PocketSphinx后,您应该到CMU Sphinx网站并阅读尽可能多的信息。 您还需要下载以下模型文件。

(如果您不是母语为英语的人,请选择适合您的语言模型)。

一般来说PocketSphinx和狮身人面像的文档对于外行人来说很难理解,但是从我能做的事情来看,字典文件被用来提供可能的单词列表,并且语言模型列出了潜在的发音列表。

为了测试PocketSphinx,我使用了自己的声音录制,“艾尔帕西诺”中的“恶魔倡导者”片段和“摩根弗里曼”片段。 重点在于尝试不同的声音,对我而言,没有人能像摩根弗里曼那样清楚地讲述一个故事,没有人像艾尔帕西诺那样提供一条线。

对于PocketSphinx的工作,它需要一个WAV文件,它需要在一定的格式。 如果文件为MP3格式,请使用ffmpeg命令将其转换为WAV格式:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

要运行PocketSphinx,请使用以下命令:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous需要一个WAV文件并将其转换为文本。

在上面的命令中,pocketsphinx被告知在语言模型“cmusphinx-5.0-en-us.lm”中使用名为“/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic”的字典文件。 被转换为文本的文件被称为voice2.wav(这是我用我的声音录制的)。 最后,2>将您不一定需要的所有详细输出放入名为voice2.log的文件中。 测试的实际结果显示在终端窗口内。

使用我的声音的结果如下:

欢迎来到下一个关于哪些识别软件在一分钟内没有本周的问题

结果并不像freespeech-vr那样可怕,但仍然不可用。 然后,我尝试使用与阿尔帕西诺PocketSphinx,但没有返回任何结果。

最后,我尝试使用摩根弗里曼的电影“布鲁斯全能”的声音,这里是结果:

000000000:我们会在她身上
000000001:所有那些艰难的日子,现在是啊,这是我们活着的最多我是热的一部分
000000002:在电梯中,谁是棒球时的关键点,或知道如何对待生活
000000003:什么是会恢复的
000000004:他们没有写
000000005:他们让我马上出去
000000006:你必须是规则
000000007:我一直期待着你
000000008:他在这里了解到,这是一个插图是杀手圣诞派对
000000009:它变成写o的方法之一。 屁股我觉得很少总是穿一个
000000010:就像联合的问题不会给他好,我估计他们在那个时候,当我们没有全部你认为我在世界上会住在家里,我已经看到了
000000011:拥有它的父亲
000000012:这很重要
000000013:是否给出
000000014:所有那些不会落下太多的东西
000000015:在秋天吧
000000016:好吧,等一下
000000017:如果我觉得他们会有一个不满意的,那就是所有那些结婚的人都是不会的,我们喜欢不同的方式

我的测试很难被认为是科学的,PocketSphinx的开发人员可能会声明我没有正确使用该软件。 还有一种称为语音训练的技术,可用于创建更好的词典和语言文件。

我的压倒一切的观点是,这对标准的日常使用来说太难了。

VoiceNote II

VoiceNote II是一款使用Google语音识别API的Chrome应用。

如果您使用Chrome或Chromium浏览器,则可以通过网上应用店安装VoiceNote II。

VoiceNote II上的图标以一种奇怪的方式布置,因为您需要在窗口底部设置语言,编辑按钮也位于底部,但录制按钮位于右上角。

你需要做的第一件事是选择一种语言,这可以通过点击世界图标来实现。

要开始录制,请单击麦克风图标,然后开始对着麦克风讲话。 为了获得最佳结果,我发现慢慢说话是关键,这样软件就有机会跟上。

结果不是很好,如下所示:

你好,欢迎来连接。 今天关于语音到文字转换dunelm farrell经济衰退2008年的文章作为转换,它表示很好支持我发现语音文本插件显示2014debian或rpm包的最佳方式打开它的语音类型语音文本打开它,如果你想选择vs在爱丁堡选择法语德语让你在联合kingdomstart在海上的时间microphones什么时候你写完文本文件作为一个文本文件来itsuccess这是从英格兰南部非常标准的英语口音最好的,但我要通过这个torrentalong与实际的文件,你可以看到错误,让你聆听朋友

Dictanote

Dictanote是另一款可以用于听写目的的Chrome应用程序,并且更直观,但结果并不比VoiceNote II好。

我只使用Dictanote的演示版本,它可以防止您创建新文档,但它可以让您通过编辑器中已有的文本进行通话。 我能够测试语音识别,但结果并不比VoiceNote II好,所以我没有注册Pro版本。

听写和邮件

“听写和邮件”是一款使用本机Google语音识别API的Android应用程序。

“听写和邮件”的结果比迄今尝试的其他任何程序都要好得多。

你好欢迎来到Linux,今天我们讨论将声音转换为文本

与“听写和邮件”的诀窍是慢慢说话和发音,以及你甚至可以口音。

完成讲话后,您可以将结果通过电子邮件发送给自己。

谈话和谈话听写

我试过的另一个Android应用程序是“谈话和谈话听写”。

这个应用程序的界面是最好的,语音识别确实工作得很好。 录音后,我可以通过各种方式分享结果,包括通过电子邮件。

今天欢迎来到linux about.com我们正在谈论将语音转换为文本

正如你所看到的,上面的文字大致如你所期望的那样清晰。 慢慢谈话是关键。

概要

本机Linux有一些关于语音识别和专门听写的方法。 有一些应用程序使用Google语音API,但它们尚未在存储库中列出。

ChromeOS应用程序稍微好一些,但使用我的Android手机取得了最佳效果。 也许手机有一个更好的麦克风,因此语音识别软件有更好的转换机会。

要使语音识别变得非常实用,需要更少的设置才能更直观。 您不应该为了使其理解而使用语言模型和字典。

然而,我很欣赏整个语音识别技术是非常具有挑战性的,因为每个人都有不同的声音,在一个国家有很多地区的方言,从来不担心世界各地使用的数百种语言。

因此,我的分析是语音识别软件仍在进行中。