目前语音识别的技术现状如何?

文章正文
发布时间:2024-09-10 13:42

目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。


2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN 使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。
 

目前语音识别的技术现状是怎样的

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和 DFSMN 算法进行融合,语音识别错误率相比上一代技术降低 20%,解码速度提升 3 倍。FSMN 通过在 FNN 的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而 DFSMN 是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。


2019 年,百度提出了流式多级的截断注意力模型 SMLTA,该模型是在 LSTM 和 CTC 的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用 CTC 模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代 Deep Peak2 模型提升相对 15% 的性能。


开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。该模型是一种类似于 CTC 的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是 CD Phone,另一个是 CD Phone 的空白,训练方法采用的是 Lattice-Free MMI 训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。


远场语音识别技术主要解决真实场景下舒适距离内人机任务对话和服务的问题,是 2015 年以后开始兴起的技术。由于远场语音识别解决了复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。


语音识别另外两个技术部分:语言模型和解码器,目前来看并没有太大的技术变化。语言模型主流还是基于传统的 N-Gram 方法,虽然目前也有神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。解码器的核心指标是速度,业界大部分都是按照静态解码的方式进行,即将声学模型和语言模型构造成 WFST 网络,该网络包含了所有可能路径,解码就是在该空间进行搜索的过程。由于该理论相对成熟,更多的是工程优化的问题,所以不论是学术还是产业目前关注的较少。

关键字: 引用地址:目前语音识别的技术现状如何?

上一篇:提升语音识别技术才是智能音箱发展的最关键
下一篇:荣耀新推四大新品是否值得购买?

推荐阅读最新更新时间:2024-08-30 15:36

基于神经网络的无位置传感器无刷直流电机驱动设计

1实机测试 实验系统的结构如图5所示。扭矩仪的 测量 范围是10kg-cm。在这个控制系统里的电动势估计神经网络模型有7个输入层,14个中间层,和两个输出层。神经网络被离线训练后来处参考速度和的负载的波动。特别地,在扭矩为0.001,0.5,1.0 N-m,当参考速度从400→800→1200rpm,通过一个位置 传感器 驱动 电机 来获得训练数据。电动势估计神经网络模型经过这样的训练后被应用到实机测试中,在该实机中,参考速度固定但负载变化。图6表明了在参考速度为1000rpm,负载扭矩从0增加到10kg-cm所得到的实验结果。从表上可以明显看出,即使是在负载变化时, 电机 速度仍与给定参考速度一致。在无负载运行和转矩为10kg

[电源管理]

基于神经网络的无位置传感器无刷直流电机驱动设计

ARM与神经网络处理器的通信方案设计

摘要:基于ARM芯片和FPGA的特点,设计了一种ARM与FPGA人工神经网络处理器之间的通信方案。该方案采用ARM的ZDMA控制器对数据传输进行控制,完成ARM与神经网络处理器的控制寄存器组、分布式存储器、样本存储器等存储体的数据交换。 引言 人工神经网络在很多领域得到了很好的应用,尤其是具有分布存储、并行处理、自学习、自组织以及非线性映射等特点的网络应用更加广泛。嵌入式便携设备也越来越多地得到应用,多数是基于ARM内核及现场可编程门阵列FPGA的嵌入式应用。某人工神经网络的FPGA处理器能够对数据进行运算处理,为了实现集数据通信、操作控制和数据处理于一体的便携式神经网络处理器,需要设计一种基于嵌入式ARM内核及现场可编程

[单片机]

ARM与神经网络处理器的通信方案设计

基于神经网络模块SN9701开发多变量系统解耦控制器

    摘要: 基于单输出的具有自学习功能的神经网络模块SN9701一发出了多变量系统的解耦控制器,计算机仿真结果表明,用4块SN9701可以完成双输入双输邮系统的解耦控制。介绍了该多变量系统耦控制原理以及解耦控制系统中的SN9701的训练。     关键词: 神经网络 SN9701 解耦控制 计算机仿真 人工神经网络作为现智能控制领域的一个分支,近年来在工业自动化领域得到了广泛的应用。例如,可用于预报、模式识别 、寻优和改善控制环节等 。而大部分的研究集中在神经网络软件上,主要是软件设计和学习算法。一些国家已研制出神经网络芯片,使神经网络的本质并行算法真正得以体现。SN9701是一种神经网络硬件模

[传感技术]

各类处理器大显身手 人工智能进驻物联网终端

  人工智能终端应用的可能性无限,举凡智能型手机、汽车、照明等,都有机会成为所谓的边缘运算装置。 但在过去,运算 处理器 是在数据中心有较为明显的需求。 目前边缘运算此一产业走向的大逆转,已可从各芯片供货商,如GPU、CPU等,以及硅智财(IP)授权商纷纷针对人工智能展开布局,推出各自 处理器 缩小化的解决方案,明显可见一斑。下面就随嵌入式小编一起来了解一下相关内容吧。   随着人工智能的发展,有越来越多应用产品开始在终端上进行实时运算,也就是所谓的边缘运算。 不过,目前的 处理器 核心对许多终端装置来说,功耗仍嫌偏高。    AIoT浪潮兴起 小型处理器核心满足边缘运算需求   索思未来(Socionext)战略销售组销售部

[嵌入式]

钢铁侠的AI助手贾维斯,离我们的生活还有多远?

可能人人都希望自己有个“贾维斯”。 虽然已经退出漫威电影很多年,但是我们还是能够记起那个钢铁侠战衣里无所不能的AI助手。独特的幽默、优雅的语调,以及非常靠谱的人设,让无数科幻迷对这个看不见听得到的角色产生了无尽好感。 对贾维斯的迷恋有多疯狂呢?我见过贾维斯版本的电脑桌面程序,贾维斯模样的手机UI,以及以贾维斯命名的AI算法。设计师和极客们,迄今为止想了无数办法来“复活”属于自己的贾维斯。 然而画面越来越逼真的贾维斯界面,显然无法得到它的精髓:像朋友一样的沟通与陪伴。 假如说有某种技术希望能够在“本质”上寻找贾维斯,那么一定非 语音助手 莫属。 由于身处一个科技爆炸的年代,日常生活中我们可能不太留心某种技

[嵌入式]

钢铁侠的AI助手贾维斯,离我们的生活还有多远?

车用LED照明技术及现状分析

  随着全球经济的发展和人民生活水平的提高, 汽车在日常生活中的使用越来越多, 因此汽车节能减排及行车安全的要求日益提高。汽车照明系统是保障汽车安全行驶的关键部件, 光源又是汽车照明系统的关键。发光二极管(LED)作为第四代车用光源具有寿命长、能耗低、体积小、响应快、单色性好等诸多优点, 顺应了未来汽车的安全、节能、紧凑、时尚的发展趋势。相信随着汽车工业的成熟以及LED 芯片、封装、散热等技术突飞猛进的发展,LED 在汽车照明系统中的应用会越来越广, 规模会越来越大。   1 车用LED 照明的可行性和先进性   在汽车上使用照明光源大约开始于20 世纪初。最先使用的是煤油灯和乙炔灯,1910 年开始使用电光源,先后经历了

[电源管理]

车用LED照明技术及现状分析

如何学习神经网络?

1. AI 电磁车实验方法 寒假留校的时候,我们自己尝试了一下,就是先让之前室外越野组的车模用他自己的八个电感用程序绕赛道跑了一下,正跑三圈反跑三圈。 学习您之前推文上将用作学习的那个传感器装在车的中间,由此以这个为信号输入端,样子请见下图: 在之前公众号 AI 电磁车模图片 下面是我们实验车模结构草图: 我们实验车模结构草图 用无线串口通讯将采集到的数据放到电脑上,输出值为四个电感值,一个舵机中值。 2. 学习训练结果 我们用 MATLAB 来进行神经网络学习,神经网络学习也是去网上找各种资料,改了别人家的例程,然后勉强答出一个可以接受数据,并且来进行一个模拟学习的一个模型出来,因为输入的一共是两对横电感

[嵌入式]

如何学习神经网络?

基于非特定人语音识别芯片的技术方案

0 引言 随着高新技术在军事领域的广泛运用,武器装备逐步向高、精、尖方向发展。传统的军事训练由于训练时间长、训练费用高、训练空间窄,常常不能达到预期的训练效果,已不能满足现代军事训练的需要。为解决上述问题,模拟训练应运而生。 为进一步提高训练效果,本文利用智能语音交互芯片设计了某模拟训练器的示教与回放系统。示教系统为操作人员生动的演示标准操作流程及相应的操作现象,极大地缩短了对操作人员的培训时间,提高了培训效果。回放系统通过记录操作训练过程中各操作人员的口令、声音强度、动作、时间、操作现象等,待操作训练结束后通过重演训练过程,以便操作者及时纠正自己的问题。示教系统也可理解为对标准操作训练过程的回放。该系统不需要虚拟现实技术的支

[单片机]

基于非特定人语音识别芯片的技术方案