语音识别未成熟 亚马逊Alexa通过半监督学习减少误差

IP属地:香港
78 0
脆脆鲨 2023-9-22 13:16:57 | 显示全部楼层 |阅读模式
  【CNMO新闻】深度神经网络需要时间来进行训练,对于语音识别系统更应如此。传统模型语料库包括数千小时的转录语音片段,因此,亚马逊Alexa部门的科学家正在研究如何加快这一过程。近日,他们报道表示他们取得了重大进展。
  Alexa Speech小组的应用科学家Minhua Wu和同事在论文中描述了一种语音识别器,它可以以半监督的方式识别数据模式。他们声称一个实验模型训练了800小时的注释数据和7200小时的未注释数据,与基线相比,该设计使字的错误率降低了20%。

亚马逊Alexa

  正如他们解释的那样,自动语音识别系统由三个核心组件组成,分别是声学模型、发音模型和语言模型。声学模型输入短音频样本或帧,并且每帧输出数千概率。在所提出的方法中,声学模型的输出被馈送到发音模型,该发音模型将senone序列转换为可能的单词并将其递送给语言模型,语言模型则负责编码单词序列的概率。最后,所有三个人工智能系统一起在给定音频输入的情况下找到最可能的单词序列。
  该论文的作者首先寻求了优化声学模型的最大准确度,并最大限度地减少输出序列的误差。他们报告表示,这使得学生模型的对应物更加准确,并带来了学生模型的相对改进。接下来,他们从音乐、电视和其他媒体收集音频样本并处理它们,以模拟闭室声学,从而为训练数据增加了噪音。对于训练集中的每个语音示例,他们都会随机选择一到三个噪声样本添加到其中。
  在测试中,该团队使用了另外两个语料库。一组是干净的音频样本,而另一组样本则是包含噪音的。其中,表现最佳的学生模型首先使用所有添加了噪音的8000小时数据,并根据教师模型的每帧输出进行优化,然后对800小时的注释数据进行训练。相对于使用800小时手工标记的清洁数据训练的教师模型来看,它的清洁测试数据的错误率降低了10%,噪声测试数据降低了29%,重新录制数据错误率降低了20%。该研究计划于2019年春天在布莱顿举行的声学、语音和信号处理国际会议上进行展示。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Discuz Team. Powered by Discuz! X3.5 |网站地图