• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

口语评分机制

武飞扬头像
子燕若水
帮助1

参考链接:(笔记) kaldi 入门 - 知乎

android平台如何实现“英语口语”评分功能? - 代霸天的回答 - 知乎 https://www.zhihu.com/question/23348909/answer/144786507

https://www.zhihu.com/question/64765674/answer/2248833804
https://www.zhihu.com/question/21511653/answer/30916375
 

在衡量一个机器口语评分系统是否足够靠谱的时候,“准确率”并不适用。因为对口语好坏的评价是主观的,往往没有绝对的对错。学术界一般采用比如相关性(比如皮尔森相关系数),一致性(比如Kappa coefficient)来衡量自动打分系统的性能。简单说来,这些指标都是量化衡量机器打分是否足够接近人的打分;通常,我们也会用平均的人与人之间的相关性、一致性来做为参照。在我们的测试中,流利说的打分系统的人机相关性、一致性已经超过了人与人之间的平均相关性、一致性。从这个角度看,流利说的评分机制是足够“准确”的。

关于录音回放评分不高

首先标准录音回放评分不高并不能说明打分不科学,相反,这反应了某种程度上的“智能”(能够区分真人录音还是转录)。具体来说,流利说打分系统利用的是人直接通过手机的录音数据做训练的,而录音回放经过了放音,录音的过程,这些额外的信道引入的畸变(channel distrotrtion)自然会影响分数。

关于打分使用的算法

学术界关于自动口语评分的算法的研究可以追溯到90年代初。目前工业界采用的主流的跟读口语评分方法主要是基于隐马尔可夫模型 (Hidden Markov Model) 的语音识别引擎,利用其似然分数值 (likelihood score) 以及其他相关的信息做为评分依据。其中,最经典的GOP (Goodness of Pronunciation) 方法是由麻省理工大学的Silke Witt在他的博士论文中提出。之后的评分方法大都与GOP算法相似,或者是由它衍生出来。流利说使用的打分算法也正是以GOP算法为基础的。

此类方法都基于语音识别,但是和语音识别任务有很大区别的。在语音识别任务中,一段语音对应的文字(内容)是事先不知道的,需要由语音识别系统“猜”出来;而在打分系统中,一段语音对应的文字是事先知道的,系统需要做的是对这段语音做一个发音上的评价。

GOP算法的基本思想正是利用了事先知道的文字信息,把语音和它对应的文字做一次强制对齐 (force alignment),并把强制对齐得到的似然分数值与在不知道对应文字情况下得到的似然分数值做一个比较,利用这个似然比(likelihood ratio)做为发音好坏的评价。

关于GOP算法的技术细节,有相关背景的童鞋可以参看Witt的论文。直观的来说,这类算法计算的是输入语音对应于已知文字的可能性,如果可能性越高,说明发音越标准。这种可能性的计算是基于语音识别中的声学模型(acoutisc model) 的,而声学模型往往是通过大量的母语发音人的录音训练而成。英语流利说打分引擎中使用的声学模型是训练中使用了数千美国人近万小时的录音。也就是说,我们的打分引擎“听”过了几千美国人近万小时的录音,从中总结出了统计特征与规律,并利用这些规律对流利说用户的录音进行发音的评分。因此,一些认为流利说的打分只是做“波形比对”的看法是偏颇的;非要说“比对”的话,实际使用的比对是待打分语音与已知文字,和基于大量数据的统计模型的匹配程度的对比。

流利说的打分算法在GOP算法基础上,做了很多改进与创新,打分并不是噱头,是我们的核心竞争力之一:)


在这里举一个例子——之前的口语评分系统大都是在PC(电脑)上运行,或者是在线的(需要网络连接才能完成)。为了让大家可以随时随地在手机和其他移动设备上练习(不论是否有网络),也为了帮助大家节约网络流量,我们在技术上做了很多研发和创新,实现了一个占用资源很少的离线打分引擎。也就是说,用户在使用流利说到时候,无论是否有网络连接,都可以使用口语评分功能(且不消耗任何流量),真正让用户“随时随地练习口语”并获得即时反馈成为可能

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgfkhfe
系列文章
更多 icon
同类精品
更多 icon
继续加载