• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

语音识别入门概述

武飞扬头像
一个很菜的小猪
帮助1

1、语音识别的定义

Automatic Speech Recognition(ASR)或Speech to Text(STT),将语音转换为文本的任务。

2、语音识别的常用评估标准:

(1)Accuracy(准确率)
  • 音素错误率(Phone Error Rate)
  • 词错误率(Word Error Rate,WER)
  • 字错误率(Character Error Rate,CER)
  • 句错误率(Sentence Error Rate,SER)
(2)Efficiency(效率)
  • 实时率(Real-time Factor,RTF)

3、语音生成

(1)音素:一种语言中语音的“最小”单元。音素可以分为辅音音素和元音音素,不同的语言中音素的数量不完全相同
(2)词素:一种语言中最小的具有语义的结构单元
(3)共振峰:指声音的频谱中能量相对集中的一些区域
(4)协同发音:人的发音过程中,受类似惯性的影响,每一个发音都会受到前面发音和后面发音的影响,音素在声学上的实现和上下文是强相关的
(5)音节:一个更大颗粒度的单位,元音和辅音结合构成一个音节

在中文中,一个汉字读音为一个带调音节,普通话约1300多个带调音节,如果去掉声调,即基础音节,普通话约400个基础音节。

4、语音感知

(1)响度:人主管感受不同频率成分声音的物理量
(2)音色:由声音波形的谐波频谱和包络决定
(3)音调:对于频率的感知,非线性的,近似对数函数

学新通

f:物理频率
Tmel:音调
Mel:单位

5、语音识别的深度学习时代

2006年,多伦多大学Geoffrey Hinton教授在Nature上发表论文,为神经网络提供了有效的预训练算法,标志着语音识别进入深度学习时代。这个阶段声学架构从GMM-HMM转变为DNN-HMM,语言模型也转变为ngram NNLM。在深度学习时代,语音识别错误率在众多Benchmark上取得新低,目前在IBM,Switchboard数据集上词错误率已达到5.0%,语音系统开始逐步从混合系统(Hybrid)发展到端到端系统

6、现代语音识别框架

(1)统计模型:

如果学新通是指声学特征向量(观测向量)的序列,学新通表示一个单词序列,则最有可能的单词序列由以下公式计算而来:

学新通

应用贝叶斯定理推导:
学新通

其中,学新通为声学模型,学新通为语言模型。

现代的统计模型使用声学模型、语言模型、发音词典,通过给定的声学特征向量X,获取最有可能的词序列学新通

(2)端到端系统:

用一个神经网络直接讲输入声学特征向量X映射为词序列学新通

7、语料库与工具包

(1)英文数据:
  • TIMIT:音素识别,LDC版权
  • WSJ:新闻播报,LDC版权
  • Switchboard:电话对话,LDC版权
  • Librispeech:有声读物,1000小时,开源(http://openslr.org/12/)
  • AMI:会议,开源(http://openslr.org/16/)
  • TED-LIUM:演讲,开源(http://openslr.org/19/)
  • CHiME-4:平板远讲,需申请
  • CHiME-5/6:聚会聊天,需申请
(2)中文数据:
  • THCHS-30,30小时,开源(http://openslr.org/18/)
  • HKUST,150小时,电话对话,LDC版权
  • AIShell-1,178小时,开源(http://openslr.org/33/)
  • AIShell-2,1000小时,开源需申请(http://www.aishelltech.com/aishell_2)
  • aidatatang_200zh,200小时,开源(http://openslr.org/62/)
  • MAGICDATA,755小时,开源(http://openslr.org/68/)
(3)工具包:
  • HTK:http://htk.eng.cam.ac.uk/(C)
  • Kaldi:http://kaldi-asr.org/(C ,Python)(目前使用最广泛的工具包)
  • ESPNet:https://github.com/espnet/(Pytorch based)(主要针对端到端系统)
  • Lingvo:https://github.com/tensorflow/lingvo.git(Tensorflow based)

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfiiffg
系列文章
更多 icon
同类精品
更多 icon
继续加载