• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

语音会议自动转文字系统的想法

武飞扬头像
只想学习&&不想其他
帮助1

我要考虑的问题是做的是什么?用什么做?如何做?我觉得首先思考一下这三个问题,对我后面的工作有很大的帮助,而不是无脑的去查资料,我要通过回答这三个问题,明确语音会议自动转文字系统这个毕业设计的工作方向,有了方向,才会有前进的动力。

第一、做的是什么?

语音会议自动转文字系统,顾名思义,就是一个比较智能化的记录会议的一个pc端的软件,我想要实现的功能就是通过使用这个软件,在我们开会的时候,点开这个软件,然后系统会自动识别说话人是谁,并记录他说的话,翻译成文字,最后会议结束,自动保存记录的内容,或者是生成一个txt文件,文件内容的格式我设想的是这样的:


                             学新通


可以手动添加说话人,这样当他识别出说话人是是谁时,就可以记录名称,就像boos、小明一样,如果在记录中没有检测到说话人,那么就记录为员工,并且添加到记录中,就像员工二、员工三。这就是我想要设计的系统的主要功能,当然其中还需要很多优化的部分,这些先暂且不谈,那么就总结出我想要设计的系统的两个主要的功能:

  • 自动识别说话人
  • 语音转文字

第二、用什么做?

用什么做?这个问题我想要结合我现在所学的知识以及我想要实现的功能这两个方面来思考,首先确定下来的就是python和pycharm这两个大的方面,然后就是思考在实现这两个功能时需要用到什么?这个真的很重要,想到这里,我觉得我不应该仅仅只是结合我想要实现这两个功能来想用什么做,我还应该结合第三个问题如何做?也就是说我用哪种算法来实现这两个功能?想要实现识别说话人、语音转文字这两个功能,有很多方法,经过度娘,以及翻阅文献,主要的方法如下:

说话人识别:

因为方法实在太多了,搞的我也分不清出,看迷糊了,就看到一个博客的一个图如下,还挺清楚的,其实还要很多分类,如人工神经网络还有CNN、RNN等,其中还有的就是让他们结合着来用。

学新通

下面这个图应该就是说话人识别的主要流程。

学新通

这里我主要参考文章如下

声纹识别算法、资源与应用(二) - 知乎 (zhihu.com)学新通https://zhuanlan.zhihu.com/p/35687281

声纹识别(说话人识别)技术 - Skye_Zhao - 博客园 (cnblogs.com)学新通https://www.cnblogs.com/ytxwzqin/p/9369105.html

声纹识别(说话人识别) - 简书 (jianshu.com)学新通https://www.jianshu.com/p/19d34b19517b

语音转文字:

下图就是语音识别的流程图,可以看出,关键的就是建立声学模型和语言模型,这需要大量的数据做支撑,但是也不成问题,现在有很多公开的用于语音识别的数据集可以使用,数据集网址后面给出。

学新通

而这一个图是在另一个地方看到的,比上面的要更加详细,就决定先按照这个方向实现这个功能,当然要声学模型和语言模型的实现过程我想肯定是很艰难的,但这应该对我来说也是一个提升。

学新通


总之,要回答用什么做,这个问题,我看了很多,比如有一个语音识别的框架kaldi,但我了解了一下那个需要在linux环境中实现,我需要花费太大的时间来学习,并不符合我现在的要求,所以决定使用tensorflow这个深度学习的框架来实现。

所以,站在大的方向看,使用python、tensorflow、pycharm。

当然,肯定还需要很多工具,比如我还需要一个窗口,这个使用pyqt5

还有就是不是安装python这个环境,而是安装更为方便的annacoda。

后面还要使用什么的话我会继续补充。

这个我主要参考的文章有

第三、如何做

关于如何做这个问题,我的想法就是列目标,就是想一想每个方面用什么方法去做,就比如说数据结构中的逻辑结构和物理结构的关系,如何做就是逻辑结构,我得先想想其中的逻辑结构,然后再使用代码实现,我想这不是一下子(指时间短暂或动作迅速)(指时间短暂或动作迅速)就能完成的事情,这需要我看文献,参考很多大佬的代码,理解,学习才行。

  1. 构造开发环境,下载数据集
  2. 设计整个系统的框架结构,我想我需要画一个比较详细的流程图
  3. 写代码
  4. 测试
  5. 整理文本

上面应该就是我能想到的几个阶段,其中我觉得较为重要的应该是2,因为我的专业也不是关于软件设计的也没有学过相关的知识,害!



结尾

三个问题已经回答,写这个博客的目的就是记录我再做毕设时的想法以及过程,还有记录一下我学到了多少,就相当于我自己的工作日记吧,还有一个目的就是如果有大佬看到还望给予指点,如果我有做错的地方,希望您给我指出,谢谢大家!

下面这几个链接是我觉得后面我会用到的用以记录一下

下面这两个是一个是大佬总结的中文语音识别开源数据集链接,另一个是一个下载数据集的网站,就是下载速度感人

【数据集】中文语音识别可用的开源数据集整理 - Yanqiang - 博客园 (cnblogs.com)

数据集链接

这两个一个是tensorflow的官网教程,一个是一个比较详细的学习tensorflow的网址

TensorFlow Core (谷歌.cn)

TensorFlow教程:TensorFlow快速入门教程(非常详细) (biancheng.net)

下面这三个是GitHub中大佬做的有参考价值项目

GitHub - Gateway11/tensorflow-examples: 【中文语音识别 】【验证码识别】

GitHub - xxbb1234021/speech_recognition: 中文语音识别

GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgcgahk
系列文章
更多 icon
同类精品
更多 icon
继续加载