语音会议自动转文字系统的想法

只想学习&&不想其他

2024-04-20 帮助1人

我要考虑的问题是做的是什么？用什么做？如何做？我觉得首先思考一下这三个问题，对我后面的工作有很大的帮助，而不是无脑的去查资料，我要通过回答这三个问题，明确语音会议自动转文字系统这个毕业设计的工作方向，有了方向，才会有前进的动力。

第一、做的是什么？

语音会议自动转文字系统，顾名思义，就是一个比较智能化的记录会议的一个pc端的软件，我想要实现的功能就是通过使用这个软件，在我们开会的时候，点开这个软件，然后系统会自动识别说话人是谁，并记录他说的话，翻译成文字，最后会议结束，自动保存记录的内容，或者是生成一个txt文件，文件内容的格式我设想的是这样的：

学新通

可以手动添加说话人，这样当他识别出说话人是是谁时，就可以记录名称，就像boos、小明一样，如果在记录中没有检测到说话人，那么就记录为员工，并且添加到记录中，就像员工二、员工三。这就是我想要设计的系统的主要功能，当然其中还需要很多优化的部分，这些先暂且不谈，那么就总结出我想要设计的系统的两个主要的功能：

自动识别说话人
语音转文字

第二、用什么做？

用什么做？这个问题我想要结合我现在所学的知识以及我想要实现的功能这两个方面来思考，首先确定下来的就是python和pycharm这两个大的方面，然后就是思考在实现这两个功能时需要用到什么？这个真的很重要，想到这里，我觉得我不应该仅仅只是结合我想要实现这两个功能来想用什么做，我还应该结合第三个问题如何做？也就是说我用哪种算法来实现这两个功能？想要实现识别说话人、语音转文字这两个功能，有很多方法，经过度娘，以及翻阅文献，主要的方法如下：

说话人识别：

因为方法实在太多了，搞的我也分不清出，看迷糊了，就看到一个博客的一个图如下，还挺清楚的，其实还要很多分类，如人工神经网络还有CNN、RNN等，其中还有的就是让他们结合着来用。

学新通

下面这个图应该就是说话人识别的主要流程。

学新通

这里我主要参考文章如下

声纹识别算法、资源与应用（二） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/35687281

声纹识别（说话人识别）技术 - Skye_Zhao - 博客园 (cnblogs.com)https://www.cnblogs.com/ytxwzqin/p/9369105.html

声纹识别（说话人识别） - 简书 (jianshu.com)https://www.jianshu.com/p/19d34b19517b

语音转文字：

下图就是语音识别的流程图，可以看出，关键的就是建立声学模型和语言模型，这需要大量的数据做支撑，但是也不成问题，现在有很多公开的用于语音识别的数据集可以使用，数据集网址后面给出。

学新通

而这一个图是在另一个地方看到的，比上面的要更加详细，就决定先按照这个方向实现这个功能，当然要声学模型和语言模型的实现过程我想肯定是很艰难的，但这应该对我来说也是一个提升。

学新通

总之，要回答用什么做，这个问题，我看了很多，比如有一个语音识别的框架kaldi，但我了解了一下那个需要在linux环境中实现，我需要花费太大的时间来学习，并不符合我现在的要求，所以决定使用tensorflow这个深度学习的框架来实现。

所以，站在大的方向看，使用python、tensorflow、pycharm。

当然，肯定还需要很多工具，比如我还需要一个窗口，这个使用pyqt5

还有就是不是安装python这个环境，而是安装更为方便的annacoda。

后面还要使用什么的话我会继续补充。

这个我主要参考的文章有

第三、如何做

关于如何做这个问题，我的想法就是列目标，就是想一想每个方面用什么方法去做，就比如说数据结构中的逻辑结构和物理结构的关系，如何做就是逻辑结构，我得先想想其中的逻辑结构，然后再使用代码实现，我想这不是一下子（指时间短暂或动作迅速）（指时间短暂或动作迅速）就能完成的事情，这需要我看文献，参考很多大佬的代码，理解，学习才行。