人工智能语音聊天(语音识别人工智能)
智能语音技术是以语音为研究对象,对语音语义进行识别、理解以及生成,使机器具备自然语言处理能力,并且利用其核心技术赋予机器听觉、理解能力以及语言能力。
智能语音三步曲
智能语音技术涉及多类型学科,其核心技术包括语音识别(ASR)、声纹识别(Voiceprint Recognition)、自然语言处理(NLP)、语音合成(TTS)、语音去噪等关键技术。
智能语音技术
语音识别
语音识别,或称为自动语音识别(Automatic Speech Recognition,ASR),是指令机器能够识别口语单词并将其转换为文本的过程。
语音识别发展历程
语音识别技术的核心和发展,主要在声学模型的领域上,可以分为三个阶段:
第一阶段
模型匹配法(70年代),主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配,即将测试语音与参考语音分别进行特征值提取后,直接整段比对吻合度。当时的主流算法有动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)等。
第二阶段
概率统计型(1993年~2011年),主流的技术是GMM+HMM。HMM模型将语音转换文本的过程中增加了两个转换单位:音素和状态,GMM将状态的特征用概率模型来表述,提升语音帧到状态的准确率。基于GMM-HMM框架,后续又提出了许多改进方法,如动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等。
第三阶段
深度神经网络(2012~至今),常用的方法有深度神经网络-隐马尔科夫(DNN -HMM);递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加;卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少资源浪费等。
语音识别发展历程
语音识别流程
语音识别流程主要可分为输入—>编码—>解码—>输出 。
语音识别流程
选择识别单元,即确定选择识别的对象,然后根据识别对象的语音特点、词汇量大小等条件确定识别对象为单词、音节或音素;
互联网小常识:在传统网络中,逻辑工作组容易受其所在网段的物理位置的限制,但有了交换式局域网则可采用虚拟局域网VLAN技术加以改善。VLAN可以有以下四种定义方式:基于交换机端口定义的虚拟局域网、基于MAC地址定义的虚拟局域网、基于网络层地址定义的虚拟局域网和基于IP广播组定义的虚拟局域网。
原始音频
识别单词、音节或音素
提取特征参数,从语音波形中提取出重要的反应语音特征的相关信息;
特征提取
建立声学模型和语言模型,进行训练和识别。
声学模型主要描述发音模型下特征的似然概率。
语言模型主要描述词间的连接概率。
具体来说就是输入一段语音信号,要找到一个文字序列(由字或者词组成),使得它与语音信号的匹配程度最高。
解码
这个匹配程度,一般都是用概率来表示的,用O表示声学特征,用W表示文字序列,则要解决的问题定义为数学模型的过程为:
互联网小常识:服务器在进行文件传送时要求用户输入账号和密码,但是可以使用“匿名FTP服务”来使用户不用输入密码。
最常用的声学模型隐马尔科夫模型(HMM)逐渐被深度神经网络(DNN)所替代。
声学模型演化(GMM-HMM到DNN-HMM)
最常用的语言模型是N-Gram,包含单词序列的统计数据和有限状态语言模型。
语言模型N-Gram
最后进行后期的处理,包括音字转换、词法、句法和文法的处理等,最终输出识别的文字。本人将文章的第一段录制成音频,进行语音识别。
语音识别结果
语音识别的应用覆盖场景很多,只要涉及到人机语音交互的场景都会使用到语音识别技术,如智能家居、智能车载、智能医疗、智能客服、智能教育等。您是否对语音识别感兴趣呢?欢迎一起交流探讨。
最后,引用《论语·雍也第六》的一句话:知之者不如好之者,好之者不如乐之者。。
互联网小常识:DNS服务器的分类:(1)根DNS服务器:有13个(标号a-m).(2)顶级域名服务器(TLD)(com、org…和cn)。(3)权威DNS服务器。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186