人工智能mp4(人工智能mp3)

业界动态来源：互联网

Mark wiens

发布时间：2022-09-05

人工智能mp4(人工智能mp3)

来源：交汇点新闻客户端

交汇点讯近日，美国一款即时性音频社交软件Clubhouse风靡全球，不到一年的上线时间，软件全球下载量突破800万。Spaces对话吧SoundClub等一系列类似软件紧跟其后，似乎都在暗示声音社交回归舞台。

自出生后的第一声啼哭开始，我们与声音已经相处已久，但关于声音，或许我们还有许多方面值得深究。人工智能时代，声音在被捕捉、模仿、传输和理解的过程中，究竟经历了什么？本期《科技周刊》带你走进声音的世界。

语音中的声音为何变奇怪

现实生活中，很多人有这样的经历：当你饱含深情地说了一段语音后，语音播放出来却不仅声音变得奇怪，听起来甚至不太像自己。明明是同一个人在说话，为何会出现这样的差异呢？究竟哪个才是自己最真实的声音？实际上，这主要有两个原因，首先是声音传播的方式不同，另一个是语音经过社交平台转录出去后常常会被压缩。中国科学院声学研究所研究员、中国科学院语言声学与内容理解重点实验室副主任张鹏远接受《科技周刊》记者采访时表示，声音是由物体振动产生的，别人听见你的声音是由你声带的振动引起了空气的振动，从而被他人感知，所以是依靠空气传播；而自己听见自己的声音则是通过颅骨传导，直接振动耳蜗进而转化为神经信号，变成你所听到的声音，这也就是我们常说的骨传导。因为传播方式的不同，且环境中存在着大量干扰，同一个人说的话自己听见的版本和别人听见的版本是不同的。除此之外，声音之所以变奇怪可能还涉及到编码和解码的问题。当我们对着麦克风说话，声音被麦克风采集后转为数字信号，这时候就可能会出现失真。张鹏远以有损音频和无损音频举例，如果把声音视作为一条曲线，无数的点构成了这条曲线。对于同样一段声音，有损音频的采样频率和采样精度比较低，比如每秒钟采样8000个点（约为打电话时所用的采样频率），那么声音自然就会出现偏差。同一首歌曲，采样频率和采样精度越高，其对声音的还原程度也就越高。一般来说，有损音频和无损音频的文件大小可以相差10倍以上。我们通过微信发送语音，因为要降低传输数据量，所以一般都会对其进行压缩。声音和我们的指纹一样，有着每个人各自的独特之处，并且相对稳定、可辨别。由于人的发声器官位置、尺寸不同，并且每个人声音的音色、音调等特征不同，所以从人声音中提取出来的声纹（人的声音频谱）具有唯一性。张鹏远表示，现在很流行的声纹识别技术实际上就是将声信号转化为数字信号，再利用技术手段捕捉特定对象的声纹特征，从而判定说话的人是谁。

你的声音如何被复刻

互联网小常识：可变长子网掩码地址规划。子网长度不同，根据需求分析应该为每个子网分配的子网号长度、主机号长度，计算子网掩码，列出ip地址段。

自1939年世界上第一台能够合成人声的电子设备Voder亮相纽约世界博览会以来，如何能让机器模仿人的声音就成了人工智能领域的一大热点话题。江苏省人工智能学会智能语音专家、苏州思必驰信息科技有限公司联合创始人、上海交通大学苏州人工智能研究院执行院长俞凯教授告诉《科技周刊》记者，人工智能语音合成技术正不断迭代更新，其发展历史主要分为三个阶段：在第一代技术，我们需要被模仿人提前录制一个庞大的音库，这个音库会被切分成若干小段随时待取，当我们所需要合成的语音中每一个涉及的词都提前录制过，则可以直接调取。这种情况下播放出的声音将会很逼真，基本上就是录音，但其缺点在于需要提前录制大量语料，一旦遇到没有提前录制的词句，就会出现间断等明显不自然情况。第二代技术开始运用机器学习技术，首先将采集到的声音利用相关参数化的统计模型进行建模，使用信号处理的方式，将建模之后生成的声音频率特征进行信号处理，最后输出我们能够听见的声音。尽管这种方式的连贯性会好很多，但由于在统计模型的建模过程中声音频率特征会被平滑，从而产生音质损失，因此整体来看第二代技术所合成的语音并不是那么逼真。而在第二代技术的基础上发展起来的第三代语音合成技术，大多是基于深度学习中的神经网络技术开展。和第二代相似，现在的第三代技术也是数据驱动的，但大多采用了先进的端到端深度学习框架，数据训练后合成的声音比较连贯和自然。如果在录音条件非常好且有充足数据的情况下，其合成声音和真人声音没有太大区别，人耳基本上听不出差异。目前利用语音合成技术去模仿人声，需要通过神经网络去捕捉被模仿人声音中的三类主要变化特性。俞凯介绍，首先是语言文字的特征，即这个词应该发什么音；第二类特征是韵律的特征，即声音的抑扬顿挫；最后还需要把握说话人的时长特征，即说话人发每个音需要用的时间。男人和女人、老人和孩子，不同人说话的声音各不相同，这三类特征信息被神经网络捕捉到之后会生成一个频谱序列，而这个序列会被传递到另一类神经网络中，最终生成模仿后的声音。生活中，很多车主将林志玲、郭德纲等名人的声音设定为地图软件中的导航提示音，其实这也得益于语音合成中的复刻技术。全国大大小小的路名有很多，全部让人念出来录音几乎是不可能的事。因此，我们需要前期在高保真录音室中记录很多人的语音数据，训练一个平均模型，随后将特定目标人说话的录音导入，让系统根据目标人说话特征进行调优，从而尽可能模仿目标人的声音。张鹏远表示，一般来说，合成语音的自然度和相似度是通过MOS（平均主观意见分）分来进行评价。MOS分满分为5分，一般情况下采集目标人100句话之后所能合成的语音，其MOS分可以达到4.2分的水平；而如果只采集到5句话，则MOS分就会比较低，人耳能明显听出不同。

透过声音能看见脸吗

互联网小常识：FTP服务使用C/S工作方式。在进行文件传送时，FTP客户机和服务器之间建立两个连接控制连接和数据连接。

两年前，康奈尔大学研究团队设计并训练了一个深度神经网络，它在训练过程中学习了视听、音像、声音和面部的关联性，从而根据声音来推测面部特征。透过声音，人工智能真的能够看到脸吗？目前，人工智能领域对声音的研究又有何新进展？对此，张鹏远认为，单纯借助声音无法百分百还原目标人的脸部图像，但有可能还原出其部分面部特征。人的声音和人脸的图像其实是有相关性的，例如我们在单看唇部运动的时候，哪怕没有出声，也可以识别其部分说话内容，所以说声音和图像并不能被割裂，而是强相关。从康奈尔大学研究团队的实验结果来看，通过声音，人工智能确实可以生成与目标人类似的面孔，可以还原其部分特征，但和真实长相还有一定差距。俞凯表示，说话人的年龄、性别、面部骨骼等生理学特征确实与人的声音具有相关性，可以一定程度上还原说话人的面部特征，但想单独凭借声音这一种模态来完全重构人脸，目前是做不到的。近年来，随着人工智能领域对于声音的研究越来越多，其发展速度也不断加快。在人与人工智能的语音交互过程中，不单单包括语音合成和识别，还涉及对说话内容的理解。俞凯进一步解释，目前大多数人接触到的语音交互主要是你一句，我一句轮换着对话的模式，而我们现在正在研究的是即兴自然语音交互的新架构，即真人与人工智能可以自由对话。简单来说就是，对话期间任何一方都可以打断另一方；当人没有表达完自己想表达的意思时，人工智能会等人继续说完；而当人表达完意思后，人工智能可以立刻反馈。我们采用‘全双工’的交互架构，帮助人工智能在‘听见’声音的基础上，能够在语音交互过程中理解说话人的意思，而这些都是早期人工智能语音交互系统里所不具备的。

新华日报·交汇点记者谢诗涵

互联网小常识：交换机的配置方式主要有三种：通过控制（console）端口配置，通过telnet远程登录交换机，通过交换机发布Web服务配置。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186

Lily and 1 people like this Comments

人工智能mp4(人工智能mp3)

Mark wiens

人工智能电脑(人工智能专业笔记本电脑推荐)

相关信息

罗永浩直播带货被吐槽不是全网最低价本..

罗永浩回应收到限制消费令：已取消会尽快..

特斯拉面临的窘境：工厂开业遥遥无期，而裁掉外..

想用iPhone 9抢夺国内中低端市场？苹果的白日..

人工智能mp4(人工智能mp3)

Mark wiens

人工智能电脑(人工智能专业笔记本电脑推荐)

相关信息

罗永浩直播带货被吐槽不是全网最低价 本..

罗永浩回应收到限制消费令：已取消 会尽快..

罗永浩直播带货被吐槽不是全网最低价本..

罗永浩回应收到限制消费令：已取消会尽快..