人工智能怎么翻译(人工智能同声翻译耳机)
36氪近日获悉,AI智能翻译硬件研发商「时空壶」获得东方富海管理的国家中小企业发展基金数千万A轮独家融资。
使用不同语言的谈话人各自佩戴好一枚翻译耳机,随着自然流畅的谈话互动不断开展,耳机同步生成同声传译。这已非科幻元素,而是时空壶最新产品W3人工智能翻译耳机的真实使用情景。
时空壶于2016年设立,主要结合智能硬件及AI人工智能技术,开发AI翻译智能硬件产品。
市场上AI翻译智能设备品类众多,比如智能手机搭载的各项AI智能翻译App、AI语音巨头科大讯飞不断迭代优化的翻译机等。其中,AI翻译耳机是各厂家试图提供更好体验的普遍尝试。
互联网小常识:入侵检测技术可以分为异常检测、误用检测及两种方式的结合。
科大讯飞2017年便发布了AI翻译TWS耳机莫比斯,随后投资了同声翻译耳机制造商Sweetalk。百度的小度智能翻译TWS耳机、谷歌的Pixel Buds和Waverlylabs Ambassador也是市场上知名度较高的产品。
但是完全自然流畅的跨语言对话体验,目前时空壶的W3耳机是走在前沿的。时空壶创始人田力向36氪介绍道。
目前,市场上AI同声翻译耳机或可对谈话某方单向进行声音翻译播报、并通过智能设备向另一方进行翻译回复的文字显示;或可做到谈话双方同时佩戴耳机听取对方的翻译播报,但是只支持对话回合制,发言、翻译、再发言之间必须遵循严格的时间先后次序。
时空壶W3耳机在双人同声互译方面,突破了对话回合制的限制,这使得边说边听、打断争论、适时插入补充等自然对话中常见的人类互动都得以发生,对话体验高度流畅。
AI智能翻译耳机,需要同时具备硬件工业设计、语音降噪处理解决方案、通信传输方案及后端AI语音识别、翻译能力等复杂生产要素,是复杂性较高的消费电子产品。
时空壶主要切入由硬件+降噪+通信+引擎对接构成的前端交互体验解决方案;其后端AI语音识别及翻译等处理能力主要与外部来自于各个国家和地区第三方AI引擎合作,通过良好的引擎匹配对接,保证产品的翻译准确性由领域最前沿的AI基础设施所支撑。
时空壶W3耳机的流畅对话体验,主要基于语音降噪处理解决方案及通信传输方案上的技术能力。
W3耳机的矢量降噪技术,是双麦克风阵列降噪技术的较前沿方案。耳机双麦克风一般最基础的线性降噪方式,主要是基于耳机顶端及底部麦克风分别接受到的环境噪音相似、而接收到说话人声波信号强度差异大,进而取得环境噪音样本使得抵消环境噪音成为可能。
时空壶自研矢量降噪算法,通过声波到达麦克风阵列的阵元时间差可以估算音源角度,根据麦克风阵列收到声波信号的幅度差可估算声源距离,更精准锁定音源位置,并摒除范围以外的环境噪音。当中存在的复杂互相关性与空间混叠计算,使得相关算法的准确性存在不低的技术壁垒。精准消除对方声音,为多人语音识别提供了基础。
一人佩戴一枚耳机边说边听,意味着需要实现声音采录和声音播报独立工作。研发商需要在嵌入式端做深入的软件协议修改,从而使得耳机固件可实现多通路通信协议、让不同信号在多条独立通路上各自跑。此外,耳机麦克风采集说话者音源信号后,如何实现编码压缩后的高传输速度、解压解码后的低损耗,均需要研发商不断地进行技术改良。
仅仅依靠良好的降噪及通信传输方案,无法形成较好的AI引擎语音识别的初始素材。因此,时空壶同时在手机端部署神经网络算法,在智能摘录及断句方面对语音素材进行初步整合,提高AI引擎的识别率。
互联网小常识:划分子网的三级地址结构为:网络号+子网号+主机号。
后端的AI引擎对接匹配也存在较大量的研发工作。由于不同AI引擎的逻辑均存在差别,引擎对接需要研发商理解不同引擎的组件,分别对不同引擎进行开发调试,匹配完成后再接入软件端的流式翻译和双向翻译。此外,研发商还需根据用户的地理位置调配最佳的服务器,这个过程涉及位置判定和服务器的大量指令交互。
目前,时空壶W3耳机支持支持40语言、93种口音两两互译。
除了双人同传模式,时空壶W3耳机支撑最多6人的双语互译,但由于多人会议需要有主麦角色保证会议秩序及体验,且多人混合发言对多人语音降噪提出更高技术要求,因此目前暂仅支持对话回合制。后续随着边缘计算逐步解放本地算力,会议在线人数可大幅增多。
时空壶目前大约9成销售于海外实现,其中在美国亚马逊翻译耳机品类排名第一。除了常规的旅游及商务跨语言交流场景,随着销售规模不断扩大,时空壶开始得到更多用户反馈,并逐渐洞察出翻译耳机的多种细分场景。比如境内外籍人士聚居区域的政府基层单位在日常行政中的跨语言交流场景,以及境外专业人士为当地非英语移民的跨语言服务场景。
我们观察到了在美国一个比例较高的使用场景,是医生为非英语移民提供医疗服务。后续的市场开拓,我们会进行场景化的产品和市场投入,与不同行业的客户合作。时空壶也观察到很多家长通过同声互译耳机陪伴孩子进行沉浸式的英语对话学习。基于此,时空壶与英语教学App流利说开展了战略合作。
多样的用户场景,为研发商持续积累场景理解和各类数据、并开发出针对不同垂直场景用户的适配设备,提供了更多机会。
我们最终致力提供的是一种高流畅的、完全自然的跨语言交互体验。耳机只是现阶段的一种介质。时空壶创始人田力向36氪表示,这意味着整个硬件、软件组织体系都是可以为了终局体验不断迭代甚至重构的。
万世资本担任本次交易的财务顾问,本轮融资将用于市场开拓及研发团队扩张等方面,时空壶正在大力招募相关领域人才。
东方富海合伙人黄国强表示:东方富海围绕科技驱动逻辑进行投资,全球化背景下跨语言交流成为刚需,口译服务市场规模达百亿美元,传统翻译机依赖出境旅行等低频场景,而时空壶的产品可全面解决中高频深度交流需求,疫情影响下,传统翻译机厂商出货量骤减,而时空壶却逆势增长,受到全球用户好评,这是基于时空壶对底层技术创新带来的独特产品体验优势,未来面向B端还会有一系列新产品推出,满足更大的客户群体。时空壶未来极大可能成为翻译领域全球领先品牌,甚至成为跨越国界跨越语种无障碍沟通的基础设施,从而改变世界创造美好生活。
相关连接:
小度首款真无线蓝牙耳机测评
Waverlylabs Ambassador
Google Pixel Buds 测评
MRKU迈智酷翻译耳机
互联网小常识:通过控制端口配置需要一台提供超级终端软件的计算机和一根RJ-45到9针或25针异步串行接口的电缆。接口配置阐述为:传输速率9600,数据位8位,停止位1位
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186