图像
Mohammed Dogar
Mohammed Dogar
Vice President
已发布: 2022年5月30日

“不仅仅在于你说了什么, 更重要的是你怎么说”,这句古老的格言非常恰当地总结了人类相互有效沟通的精髓。人类通过语音相互交流,未来和机器的交流也将会如此。

随着物联网和人工智能的快速发展,语音通信被日益普及。被先进的语音分析技术加持的智能端点设备,能提高产品的用户体验,由此在新的生态系统中也催生出一批新公司。这些方案支持在线或者离线,能减少对网络连接始终在线的依赖,也能解决消费和工业应用中实时语音分析所面临的挑战。随着心理语言学数据分析的不断进步,语音数据建模可以对说话者的情绪、态度和意图做出推断。语音是人类交流中最自然的方式,那么基于语音识别和语音分析的技术也能进一步帮助产品识别使用者的意图。

VUIs应用中的挑战

语音用户界面(VUI)允许用户通过语音命令与系统进行交互。尽管VUI在广泛的应用中很受欢迎,但它也有其局限性。

  • 声音质量差 -持续的背景噪音导致声音质量不稳定,这给语音识别带来了挑战。物联网中应用中的语音控制器只有在声音清晰的情况下才能完美工作,这在嘈杂的环境下是不可能的。要能支持多种语言和不同的口音,并且能从背景噪音中抓取出有效的语音,这样的语音助手产品才能落地。
     
  • 功耗-语音命令系统需要保持至少一个麦克风以及识别唤醒词的处理器一直处于工作状态。
     
  • 实时处理:
    拥塞的网络会导致命令响应的延迟,从而影响用户体验。这可以通过分布式端点智能来解决,它具有实时处理语音命令而不依赖于云端系统的能力。
     
  • 精确度和抗扰度
    在设计VUI系统时,语音识别的准确性和对背景噪声的抗扰度始终是需要主要考虑的因素。因为可能有多个声源,包括室内外噪声和来自房间的回声等等。提取命令声源、消除回声和降低背景噪声需要复杂的技术,这些技术依赖于多个麦克风、波束成形、回声消除以及噪声抑制。

瑞萨电子通过使用最先进的微控制器,和来自合作伙伴的智能语音处理算法来应对这些挑战。用户可以由此更容易地在产品中集成高效的语音命令支持。瑞萨电子的通用MCU结合成本优化的VUI方案,能兼顾用户对系统的高性能和低功耗需求。

对语音识别算法强壮性的需求

为了更吸引用户,设备应该具有稳健的语音识别能力。

命令识别

支持语音交互的设备,最重要的就是能够从输入的音频信号中识别出语音命令。语音命令识别系统通常由唤醒词激活,然后对后续音频输入进行接收、解释、并转录为文本。该文本才是最终代表用户命令或意图的,设备据此再执行相应任务。

语音活动监测

语音活动监测(VAD)将人类语音从非语音和背景噪声中区分出来。由此可以改善系统整体功耗,这样系统无需一直保持在线,从而节省不必要的功耗。VAD算法可以分为四个阶段:

图像
语音活动监测(VAD)算法的四个阶段

基于瑞萨RA系列 MCU和来自合作伙伴的语音识别中间件的语音命令解决方案提供了强大的降噪技术,有助于确保VAD的准确性。此外,瑞萨还可以实现下述一些关键语音命令功能:

关键词识别

关键词识别系统(KWS)是具备语音功能设备的关键特性之一,它识别关键词和关键短语。这些关键词触发并启动端点设备上的识别功能后,设备就可以使用语音来响应接下来的查询。

图像
关键词定位神经网络管道
图:关键词定位神经网络管道。

为了提供更好的用户体验,KWS需要具备高度准确的实时响应。瑞萨推出了能够在先进的32位RA微控制器上运行的来自合作伙伴的高性能优化ML模型,包含预先训练好的DNN模型,有益于提高关键字识别时的准确度。

声纹识别

顾名思义,就是通过声音识别说话人的身份。声纹识别可以分为文本相关、文本无关和文本提示。为了训练用于声纹识别的DNN,需要获得个人诸如口音、发音、韵律(讲话的节奏)等特征参数。

图像
声纹识别系统图
图: 声纹识别系统图。

语音/声音 反欺诈

入侵者试图通过伪装成目标对象的声纹来获得对系统的非授权访问。可通过反欺诈软件来保证系统的安全。欺诈攻击通常针对自动声纹确认系统。他们使用语音合成、声音转换等技术或者仅仅通过重新播放记录的语音来生成欺骗性语音样本。这些攻击可以根据它们与ASV系统的交互方式分为直接攻击和间接攻击。

  • 直接攻击——通过麦克风传感器或传输环节进行攻击,也称为物理入侵。
  • 间接攻击——对ASV系统软件的特征提取、模型和决策过程等环节攻击,也称为逻辑攻击。
图像
自动声纹验证
图:自动声纹验证

多语言/口音识别和理解

英语国家的口音识别,由于有大量的训练数据,智能设备的识别过程还是很顺畅的。在非英语母语的国家使用这些智能设备时,由于可用于训练的数据有限,造成语音识别的准确度较低。因为训练数据不足,使得算法很难构建出高准确度的对话模型。

瑞萨的VUI合作伙伴方案支持超过44种语言,具有高度可适配性。基于它的智能语音识别设备能用于世界各地。

图像
RA boards

瑞萨电子向你展示了一个基于我们先进微控制器,简化语音集成的方案平台。我们基于RA MCU和合作伙伴提供的语音命令方案不仅能节省BOM成本、降低延迟、提高安全能力,还提供本地语音触发、命令识别、超强降噪、语音活动检测等多项增值服务模块,并支持多语言功能。除此之外,还有功能齐全的语音解决方案开发套件和基于DNN预训练模型的可运行在端点设备上的中间件。用户可以通过简单的文本输入快速创建语音命令。简而言之,它可以直接使用,也可以根据个人需求进行特性化定制!