音声認識ソリューション

ノイズ環境下でも高い認識率を実現する音声認識ソリューション

音声認識は、既にロボット、スマートスピーカなどの多くの製品に搭載され、ヒューマン・インタフェースとして使用されています。

これら音声認識は、民生機器や産業機器においてコストをできるだけ抑えながら、より便利な機能を搭載したいというニーズから生まれたものです。

また、視覚障害者や高齢者も容易に操作が可能となるため、重要な付加機能の1つとして注目されています。

ルネサスでは、インターネット接続が不要な音声認識ソリューションを準備しており、従来製品との差別化や高機能化を実現できます。

システム概要

A/D端子もしくはSSI(Serial Sound Interface)端子と専用ミドルウェアで実現

システム概要図

 

「ノイズ低減技術」でノイズ環境下での高い認識率を実現

 (例) 主なノイズ低減技術

  • ビームフォーミング
    目的方向以外からのノイズを低減
  • ノイズサプレッサ
    定常的なノイズを低減
  • エコーキャンセラ
    スピーカ出力音のマイクへの回り込みを除去
関連ミドルウェア

音声認識/AmiVoice Micro

AmiVoice Microの特徴

従来製品にくらべ、低クロック、省メモリ環境での音声認識をインターネット接続なしで実現

 

2種類の音響モデルを用意
  • 通常版
  • 高認識版
  ※ 高認識版は、通常版と比較してROM使用量、計算量が多くなりますが認識精度が向上します。

 

VAD(Voice activity detection、セグメンター)をサポート
音声から人の声のみの区間を検出するモジュールが含まれており、利用シーンやタスクに応じて検出感度調整が可能(閾値1000~15000)。

必要なメモリサイズ

  • 通常版
    ROM: 33[KB]~, RAM: 23[KB]~
  • 高認識版
    ROM: 482[KB]~, RAM: 23 [KB]~

 

認識単語数に対する必要なROM/RAM

単語数 通常版 高認識版
ROM [KB] RAM [KB] ROM [KB] RAM [KB]
5 33 23 482 23
10 54 25 681 25
20 78 28 995 28
30 96 30 1,226 30
40 109 33 1,444 33
50 117 33 1,587 33
100 143 46 2,143 46
150 160 55 2,452 55

  ※ 本データは参考値です (言語や認識ワードの内容により増減します)


対応言語

  • 通常版
    日本語、英語、中国語(標準語)
  • 高認識版
    日本語

ノイズ低減技術/ズームボイス

ズームボイスの特徴

2種類のノイズ低減技術をサポート

1. ビームフォーミング
  • 前方からの音を強調し、周囲のノイズを抑えることが可能
  • 無指向性マイク2個で実現
  • 強さを「1:弱 - 7:強」で設定可能
2. ノイズサプレッサ
  • ノイズ低減量は最大30dB(約1/30)
  • ノイズ低減量は周波数帯域別に設定可能

 

DSP命令に対応した高速処理版を準備

DSP命令対応版の処理速度は、通常版と比較して30%向上

対応MCU:RXファミリ RXv2 CPU 搭載製品 (RX64M, RX71M, RX231, RX230, RX65N, RX651, RX23T, RX24T, RX24Uグループ)


必要なメモリサイズ

ROM: 40[KB], RAM: 10[KB]

(使用例) ビームフォーミング+ノイズサプレッサ

 

ビームフォーミング+ノイズサプレッサ

ズームボイスを使用することによりノイズ環境下でも高い認識率を実現できます。

特にS/N比=5[dB]以下で非常に高い効果が期待できます。

 

ノイズ環境下でズームボイスを使用した際の認識率(音声認識は、AmiVoice Microを使用)

ズームボイス

※1. ノイズ源は、掃除機、洗濯機の音を使用

※2. ルネサス調べ

ソリューション

高機能HMIソリューション

インターネット接続無しで、ノイズ低減、音声認識、音声合成、タッチパネルを「RZ/A1H」1chipで実現します。

 

特徴

ノイズ低減技術を使用した音声認識機能を搭載

ビームフォーミング、ノイズサプレッサを実装し認識率を向上。

チューニング可能な音声認識機能を搭載

ノイズ低減および音声認識は、使用環境に合わせて性能パラメータをタッチパネルで簡単に変更可能。

音声合成機能、液晶表示で結果をフィードバック

認識結果は、音声合成機能(聴覚)と液晶表示機能(視覚)でフィードバック可能。

概要

高機能HMIソリューション

RZ/A1Hの詳細はこちら

 

使用ミドルウェア

機能 パートナー ミドルウェア 備考
ノイズ低減 株式会社 テクノマセマティカル  ズームボイス -
音声認識 株式会社 アドバンスト・メディア  AmiVoice Micro 高認識版、通常版
音声合成 株式会社 日立超LSIシステムズ  Ruby Talk® -

低消費電力 音声認識ソリューション

「RX231」の低消費電力技術とDSP演算の組み合わせで高機能な音声認識機能を実現します。

 

特徴

ノイズ低減技術を使用した音声認識機能を搭載

ビームフォーミング、ノイズサプレッサ機能を実装し認識率を向上。使用環境に合わせた調整も可能。

赤外線通信を搭載

認識結果に合わせて赤外線通信の対応機器を制御。

すぐに音声認識機能の評価・開発が可能

評価・開発に必要なハードウェアを搭載した基板とサンプルソフトウェアを準備。

概要

低消費電力 音声認識ソリューション

RX231の詳細はこちら

 

使用ミドルウェア

機能 パートナー ミドルウェア 備考
ノイズ低減 株式会社 テクノマセマティカル  ズームボイス DSP命令対応版
音声認識 株式会社 アドバンスト・メディア  AmiVoice Micro 通常版

ソリューション比較

  高機能HMIソリューション 低消費電力 音声認識ソリューション
MPU/MCU RZ/A1H (RAM:10[MB], f: 400[MHz] ) RX231 (ROM:512[KB], RAM:64[KB], f: 54[MHz] )
OS mbed  (RTOS) 未使用
搭載機能 - 音声認識/ AmiVoice Micro (高認識版、通常版)
- ノイズ低減/ ズームボイス
- 音声合成/ Ruby Talk®
- タッチスクリーン
- 音声認識/AmiVoice Micro (通常版)
- ノイズ低減/ ズームボイス(DSP命令対応版)
- 赤外線通信出力
対応言語 下記の3言語
・日本語 (高認識版)
・中国語 (通常版)
・英語 (通常版)
下記のいずれか1言語
・日本語 (通常版)
・中国語 (通常版)
・英語 (通常版)
概要 - RZ/A1H 1chipでノイズ低減、音声認識、音声合成、タッチパネルを実現。
- タッチスクリーンで音声認識、ノイズ低減のパラメータ設定が可能
- インターネット接続不要
- 音声認識の結果を赤外線通信出力(赤外線リモコン)
- 小型ボードにMEMSマイクを実装済み
- スイッチで音声認識、ノイズ低減のパラメータ設定が可能
- インターネット接続不要

パートナー

株式会社アドバンスト・メディア

音声認識ソフトウェア製品の開発および販売

株式会社アドバンスト・メディア

CONTACT:https://www.advanced-media.co.jp/contact/total/

TEL:03-5958-1031(代表電話)


株式会社テクノマセマティカル

画像・音声/音響処理を行うソフト/ハードウェア製品の開発および販売

株式会社テクノマセマティカル

Mail:info-sales@tmath.co.jp

TEL: 03-3492-3633

お問合せ