音声認識ソリューション

ノイズ環境下でも高い認識率を実現する音声認識ソリューション

音声認識は、既にロボット、スマートスピーカなどの多くの製品に搭載され、ヒューマン・インタフェースとして使用されています。

これら音声認識は、民生機器や産業機器においてコストをできるだけ抑えながら、より便利な機能を搭載したいというニーズから生まれたものです。

また、視覚障害者や高齢者も容易に操作が可能となるため、重要な付加機能の1つとして注目されています。

ルネサスでは、インターネット接続が不要な音声認識(エッジ音声認識)ソリューションを準備しており、従来製品との差別化や高機能化を実現できます。

ルネサス音声認識ソリューション

ルネサス音声認識ソリューションをご紹介します。

音声認識ソリューション トビラデモ

音声で操作可能なトビラデモをご紹介します。

システム概要

A/D端子もしくはI2S(Inter-IC Sound)端子と専用ミドルウェアで実現

システム概要図

 

「ノイズ低減技術」でノイズ環境下での高い認識率を実現

 (例) 主なノイズ低減技術

  • ビームフォーミング
    目的方向以外からのノイズを低減
  • ノイズサプレッサ
    定常的なノイズを低減
  • エコーキャンセラ
    スピーカ出力音のマイクへの回り込みを除去
ソリューション

音声認識ソリューション

ノイズ低減技術を使用したエッジ音声認識ソリューション

■ 特長

  • MEMSマイクを実装した小型音声認識ソリューション
  • 認識結果に応じてRGB LEDを点灯および赤外線通信(*)出力し赤外線対応機器を制御
  • 評価ツールで音声波形を確認しながら音声認識のパラメータを簡単に変更可能

 * RX231音声認識ソリューションのみ対応

  RX231音声認識ソリューション RX651音声認識ソリューション RA6M1音声認識ソリューション
 

RX231音声認識ソリューション

RX651音声認識ソリューション

RA6M1音声認識ソリューション

ハードウェア 搭載MCU RX231 (R5F52318ADFL)
ROM/RAM:512KB/64KB
パッケージ:48 ピンLQFP
RX651 (R5F5651EDDFM)
ROM/RAM:2MB/640KB
パッケージ: 64 ピンLFQFP
RA6M1 (R7FA6M1AD3CFM)
ROM/RAM:512KB/256KB
パッケージ: 64 ピンLQFP 
マイク デジタルMEMSマイク x2個 アナログMEMSマイク x2個 アナログMEMSマイク x2個
その他機能 赤外線通信、RGB LED、USB(Full Speed)、プッシュスイッチ RGB LED、USB(Full Speed)、プッシュスイッチ RGB LED、USB(Full Speed)、プッシュスイッチ
サイズ 60mm x 40mm 60mm x 40mm 60mm x 40mm
ソフトウェア OS 未使用 未使用 未使用
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
- - 東芝デジタルソリューションズ/RECAIUS™ ボイストリガー
テクノマセマティカル /ズームボイス

 

■ リファレンスデザイン

  ハードウェア ソフトウェア
(ソースコード&アプリケーションノート)
音声認識評価ツール
RX231音声認識ソリューション RX231グループ 音声認識デモボード
R12AN0096JJ0101
弊社営業にお問合せください 弊社営業にお問合せください
RX651音声認識ソリューション RX651グループ 音声認識デモボード
R12AN0104JJ0101
弊社営業にお問合せください 弊社営業にお問合せください
RA6M1音声認識ソリューション RA6M1グループ 音声認識デモボード
R12AN0103JJ0101
弊社営業にお問合せください 弊社営業にお問合せください

RA6M3 HMIソリューション

エッジ音声認識、音声再生、タッチパネル、環境センシングを「RA6M3」1chipで実現するソリュ―ション

■ 特長

  • RA6M3 1chipで音声認識、音声再生、TFT液晶制御、環境センサ制御を実現
  • 認識結果に応じてTFT液晶を変更および音声出力
  • 評価ツールで音声波形を確認しながらM/Wのパラメータを簡単に変更

RA6M3 HMIソリューション

  RA6M3 HMIソリューション
 

RA6M3 HMIソリューション

ハードウェア EK-RA6M3G

EK-RA6M3G

・搭載MCU:RA6M3 (R7FA6M3AH3CFC)
 - ROM/RAM:2MB/640KB
 - パッケージ:176 ピンLQFP

・USB (デバッグ、Full Speed、High Speed)

・グラフィック拡張ボード
 - 4.3インチTFTカラー液晶パネル(静電容量式タッチパネル付)
 - 解像度480x272
 - バックライトコントローラ

HMI Expansion Board

EK-RA6M3G

・アナログMEMSマイク x2個

・外部拡張マイク用回路(MEMS 型(アナログ出力)、または、エレクトレットコンデンサ型)

・スピーカー駆動回路およびスピーカ

・温湿度センサ(RENESAS/HS3001)

・ガスセンサ(RENESAS/ZMOD4410)

・Arduino Uno Connection

ソフトウェア OS Amazon Free RTOS
ミドルウェア アドバンスト・メディア/AmiVoice Micro
テクノマセマティカル /ズームボイス
CRI・ミドルウェア/かるイイ音
東芝デジタルソリューションズ/ボイストリガー
テクノマセマティカル /ズームボイス
CRI・ミドルウェア/かるイイ音
※ 音声再生ファイルは、東芝デジタルソリューションズ/RECAIUS 音声合成ミドルウェア ToSpeak™で作成

 

■ リファレンスデザイン

  ハードウェア ソフトウェア
(ソースコード&アプリケーションノート)
音声認識評価ツール
RA6M3 HMIソリューション RA6M3 グループ RA6M3 HMI 拡張ボード
R12AN0106JJ0100
弊社営業にお問合せください 弊社営業にお問合せください

高機能HMIソリューション

インターネット接続無しで、音声認識、音声合成、タッチパネルを「RZ/A1H」1chipで実現。

 

特長

  • ノイズ低減技術を使用した音声認識ソリューション
  • RZ/A1H 1chipで音声認識、音声合成/再生、TFT液晶制御を実現
  • 音声合成機能、液晶表示で結果をフィードバック

高機能HMIソリューション

RZ/A1Hの詳細はこちら

機能 パートナー ミドルウェア
ノイズ低減 株式会社 テクノマセマティカル  ズームボイス
音声認識 株式会社 アドバンスト・メディア  AmiVoice Micro
音声合成 株式会社日立ソリューションズ・テクノロジー  Ruby Talk®
評価ツール

■ 特長

PCに評価ボードと接続することで以下の機能を実現可能

  • 視覚的に音入力を波形で確認
  • 音声認識/ノイズ低減 M/Wのパラメータを変更
  • 認識したIDを表示
  • ノイズ処理前/処理後の音データを保存し再生することが可能

RA6M3 HMIソリューション

音声認識ソリューション評価ツール

ユーザの開発期間を短縮できる音声認識評価ツールをご紹介します。

関連ミドルウェア

音声認識ミドルウェア:
アドバンスト・メディア/AmiVoice Micro

特長

従来製品にくらべ、低クロック、省メモリ環境での音声認識をインターネット接続なしで実現

 

2種類の音響モデルを用意
  • 通常版
  • 高認識版
  ※ 高認識版は、通常版と比較してROM使用量、計算量が多くなりますが認識精度が向上します。

 

VAD(Voice activity detection、セグメンター)をサポート
音声から人の声のみの区間を検出するモジュールが含まれており、利用シーンやタスクに応じて検出感度調整が可能。

対応MCU

RXファミリ RXv2 CPU 搭載製品 (RX231, RX230, RX65N, RX651, RX64Mグループ, etc.)
RXファミリ RXv3 CPU 搭載製品 (RX72M, RX72Nグループ, etc.)
ARM Cortex-M4 (RA6M1, RA6M2, RA6M3グループ, etc.)
ARM Cortex-A9 (RZ/A1H, A1Lグループ, etc.)

必要なメモリサイズ

  • 通常版
    ROM: 33[KB]~, RAM: 23[KB]~
  • 高認識版
    ROM: 482[KB]~, RAM: 23 [KB]~

 

認識単語数に対する必要なROM/RAM

語彙数 通常版 高認識版
ROM [KB] RAM [KB] ROM [KB] RAM [KB]
5 33 23 482 23
10 54 25 681 25
20 78 28 995 28
30 96 30 1,226 30
40 109 33 1,444 33
50 117 33 1,587 33
100 143 46 2,143 46
150 160 55 2,452 55

  ※ 本データは参考値です (言語や認識ワードの内容により増減します)

対応言語

  • 通常版
    日本語、英語、中国語(標準語)、タイ語
  • 高認識版
    日本語

音声認識ミドルウェア:
東芝デジタルソリューションズ/RECAIUS™ ボイストリガー

特長

エッジ単独での音声操作を実現
音声収録なく検出する語彙(キーワード)を変更することができるので、比較的容易に独自の起動・操作コマンドを実装可能

対応MCU

ARM Cortex-M4  (RA6M1, RA6M2, RA6M3グループ, etc.)
ARM Cortex-A9 and later 

必要なメモリサイズ

語彙数 ROM [KB] RAM [KB]
5 145 45
10 160 50
20 190 65
※ 上表の数値は参考値です。言語や語彙によって数値は変化します。

対応言語

日本語、英語(アメリカ英語)、中国語(標準語)
製品化予定(評価利用可能): カナダフランス語、アメリカスペイン語、イギリス英語、フランス語、ドイツ語、スペイン語、イタリア語

ノイズ低減ミドルウェア:
テクノマセマティカル/ズームボイス

特長

2種類のノイズ低減技術をサポート

1. ビームフォーミング
  • 前方からの音を強調し、周囲のノイズを抑えることが可能
  • 無指向性マイク2個で実現
  • 強さを「1:弱 - 7:強」で設定可能
2. ノイズサプレッサ
  • ノイズ低減量は最大30dB(約1/30)
  • ノイズ低減量は周波数帯域別に設定可能

 

DSP命令に対応した高速処理版を準備

DSP命令対応版の処理速度は、通常版と比較して30%向上

 

対応MCU

DSP命令対応版:
  RXファミリ RXv2 CPU 搭載製品 (RX231, RX230, RX65N, RX651, RX64Mグループ, etc.)
  RXファミリ RXv3 CPU 搭載製品  (RX72M, RX72Nグループ, etc.)

通常版:
  ARM Cortex-M4 (RA6M1, RA6M2, RA6M3グループ, etc.)
  ARM Cortex-A9 (RZ/A1H, A1Lグループ, etc.)

必要なメモリサイズ

ROM: 40[KB], RAM: 10[KB]

(使用例) ビームフォーミング+ノイズサプレッサ

 

ビームフォーミング+ノイズサプレッサ

ズームボイスを使用することによりノイズ環境下でも高い認識率を実現できます。

特にS/N比=5[dB]以下で非常に高い効果が期待できます。

 

ノイズ環境下でズームボイスを使用した際の認識率(音声認識は、AmiVoice Microを使用)

ズームボイス

※1. ノイズ源は、掃除機、洗濯機の音を使用

※2. ルネサス調べ

パートナー

株式会社アドバンスト・メディア

音声認識ソフトウェア製品の開発および販売

株式会社アドバンスト・メディア

CONTACT:https://www.advanced-media.co.jp/contact/total/

TEL:03-5958-1031(代表電話)


 

東芝デジタルソリューションズ株式会社

システムインテグレーション及びIoT/AIを活用したICTソリューションの開発・製造・販売

東芝デジタルソリューションズ株式会社

CONTACT:https://www.toshiba-sol.co.jp/pro/recaius/contact.html

Email: tdsl-recaius-mw-sales-r1@ml.toshiba.co.jp


株式会社テクノマセマティカル

画像・音声/音響処理を行うソフト/ハードウェア製品の開発および販売

株式会社テクノマセマティカル

Mail:info-sales@tmath.co.jp

TEL: 03-3492-3633

お問合せ