メインコンテンツに移動

エッジAIで高性能と低消費電力をどのように両立するか?

画像
Kavita Char
Kavita Char
Principal Product Marketing Manager
Published: July 1, 2025

なぜエッジAIなのか?

AI市場において、大きなパラダイムシフトが起きています。 これまでは、AIの処理は主にクラウド上で行われていました。 エンドポイントデバイスは、センサーからデータを収集してクラウドに送信し、推論処理と意思決定を行い、その結果をエンドポイントデバイスに返すという仕組みが一般的でした。 しかしこの方法では、大量のデータをクラウドに送信するために膨大な帯域幅が必要となります。 IDCによると、2025年にはIoTデバイスからクラウドへ送信されるデータ量は79.4ZB(ゼタバイト)に達すると予測されています。

現在では、エッジデバイス上でAI推論を実行する動きが加速しています。 これにより、リアルタイムでの高速な応答が可能となり、データをクラウドに送信する必要がないため、プライバシーやセキュリティの面でも安心です。 また、クラウドとの接続に伴う遅延やコストを回避できるだけでなく、消費電力も抑えられるため、バッテリー駆動のIoT機器にも適しています。 このように、エッジでのAI処理は、自律性の向上、低遅延、低消費電力、クラウドへのデータ送信量を抑えることで通信コストを削減し、さらにセキュリティの向上といった数々のメリットを実現し、新しいアプリケーションや次世代のユースケースにとって魅力的な選択肢となっています。

画像
Moving from Inference in the Cloud to Inference at the Edge
図1: クラウドでの推論からエッジでの推論へ

エッジAIへのマイコンの活用がますます進んでいます。 MCUはMPUと比較して、リアルタイム応答性が高く、消費電力が低く、コストも抑えられます。また、製品設計を簡素化し、開発費とBOMコストを削減する一体型ソリューションにより、製品開発が効率化されます。さらに、高性能なMCUには、 ニューラルネットワーク処理に必要なドット積や高速かつ並列な行列の積、畳み込み、転置などの線形代数演算をハードウェアで加速できる機能が統合されています。リソースが限られたMCU向けに最適化された、小規模なニューラル・ネットワーク・モデル、ソフトウェア・ライブラリ、エコシステム・ソリューションも提供されています。

電力効率の高いAIアプリを実現するRA8P1とは?

RA8P1 MCU は、ルネサス初のAIアクセラレータを搭載したシングルおよびデュアルコアMCUです。高性能な Arm® Cortex®-M85(CM85)およびCortex-M33(CM33)CPUコアに、Arm Ethos™-U55ニューラルネットワークプロセッサ(NPU)を搭載し、AI/機械学習(ML)、DSP、スカラー演算性能が飛躍的に向上するとともに、低消費電力を実現しています。これらの特長により、エッジAIやIoTアプリケーションに最適です。 高度なTSMC 22nmULLプロセス上で製造されたRA8P1 MCUは、CoreMarkベンチマークで7300以上の圧倒的な性能を誇り、256 GOPSのAI性能を提供します。また、エッジAI用途における低消費電力のニーズにも応えます。

大容量メモリと豊富な周辺機能を備えたこれらのデバイスは、音声認識、画像認識AI、リアルタイム解析などの高度なアプリケーションをデバイス単体でで実現します。 デュアルコアのRA8P1 MCUは、高い処理能力に加え、2つのコア間で効率的なタスク分割を実現し、リアルタイム性能をさらに向上させます。 また、高度なセキュリティ機能として、イミュータブルメモリ、TrustZoneを内蔵しており、安全なエッジAIアプリケーションの実現をサポートします。

RA8P1に内蔵されている Ethos-U55 NPUは、ニューラルネットワークモデルの中核処理である行列の積や畳み込みなどの演算を、CPUコアよりも効率的かつ低消費電力で実行するために最適化された専用プロセッサです。 Ethos-U55は、AIモデルで使用される低精度の演算(INT8)に最適化されており、推論精度を損なうことなく、計算の複雑さやメモリ使用量、消費電力を削減します。

ルネサスは、Ethos-U55を搭載したRA8P1 MCUを用いて、複数のAI/機械学習のユースケースにおける推論処理を行い、CPUコア単体と比較して大幅に性能が向上することを実際に確認しています

画像
Significant Uplift in AI Performance with Ethos-U55 NPU as Compared to CPU Core
図2: CPUコア単体と比較したEthos-U55 NPUによるAI性能の大幅な向上

使用したモデル:

  • 画像分類 – ResNet8、MobileNet v2、MobileNet v3
  • キーワードスポッティング – DS-CNN
  • ビジュアルウェイクワード – MobileNet v1
  • 物体検出 – Yolo_fastest、Yolov8N
  • 異常検知 – ad_medium

アプリ開発を加速するRUHMIフレームワークとは?

RA8P1 のAIソリューションは、柔軟にカスタマイズ可能かつ最適化された RUHMIフレームワークを用意しており、AI開発に必要なすべてのツールを、迅速に提供し、開発を効率化します。 RUHMIは、ルネサス初のMCUおよびMPU向けの幅広い機能を備えたフレームワークであり、e2studioに統合されています。特定の機械学習フレームワーク(例:TensorFlowやPyTorchなど)に依存することなく最適化されたニューラルネットワークモデルを生成および展開します。 RUHMIは、モデルの最適化、量子化、グラフのコンパイル、およびMCUが扱いやすい形式への変換を可能にします。また、TensorFlow Lite、PyTorch、ONNXといった一般的な機械学習フレームワークをサポートし、すぐに使用できるアプリケーション例やRA8P1用に最適化されたモデルも用意しています。

画像
RUHMIフレームワークを用いたAIワークフロー
図3: RUHMIフレームワークを用いたAIワークフロー

RUHMIフレームワークを使用した一般的なAIワークフロー

  • モデルの最適化とコンパイル (オフライン): TensorFlow Lite、PyTorch、ONNXなどの一般的なフレームワークで事前学習されたAIモデルを入力します。RUHMIの最適化および変換ツールを使用して、まずモデルをInt8の中間フォーマットに量子化し、最適化を行います。 このプロセスでは、グラフの分割(グラフパーティショニング)を行い、NPUとCPUで処理する演算を振り分けた上で、MCUに適した形式(通常は .c/.h)にコンパイルします。
  • データ入力と前処理: カメラからの画像やマイクからの音声などの生データは、RA8P1 MCUによって取得され、高性能なCortex-M85コアでAIモデルへの入力に適した形に前処理されます。
  • NPU での実行: 前処理された入力データと、コンパイル済みAIモデルの命令列が、CPUコアからEthos-U55 NPUへ送られ、処理が実行されます。 NPU は命令列を読み取り、入力データとモデルの重み (通常はローカルメモリに格納される) を使用して、ニューラル ネットワークの各レイヤーを順に処理します。
  • 出力と後処理: NPUがすべてのレイヤーの処理を完了すると、推論結果がメインCPUに返されます。CPUはその結果に基づいて、必要な後処理とアクションを実行します。

RA8P1が実現するAIアプリケーションとは?

RA8P1 MCUは、高い推論性能、低消費電力、リアルタイム処理能力を備えており、幅広いAIアプリケーションに最適です。主なアプリケーションは次のとおりです。

  • 音声AI – キーワードスポッティング、音声認識、会話認識、ノイズ除去、話者識別
  • Vision AI – 物体検出、画像分類、ジェスチャ認識、顔認識、画像分析、ドライバー/車両監視
  • リアルタイム分析 – 異常検知、振動解析、予知保全
  • マルチモーダルアプリケーション – 音声と画像処理機能を備えたスマートHMI、音声と映像でイベント検知を行う高機能監視カメラ、視覚と聴覚入力で周囲を認識・対話するロボティクス

次のセクションでは、RA8P1がAIの実装をどのように簡素化できるのか、2つのアプリケーション例を通じてご紹介します。

アプリケーション例1: RA8P1での画像分類

画像
画像分類システムのブロック図
図4: 画像分類システムのブロック図

上の図は、画像分類アプリケーションの実装例を示しています。 RA8P1は、VisionAIアプリケーションの構築に必要なCPUコア、NPU、メモリ、周辺機能をすべて1つのチップに統合しています。 このアプリケーションでは入力画像を分析し、あらかじめ定義されたラベル(カテゴリ)を割り当てます。 ニューラルネットワークモデルは、膨大な画像データセット(各画像にカテゴリラベルが付与されたもの)で学習され、RA8P1 MCU上に実装されます。 推論時には、新しい入力画像がモデルに入力され、学習済みネットワークの各層を通過します。 その後、出力層では、すべてのカテゴリに対する確率分布が得られ、確率が最も高いカテゴリが画像のラベルとして割り当てられます。 この出力データ(画像ラベルとその信頼度)は、ディスプレイに表示することも、クラウドに送信することもできます。 本実装においては、Ethos-U55を使用することで、CPUコアのみを使用した場合と比較して、推論速度が33倍向上していることが確認されています。

画像
Image Classification on RA8P1 and Performance Comparison, NPU vs. CPU
図5: RA8P1での画像分類、NPU vs. CPUの性能差

画像分類は、さまざまなアプリケーションで活用することができます。 

  • セキュリティ分野 : 武器の特定、人物認識、異常検知
  • 小売業分野: カテゴリ別製品カタログの作成、在庫管理
  • 農業分野: 作物の病害識別、植物の分類
  • スマートシティ: 信号機や標識、歩行者の識別
  • スマート家電: 冷蔵庫内の物体認識

アプリケーション例2: RA8P1のドライバーモニタリングシステム

このアプリケーションは、Nota-AI ドライバーモニタリングシステム (DMS)を紹介しています。 DMSは車室内の安全性を高めることで、あらゆる面から道路の安全性を向上させる車室内安全ソリューションです。

RA8P1を用いることで、Nota-Ai DMSは以下のような運転中のリスク行動を検知できます:

  • 登録されていないドライバーの検知
  • 居眠り運転の検知
  • スマートフォンの使用
  • 喫煙などの注意散漫行動

RA8P1の高い処理性能により、このアプリケーションで使用されている4つのモデル(顔検出、顔のランドマーク検出、目のランドマーク検出、スマートフォン検出)において、推論性能が4倍から最大24倍向上しています

DMSは、ドライブレコーダーや車載データ記録装置、ドライバーモニタリングシステムに応用されています。

画像
Driver Monitoring System on RA8P1 and Performance Comparison, NPU vs. CPU
図6: RA8P1のドライバー監視システム、NPU vs. CPUの性能差

これらのVision AIアプリケーションはどちらも、RA8P1 MCUの各種リソースを効率的に活用しています。

  • イメージセンサーによる効率的な画像入力
    • RA8P1 は、専用のMIPI CSI-2インターフェース(画像スケーリングユニット付き)や16ビットCEUパラレルカメラインターフェースを搭載しており、生の画像入力データを高速に取得できます。
  • Ethos-U55 NPUによる高性能なAI推論
    • RA8P1 MCUに搭載されたEthos-U55 AIアクセラレータは、CPUコアの負荷を軽減し、複雑なAIモデルをより効率的かつ低消費電力で処理します。
    • MIPI CSI-2 または CEU から取得された前処理済みの画像データを受け取り、事前学習済みモデル(例:MobileNetv1など) を使用して高速推論を実行します。
    • このモデルは、RUHMIツールでRA8P1に最適化され、NPU上に展開されます。
    • Ethos-U55 NPUは、最大256 GOPSの性能を発揮し、高速かつ省電力な推論処理を実現します。
  • Arm Cortex-M85およびCortex-M33によるアプリケーション処理
    • Arm Helium ベクトル拡張を備えた高性能1GHz CM85コア は、入力画像または音声データの前処理ならびに後処理、および推論結果の処理に利用されます。
    • また、Ethos-U55 が対応していない演算子は、CMSIS-NN ライブラリによってCM85 コアが補完的に実行します。 また、アプリケーションコードの実行も担当します。
    • 250MHz Cortex-M33コア は、低電力モードでの起動やシステム管理を担当します。
  • オンチップメモリとメモリインターフェースによる効率的な画像・モデルデータの保存
    • オンチップの 大容量 1MB MRAM と 2MB の SRAM は、AI モデルの重み、画像、および中間アクティベーションの保存に不可欠です。
    • 組み込みMRAMは、フラッシュメモリに比べて高速な書き込み、高い耐久性とデータ保持性を備えています。
    • 大規模モデル向けには、XIP対応のOSPI(オンザフライでの復号機能付き)や32ビットSDRAMなどの高スループットの外部メモリインターフェイスもサポートしています。
  • LCDパネル用の高度なグラフィックス周辺機器
    • GLCDC(パラレルRGBまたはMIPI DSIインターフェース対応)と2Dエンジンを使用して、画像と推論結果をLCDディスプレイに処理およびレンダリングできます
  • さまざまな通信インターフェイス
    • 推論結果、画像データ、アラートや通知などをローカルデバイスやクラウドへ送信するための多様な通信インターフェースが用意されています。

エッジAIアプリケーションは、AIアクセラレータを搭載したMCUの活用によって大きな恩恵を受けています。 これらの製品は、リアルタイム性能、低消費電力、セキュリティが重要な課題となるアプリケーションに最適です。 低消費電力MCUにNPUが搭載されたことは、AIソリューションの世界における大きな変革となりました。 新しいRA8P1 MCUは、レイテンシを大幅に削減し、データのプライバシーを確保しつつ、消費電力を最小限に抑えることで、バッテリー駆動のアプリケーションに理想的な選択肢となっています。さらに、ルネサスのRUHMIフレームワークが開発を支援し、開発者がRA8P1ハードウェア上でAIモデルを効率よく最適化・展開できるようサポートします。

詳しくは、www.renesas.com/ra8p1をご覧ください。