AI CPUとAI MCU

Ryzen AI MAX+ 395搭載ミニPC(出典:GMKtecメール)
Ryzen AI MAX+ 395搭載ミニPC(出典:GMKtecメール)

321日投稿の最新ミニPC記載Ryzen AI 9 HX 370CPU/GPUを強化したRyzen AI Max+ 395搭載のミニPC発売予告をGMKtec社よりメール受信しました。今ならメールアドレス登録とアンケート回答で、$30割引クーポンゲットのチャンスがあります。

Ryzen AI CPU性能

AMD社のAI PC向けCPU製品名がAPUAccelerated Processing Unit)です。NPUGPUSoCで一体化したCPUのことです。弊社はこのAPUを解り易く「AI CPU」と表記します。現在Ryzen AI CPUは、AI 300AI Max2シリーズが発売中です。

321日投稿のAI CPUは、AI 300シリーズのRyzen AI 9 HX 370。発売予告は、より高性能なAI MaxシリーズのRyzen AI Max+ 395です。Ryzen AI CPU性能は、シリーズ名が異なっても最後の数字370395が性能を表すので判り易いです。

Ryzen AI Max+ 395の内蔵NPUは下表のようにRyzen AI 9 HX 370と同じ50TOPSですが、CPUと内蔵GPUを強化しています。このAI CPU搭載ミニPCが、最初の図のGMKtecEVO-X2です。NPU+GPU+CPUのトータルAI性能は、126TOPS70B LLMサポートのミニPCとしては世界初です。

Ryzen AI CPU Cores /
Threads
Boost2 / Base
Frequency
Cache Graphics Model TDP NPU
TOPS

Ryzen AI Max+ 395

16C/32T Up to 5.1 / 3.0 GHz 80MB Radeon 8060S 45-120W 50

Ryzen AI 9 HX 370

12C/24T Up to 5.1 / 2.0 GHz 24MB Radeon 890M 15-54W 50

Ryzen AI Max+ 395搭載EVO-X2

Ryzen AI MaxAI 3002シリーズでNPU性能が同じ理由は、AMD/Intel/Qualcomm 3社のAIアプリ共通実行環境が無いこと、ビジネスAIキラーアプリが無いことだと思います(NPU懸念投稿に詳細記載)。さらに、50TOPSNPUでエッジAI PCに十分かは、前回投稿AI PC NPU役割で示したように不明です。

これらから、トータル126TOPSを持つEVO-X2は、PCゲームよりエッジAIアプリ開発やAI画像処理向きを狙ったのかもしれません。前述アンケートにも用途欄がありました。

そこで、「70B LLMAI PCとは、具体的にどのようなPCですか」とGeminiに問い合わせたところ、Afterword添付の回答を得ました。要するに、ノートPCでは困難なローカルエッジAI単独処理も可能なハイエンドPCで、RAMは最低でも64GB必要という回答をGeminiから得ました。

また、70B LLM大規模モデル全体をNPUのみで処理するのは困難でCPUGPUの役割も必要なことが判る(少し古いと思いますが)良い回答です。AI PC購入検討の方は、参考になると思います。

70B LLM能力は、クラウドAIを使わずAI PC単独のエッジAI処理開発などに必要です。同様に単独でエッジAI処理を行う最新MCUを次に示します。

AI MCUSTM32N6AI処理

エッジAI処理は、MCUへも普及し始めています。2025年発売STマイクロ社の最新MCUSTM32N6Cortex-M55コア、0.6TOPS NPU内蔵、4.2MB RAM)は、従来MCUでは困難であったAI処理を、高性能MPUよりも低コスト、低消費電力で実現します。

STM32N6 Black図
STM32N6 Black図

STM32N6AI処理例は、カメラ付きSTM32N6570-DK Discovery kitを使ったAIデモ動画4:50)で判ります。リアルタイムの複数人体認識(0:30頃)や高速画像処理(0:50頃)など、STM32N6内蔵NPU/GPUCortex-M55 MCU双方の活用により全く新しいMCUアプリが期待できます。

デモ動画をよく見ると、NPU/GPU使用時と未使用時の処理差、MCU負荷差も判りとても興味深いです。

STM32N6は、MCU版のAPU、つまり「AI MCU」と言えます。汎用MCUベースのエッジAI MCUは、今後急増すると筆者は予想します。AI PCによりユーザがAIに慣れてくると、組込み機器もAI処理が当たり前になるからです。

※今後AI処理はユーザにAI有無を意識させないように進化すると筆者は考えています。

SummaryAI CPUAI MCU

AI CPURyzen AI Max+ 395搭載のトータルAI性能126TOPS70B LLMサポートのミニPCGMKtec EVO-X2は、415日午前0(太平洋夏時間)先行発売開始です。ローカルエッジAI単独処理可能なハイエンドPCで、AIアプリ開発やAI画像処理開発に好適です。

AI MCUSTM32N6AIデモ動画から、エッジAIアプリ開発やAI画像処理には、AI処理特化のNPUだけでなくGPUCPU/MCUも必要です。

Afterword70B LLMサポートAI PCGemini回答

70B LLM700億パラメータの大規模言語モデル)をサポートするAI PCは、ローカル環境で高度なAI処理、特に大規模言語モデルの推論や微調整を効率的に実行できるように設計された高性能なパーソナルコンピュータです。具体的には、以下の要素を備えていることが求められます。

主要なハードウェア要件:

  • 高性能GPU: 70B LLMの実行には、膨大な計算リソースとメモリ帯域幅が必要です。そのため、以下のようなハイエンドGPUが推奨されます。
    • NVIDIA GeForce RTX 3090RTX 4090: 24GB以上のVRAM(ビデオメモリ)を搭載し、高い並列処理能力を持つことが望ましいです。より大規模なモデルや高負荷な処理には、NVIDIA A100などのプロフェッショナル向けGPUがさらに適している場合があります。
    • AMD Radeon RX 7900 XTX: 高いVRAM容量と処理能力を持ち、NVIDIA GPUの代替となる可能性がありますが、LLMのエコシステムはNVIDIA CUDAへの最適化が進んでいることが多い点に注意が必要です。
  • 高性能CPU: LLMの実行にはGPUが主に使われますが、CPUもデータの前処理、後処理、およびシステム全体の制御において重要な役割を果たします。
    • Intel Core i7/i9 (最新世代): 高いクロック数と多くのコア数を備えたCPUが推奨されます。
    • AMD Ryzen 7/9 (最新世代): 同様に、高性能なRyzenプロセッサも適しています。
  • 大容量メモリ(RAM: LLMのモデル全体または一部をメモリにロードして高速に処理するために、十分なRAMが必要です。
    • 64GB以上: 70B LLMを効率的に扱うためには、最低でも64GB、理想的には128GB以上のRAMが推奨されます。
  • 高速ストレージ(SSD): LLMのモデルファイル(数十GBから数百GBになることがあります)や関連データを高速に読み書きするために、NVMe SSDが必須です。
    • 1TB以上: モデルファイル、データセット、作業用ファイルなどを保存するために、十分な容量のSSDが必要です。2TB以上あるとより安心です。

AI PCとしての特徴:

上記のような高性能なハードウェアに加えて、70B LLMをサポートするAI PCは、以下の特徴を持つことが期待されます。

  • AI処理に特化したハードウェア: 近年のAI PCは、CPUGPUに加えて、NPUNeural Processing Unit)と呼ばれるAI処理に特化したプロセッサを搭載している場合があります。NPUは、特定のAIタスク(例えば、自然言語処理の一部)をCPUGPUよりも低消費電力かつ効率的に実行できますが、70B LLMのような大規模モデル全体をNPUだけで処理することは現状では難しいです。ただし、将来的にNPUの性能が向上すれば、より大きな役割を果たす可能性があります。
  • 最適化されたソフトウェア: AI PCのハードウェアとソフトウェアが連携し、LLMの実行効率を高めるための最適化が行われている場合があります。これには、ドライバの最適化、特定のAIフレームワークとの互換性向上などが含まれます。
  • 高度な冷却システム: 高性能なCPUGPUは発熱量が大きいため、安定した動作を維持するために、強力な冷却システム(高性能な空冷ファンや液体冷却システム)が搭載されていることが重要です。
  • 将来性と拡張性: 今後さらに大規模なモデルが登場する可能性や、追加のハードウェア(GPUなど)を増設する可能性を考慮して、ある程度の拡張性があると望ましいです。

補足:

  • 70B LLMをローカルで快適に動作させるためには、上記のハイスペックな構成が必要となり、一般的なノートPCでは難しい場合があります。多くの場合、ハイエンドなデスクトップPCが推奨されます。
  • LLMの実行には、モデルの量子化(パラメータの精度を低くしてメモリ使用量や計算量を削減する技術)や、複数のGPUを連携させる技術(Multi-GPU)が用いられることもあります。
  • AI PCの定義は進化しており、Microsoftなどが提唱するCopilot+ PCのような新しい基準も登場しています。これらの基準には、一定のAI処理性能を持つNPUの搭載などが含まれていますが、現時点では70B LLMの実行に特化した要件とは限りません。

まとめると、70B LLMをサポートするAI PCは、非常に高性能なGPU24GB以上のVRAM)、高性能CPU、大容量メモリ(64GB以上)、高速SSD1TB以上)、そして高度な冷却システムを備えた、主にハイエンドなデスクトップPCを指します。将来的には、より強力なNPUを搭載したPCが登場することで、より効率的なLLMのローカル実行が可能になるかもしれません。


Windows 12 AIとNPU

Windows 12は、40TOPS以上のNPUが推薦要件になりそうです。TPM 2.0が、Win11アップグレード要件だったのと同様です。

クラウド電力不足解消のエッジAI半導体が、今年のPC CPUと組込みMCUのトレンドになりそうです。

40 TOPS以上NPUとは?

40TOPS以上のNPUは、かなり高性能PCやゲーミングPCを指す
40TOPS以上のNPUは、かなり高性能PCやゲーミングPCを指す

TOPS(Tera Operations Per Second)とは、1秒間に処理できるAI半導体の演算数です。

NPU(Neural Processing Unit)は、GPU(Graphic Processing Unit)処理の内、AI処理に特化した処理装置のことで、1TOPSなら1秒間に1兆回のAI演算が可能です。※GPU/NPUの違いは関連投稿参照。

例えば、GeForce RTX 3060クラスのGPUは約100TOPS、NPU内蔵最新Intel CPUは34TOPS、Apple M3は18TOPSの性能を持つと言われます。

つまり、40TOPS以上のNPU要件は、現状比、かなりの高性能PCやゲーミングPCを指します。

Windows 12のAI

現状のNPU処理は、Web会議の背景ぼかし、複数言語の同時翻訳、通話ノイズの除去など、主にローカルPCのリモート会議AI演算に使われます。COVID-19流行中のユーザ要望はこれらでした。

しかし、Microsoftが急速普及中のAIアシスタントCopilotは、PCユーザのAI活用を容易にし、AI関連処理はローカルNPUからクラウドデータセンターの利用へと変わりました。

AI活用がこのまま普及すると、世界のクラウド側電力不足は、避けられなくなります。このクラウド側対策が、電力効率100倍光電融合デバイスのNTT)光電融合技術です(関連投稿:IOWN)。

現状のままでは2030年に世界総電力10パーセント程度をデータセンターが占める(出典:NTT STORY)
現状のままでは2030年に世界総電力10パーセント程度をデータセンターが占める(出典:NTT STORY)

クラウドAI処理ではレスポンスも悪くなります。MicrosoftとIntelは、クラウド電力不足やタイムラグ対策に、ローカル(エッジ)AI PC、つまりNPU処理能力向上が、クラウドとエッジのAI処理分散になり重要と考えている、と筆者は思います。

組込みMCUのAI

AI活用や電力効率向上は、組込みMCUへも浸透しつつあります。

エッジAI MCUアプリケーションは、ポンプ異常検出、故障検出、顔認識、人物検出など広範囲に渡ります。

STマイクロは、次世代STM32MCU向けに18nm FD-SOIと相変化メモリを組み合わせた新プロセス技術を発表しました。これにより、従来比、電力効率50%以上、メモリ実装密度2.5倍、AI機能集積度3倍に向上します。量産は、2025年後半見込みです。

18nm FD-SOIと相変化メモリ技術を組み合わせた次世代STM32MCUプロセス(出典:STマイクロ)
18nm FD-SOIと相変化メモリ技術を組み合わせた次世代STM32MCUプロセス(出典:STマイクロ)

ルネサスは、組込み向け次世代AIアクセラレータを開発し、従来比、最大10倍の電力効率で高速AI処理を可能にしました。これにより、様々なエッジAI MCUアプリケーションに柔軟対応が可能です。

DRP-AIによる枝刈りAIモデルの高速化(出典:ルネサス)
DRP-AIによる枝刈りAIモデルの高速化(出典:ルネサス)

スマートフォンのAI

PCやMCUの一歩先を行くエッジAI活用が、現状のスマートフォン向けプロセサです。

顔認証や音声認識、スマホ写真の加工や暗い場所の撮影補正など、全てスマホ単独で、しかも高速AI処理を行っています。これらスマホの低電力高速AI処理に、NPU内蔵スマホプロセサが貢献しています。

PCは、スマホにない大画面を活かしたAI活用、MCUは、スマホ同様の低電力高速AI活用を目指しAI半導体を準備中なのが今年2024年と言えます。

Summary:AI半導体がPC/MCUトレンド

半導体は、供給に年単位の準備期間が必要です。最先端AI半導体であればなおさらです。

急速なAI活用や普及は、クラウド電力不足やユーザ要望変化をもたらし、解消にはハードウェアのエッジAI半導体が不可欠です。

PC/MCU業界は、どちらもAI半導体の安定供給に向け足並みを揃え準備中です。Microsoftが、ソフトウェアWindows 12提供を遅らせ、代わりにWin11 24H2としたのも足並み合わせのためと思います

足並みが揃った後のWindows 12推薦要件は、40 TOPS以上の高性能NPUになるかもしれません。
組込みMCUは、エッジAI活用と電力効率向上の新AI半導体製造プロセスに期待が高まっています。

PC、MCUどちらもAI半導体が2024年トレンドです。

Afterword:AI PC秘書/家庭教師

AI PC秘書と家庭教師イメージ
AI PC秘書と家庭教師イメージ

エッジAI PCのNPU性能が上がれば、秘書や家庭教師としてPCを活用できます。助けが必要な処理や不明な事柄は、AI PC秘書/家庭教師から得られるからです。2010年宇宙の旅のHAL 9000のイメージです。

AI PCがHAL 9000に近づけば、NPUがユーザ個人情報を学習し、ユーザ志向、能力レベル、癖などに基づいたAI回答を提供するでしょう。ブラウザが、ユーザ志向に沿った広告を表示するのと同じです。

個人情報は、セキュリティの点からクラウドよりも本来エッジPCが持つべきです。AI PCを秘書/家庭教師として活用する時は、個人情報を学習/保持する高性能NPUは必然だと思います。

TPMと似た性質をNPUも持つと言えます。40 TOPS以上のNPU必要性は、どの程度高度/高速なAI PC秘書/家庭教師を希望するかに依存します。個人的にはHAL 900は欲しいかな?

2024-04-06 追記:40 TOPS M.2生成AIアクセラレーションモジュール

HAILOからM.2フォームファクタへ追加できるWindows向け40 TOPS AIアクセラレータモジュールが発表されました。


Cortex-M85搭載RA8シリーズ説明

前投稿MCUとMPUの違いで紹介したルネサスRAファミリ最新MCUのRA8シリーズを説明します。
RA8は、従来Cortex-M7クラスの高性能MPUが必要なAI処理を、低コスト・低消費電力なAI MCUで実現します。

Cortex-M85コア

Cortex-M85特性比較(出典:ARM)
Cortex-M85特性比較(出典:ARM)

ARM Cortex-M系コアの比較表がコチラにあります。本ブログ関連を抽出したのが上表で、右側へ行くほど新しいコアになります。

Cortex-M85が、MPUのCortex-M7を超えるコア性能を持つことが判ります。

RA8シリーズ

RA8シリーズMCUポートフォリオとパーツ番号
RA8シリーズMCUポートフォリオとパーツ番号

Cortex-M85コア搭載のルネサスRAファミリMCUが、RA8シリーズです。今日現在、RA8シリーズは、RA8D1RA8M1RA8T1の3種類が発売中で、それぞれに評価ボードも提供中です。

RA8シリーズMCUポートフォリオとパーツ番号を示します。RA8xyのxが想定アプリケーション、yが改版数を示します。アプリケーションには、顔検出やモータ故障検出などのAI機能も含まれます。

AI顔検出が解りやすいので、以下、ディスプレイアプリケーションのRA8D1 MCU評価ボードを使ってAI MCU実例を示します。

評価ボード:EK-RA8D1

EK-RA8D1
EK-RA8D1

RA8D1(Cortex-M85/480MHz、ROM/2MB、RAM/1MB)評価ボードEK-RA8D1です。4.3インチカラー液晶と3MピクセルCMOSカメラも付属しています。RA8 Series Evaluation Kits Demo Overviewで解説動画を見ることができます。

クイックスタートガイドユーザーズマニュアルがダウンロードできます。

サンプルコード:EK-RA8D1 Example Project Bundle

EK-RA8D1のサンプルコードは、EK-RA8D1 Example Project Bundle(要ログイン)です。この中の_quickstartプロジェクトが、評価ボード実装済みサンプルコードです。

評価ボードと液晶、カメラ装着後、初めて電源投入すると_quickstart が動作します。この_quickstartサンプルコードが、Summaryで示すAI顔認証やオブジェクト検出を行います。

_quickstartのソースコード一覧です。FreeRTOSで開発されています。従って、ソースコードの移植性は高いと思います(関連投稿:FSP利用FreeRTOSアプリの作り方)。

_quickstart_ek_ra8d1_epのソースコード一覧
_quickstart_ek_ra8d1_epのソースコード一覧

Summary:Cortex-M85搭載RA8シリーズ説明

高性能MPUのAI処理を、低コスト・低消費電力MCUで実行するDSPやAI/ML性能強化Cortex-M85コアを説明し、同コア搭載RA8シリーズ最新MCUのRA8D1(Cortex-M85/480MHz、ROM/2MB、RAM/1MB)評価ボードEK-RA8D1と付属_quickstartサンプルコードを説明しました。

AI MCUアプリケーション例として、評価ボードへ液晶パネルとカメラを接続すれば、AIによるカメラ内顔検出、オブジェクト検出ができます。

AI MCUのカメラ内の顔検出とオブジェクト検出(出典:クイックスタートガイド )
AI MCUのカメラ内の顔検出とオブジェクト検出(出典:クイックスタートガイド )

Afterword:AI MCUアプリケーション開発方法

MCU開発能力に加え、幅広いAI知識もAI MCUアプリケーション開発に必要です。

AI MCUアプリケーションを開発する時は、本稿評価ボードとサンプルコードによる顔検出やオブジェクト検出AIサンプルコードをベースに、目的とする顧客AIアプリへ修正・変更を加えながらAIを習得することも効率的・効果的な方法だと思います。


AI MCU

AI機能搭載の最新MCUを一覧表にまとめました。人物検出や機器異常検出などのAIアルゴリズム処理には、従来Cortex-M7クラスの高性能MPU(Micro Processor Unit)が必要でした。MPU比、低コストで低消費電力なAI MCUによるエッジAIメリットを示します。

Summary:AI MCUまとめ

AI機能搭載の最新MCU一覧
ベンダ AI MCU、コア AI特徴、AIアプリケーション AI開発ツール
STマイクロ STM32シリーズ
Cortex-M0+他コア対応
コア対応機械学習ライブラリ生成
ポンプ異常検出
NanoEdge AI Studio(専用)
NXP MCX Nシリーズ
Cortex-M33 x2(+NPU)
AI専用NPU処理
顔検出
MCUXpresso IDE(汎用)
ルネサス RAファミリ
Cortex-M85(+Helium)
汎用ベクタ演算Helium処理
人物検知/モータ故障検出
Reality AI(専用)

マイコンでAI」、STマイクロNXPルネサスが競演、2023年5月12日、MONOist記事をまとめたのが上表です。

記事によると、MCU大手3ベンダが、第7回AI・人工知能EXPO(春)2023年5月10~12日、東京ビックサイト会場で、表掲載AI MCUを使って、エッジAI実働デモ展示を行っています。

ChatGPTなどAI利用が一般化し始めました。組込み分野のMCUへもAI搭載の高機能化が始まります。

AI MCUアプローチ

STマイクロは、ソフトウェアでのAI処理、NXPは、専用ハードウェアNPU(Neural Processing Unit)でのAI処理、ルネサスは、汎用ベクタ演算ハードウェアHeliumによるAI処理と、3社3様のAI MCUアプローチです。

また、AI処理開発に、ソフトウェアアプローチのSTマイクロは、STM32コアに応じた専用機械学習ライブラリ生成ツール:NanoEdge AI Studioを使用、同じハードウェアアプローチですが、NXPは、汎用MCUXpresso IDEを使用、ルネサスは、専用Reality AIツール使用、などAI開発ツールも異なります。

NanoEdge AI Studioは、MCU開発者にAI専門知識が無くてもMCUコア性能に合わせたAI実装ができるそうです。

エッジAI MCUアプリケーションとメリット

Cortex-M85搭載RAファミリによるAI人物検出デモ(出展:ルネサス)
Cortex-M85搭載RAファミリによるAI人物検出デモ(出展:ルネサス)

各社のAI実働デモから、上図のような人物・顔検出と機器異常検出が、エッジAI MCUのターゲットアプリケーションのようです(関連投稿:RAファミリ最新情報)。

これらAI処理にMPUは使わず、小パッケージ、低コストの本稿AI MCUを使い、家電や機器内の既存MCUを置換えることで「装置構成はそのままに様々なAI機能を追加実装できる」これが、AI MCUのメリット、更に革命と言われる理由です。

Afterword:新たなMCU開発方法

実装AI機能により、求められるAI MCUコア性能もCortex-M0+からCortex-M85など様々です。それでも、MPUやGPU(Graphics Processing Unit)利用よりは、低コストエッジAIが実現できそうです。

従来MCUの置換えメリットだけでなく、AI MCUを使った新しい装置開発も面白いと思います。

各社AI MCUは、セキュリティ対応も強化されています。AI、IoTセキュリティ、RTOS…などなど、従来のCortex-M系ベアメタルMCU開発に加え、多くの新知識と追加開発がAI MCUに必要です。正直、食傷気味です😣。

従って、専門知識が無くてもAI実装できるツールなどは、大歓迎です。新しいMCUには、各種ツール活用の新しい開発方法を、拘りなく使える柔軟性も必要です(関連投稿:新しいMCUハードソフトの学び方)。

ツールを使っているうちに、専門知識や関連知識は、自ずと身についてくるハズです。