top of page

CPUのみのシステムにおけるMeta Llama 4 Scoutのベンチマーク:パフォーマンス、量子化、アーキテクチャのチューニング

  • 執筆者の写真: Rajeev Gadgil
    Rajeev Gadgil
  • 4月13日
  • 読了時間: 5分

更新日:4 日前

2025 年 4 月にリリースされた Meta の Llama 4 Scout は、170 億のパラメータを持つ汎用言語モデルであり、GPU なしで実行されるものも含め、より幅広いアプリケーションに強力な推論機能をもたらします。

このブログでは、CPU のみのシステムでの Llama 4 Scout のベンチマークに焦点を当て、次の内容を取り上げます。

  1. 1秒あたりのトークン数

  2. トークンあたりのレイテンシ

  3. 迅速な処理効率

  4. 量子化技術

  5. x86、ARM、RISC-V (RV64) 向けのアーキテクチャ固有の最適化

  6. 効率的な展開のためにGGUF形式に変換する


CPU をベンチマークする理由は何ですか?

ほとんどの LLM は GPU 上に展開されますが、次のような場合にはCPU のみの推論が必要になることがよくあります。

  • エッジデバイス

  • GPU アクセスのないクラウド VM

  • オープンハードウェアエコシステム(例:RISC-V)

  • コスト重視の導入

これにより、特に量子化されたバリアントでは、Llama 4 Scout が強力な候補になります。


主要なベンチマーク指標


トークン/秒

全体的なスループットは長い完了に重要です

レイテンシ/トークン

1トークンを生成するのにかかる時間。チャットに重要

プロンプトのサイズ感度

入力が長くなると推論速度が低下する仕組み

メモリ使用量

RAMフットプリントはモデルが実行できるかどうかを決定します


量子化が不可欠な理由

量子化により、大規模モデルのメモリと計算要件が削減されます。Llama 4 Scoutはint4またはint8に量子化され、8~16GBのRAMを搭載したCPUで快適に実行できます。

利点: Llama 4 Scoutへの影響
メモリ節約: 34GB → ~5~7GB (int4)
高速化: float16 より最大 3 倍高速
ハードウェアの適合性: ARMおよびRV64 CPUで推論をホスト可能

ggml、Llama.cpp、MLC などのツールは、CPU バックエンドを含む量子化された Llama 4 モデルをサポートします。


アーキテクチャ固有のパフォーマンスに関する考慮事項

🔹 x86-64 (Intel、AMD)

ベクターサポート: AVX2 または AVX-512 推奨
スレッディング: 成熟した OpenMP と NUMA サポート

パフォーマンス: 高; Llamaモデルで最適化されている


ARM (グラビトン、アップルシリコン、ネオバース)

ベクター ISA: すべてのチップで NEON (128 ビット)、新しいチップでは SVE/SVE2
スレッディング: コアの異種性によりチューニングが必要
量子化: NEONはint8とint4を効率的に処理します

ヒント: 最適なパフォーマンスを得るために、taskset と numactl を使用してスレッドを固定します。


RISC-V (RVV 付き RV64)

ベクターISA: RISC-Vベクター拡張(RVV)、可変幅
量子化: 必須。float32 モデルは RV64 エッジデバイスでは実用的ではない。
ツール: llama.cpp のサポートは実験的ですが、成長しています

RV64 では、帯域幅が限られているため、メモリレイアウトとキャッシュフレンドリーな量子化が重要になります。


推論結果の例(仮説)


建築

モデルバリアント

プロンプトサイズ

トークン/秒

RAM使用量

x86_64

Llama 4 スカウト int4

512

11.2

約6.5GB

ARM ネオバース

Llama 4 スカウト int4

512

8.7

約6.5GB

RISC-V RV64

Llama 4 スカウト int4

512

3.2

約6.5GB


これらの結果は、llama.cpp または同様のものを使用して量子化された重みを使用したマルチスレッド CPU 推論を想定しています。


RAW モデルから GGUF へ: 理由と方法

CPU のみのシステムで Meta Llama 4 Scout を効率的に実行するには、特に llama.cpp などのツールを使用する場合、モデルは GGUF 形式である必要があります。


GGUF に変換する理由

GGUF (Grokking GGML 統合フォーマット) は、以下を使用して CPU およびエッジ推論用に設計された、コンパクトでメモリが最適化されたモデル ファイル形式です。

llama.cpp
mlc-llm
テキスト生成webui

GGUFの利点:メリット

メモリ効率: 量子化された重みとメタデータをパックします

高速な読み込み時間: 構成の再トークン化や解析は不要

保存されるメタデータ:トークナイザー、語彙、モデルタイプが含まれます

使いやすさの向上: 1 つのファイルを複数のツールで使用可能



Llama 4 ScoutをGGUFに変換する方法

  1. 生のモデル(HF形式)をダウンロード

Hugging Face から元のモデルを取得します (例: meta-llama/Meta-Llama-4-Scout-17B)。
トランスフォーマーとllama-cpp-pythonツールをインストールする
pip でトランスフォーマーをインストール huggingface_hub git でクローンhttps://github.com/ggerganov/llama.cppcd llama.cppmake

  1. GGUF変換スクリプトを実行する

llama.cpp/scripts ディレクトリから:


python convert.py \ --outfile llama4-scout.gguf \--model meta-llama/Meta-Llama-4-Scout-17B \ --dtype q4_0

3. 推論ツールに読み込む

変換したら、.gguf ファイルを直接実行できます:./main -m llama4-scout.gguf -p "Hello, world"

GGUF + 量子化 = CPU のスーパーパワー

GGUF に変換すると、変換中に量子化が可能になります。

q4_0、q4_K、q5_1、q8_0 をサポート

サイズは劇的に削減されます。約34GBから、第4四半期では約5~7GBになります。
AVX、SVE、RVVなどのCPU SIMD命令との互換性を確保します。

メモリが制限されている RISC-V または ARM ボードでは、GGUF + int4 が Llama 4 Scout を実行する唯一の方法になることがよくあります。


プロのヒント: GGUF 変換オプション

変換設定を微調整できます。

--vocab-type でトークナイザー構造をカスタマイズする
--trust-remote-code(Hugging Faceリポジトリがカスタムロードを使用している場合)
--quantize q4_K を使用すると int4 の精度が向上します

最後に

Meta の Llama 4 Scout は、2025 年の CPU 推論用オープンソース LLM の中で最も実用的なものの 1 つです。量子化と SIMD 対応のデプロイメントにより、次のことが可能になります。

エッジアプリケーション(IoT、電話)
ソブリンコンピューティングプラットフォーム(RISC-V)

GPUを使用しないクラウドネイティブ環境

CPU アーキテクチャ上のオープン LLM の限界を押し広げることに興味がある場合、Llama 4 Scout は最適な出発点の 1 つです。




コメント


bottom of page