Benchmarking von Meta Llama 4 Scout auf reinen CPU-Systemen: Leistung, Quantisierung und Architekturoptimierung

Rajeev Gadgil
vor 4 Tagen
3 Min. Lesezeit

Meta's Llama 4 Scout, das im April 2025 veröffentlicht wurde, ist ein universelles Sprachmodell mit 17 Milliarden Parametern, das leistungsstarke Schlussfolgerungen für ein breiteres Anwendungsspektrum ermöglicht – einschließlich solcher, die ohne GPUs laufen.

Dieser Blogbeitrag konzentriert sich auf Benchmarking von Llama 4 Scout auf reinen CPU-Systemen und behandelt folgende Themen:

Token pro Sekunde
Latenz pro Token
Schnelle und effiziente Bearbeitung
Quantisierungstechniken
Architekturspezifische Optimierung für x86, ARM und RISC-V (RV64)
Konvertierung in das GGUF-Format für eine effiziente Bereitstellung

Warum Benchmarking auf der CPU?

Während die meisten LLMs auf GPUs eingesetzt werden, ist die Inferenz ausschließlich auf der CPU oft notwendig für:

Edge-Geräte
Cloud-VMs ohne GPU-Zugriff
Offene Hardware-Ökosysteme (z. B. RISC-V)
Kostenbewusste Implementierungen

Das macht Llama 4 Scout zu einem aussichtsreichen Kandidaten, insbesondere mit quantisierten Varianten.

Wichtige Benchmark-Kennzahlen

Tokens/Sek.	Gesamtdurchsatz, entscheidend für lange Abschlüsse
Latenz/Token	Zeit, ein Token zu generieren; wichtig für Chats
Empfindlichkeit gegenüber der Größe der Eingabeaufforderung	Wie sich die Inferenzgeschwindigkeit bei längeren Eingaben verschlechtert
Speichernutzung	Der RAM-Bedarf entscheidet darüber, ob das Modell überhaupt ausgeführt werden kann.

Warum Quantisierung unerlässlich ist

Die Quantisierung reduziert den Speicher- und Rechenaufwand großer Modelle. Llama 4 Scout, quantisiert auf int4 oder int8, läuft problemlos auf CPUs mit 8–16 GB RAM.

Nutzen: Auswirkungen auf Llama 4 Scout

Speichereinsparung: Von 34 GB → ~5–7 GB (int4)

Beschleunigung: Bis zu 3-mal schneller als float16

Hardwarekompatibilität: Ermöglicht ARM- und RV64-CPUs die Ausführung von Inferenzprozessen.

Tools wie ggml, llama.cpp und MLC unterstützen quantisierte Llama 4-Modelle, einschließlich CPU-Backends.

Architekturspezifische Leistungsüberlegungen

🔹 x86-64 (Intel, AMD)

Vektorunterstützung: AVX2 oder AVX-512 bevorzugt.

Threading: Ausgereifte OpenMP- und NUMA-Unterstützung

Leistung: Hoch; gut optimiert für Lama-Modelle

ARM (Graviton, Apple Silicon, Neoverse)

Vektor-ISA: NEON (128 Bit) auf allen, SVE/SVE2 auf neueren Chips

Threading: Erfordert aufgrund von Kernheterogenität eine Feinabstimmung.

Quantisierung: NEON verarbeitet int8 und int4 effizient.

Tipp: Verwenden Sie taskset und numactl, um Threads für eine optimale Leistung zu fixieren.

RISC-V (RV64 mit RVV)

Vektor-ISA: RISC-V Vector Extension (RVV), variable Breite

Quantisierung: Unerlässlich; float32-Modelle sind auf RV64-Edge-Geräten unpraktisch.

Werkzeuge: Die Unterstützung für llama.cpp ist experimentell, aber im Aufbau.

Bei RV64 sind Speicherlayout und cachefreundliche Quantisierung aufgrund der begrenzten Bandbreite von entscheidender Bedeutung.

Beispielhafte Schlussfolgerungsergebnisse (hypothetisch)

Architektur	Modellvariante	Promptgröße	Tokens/Sek.	RAM-Nutzung
x86_64	Lama 4 Scout int4	512	11.2	~6,5 GB
ARM Neoverse	Lama 4 Scout int4	512	8,7	~6,5 GB
RISC-V RV64	Lama 4 Scout int4	512	3.2	~6,5 GB

Diese Ergebnisse setzen Multithread-CPU-Inferenz mit quantisierten Gewichten unter Verwendung von llama.cpp oder ähnlichem voraus.

Vom Rohmodell zu GGUF: Warum und wie?

Um Meta Llama 4 Scout effizient auf reinen CPU-Systemen auszuführen, insbesondere mit Tools wie llama.cpp, muss das Modell im GGUF-Format vorliegen.

Warum zu GGUF wechseln?

GGUF (Grokking GGML Unified Format) ist ein kompaktes, speicheroptimiertes Modelldateiformat, das für die CPU- und Edge-Inferenz entwickelt wurde und Folgendes verwendet:

llama.cpp

mlc-llm

text-generation-webui

GGUF-Vorteil: Nutzen

Speichereffizient: Speichert quantisierte Gewichte und Metadaten.

Schnelle Ladezeiten: Keine Notwendigkeit, Konfigurationen erneut zu tokenisieren oder zu parsen

Metadaten erhalten: Tokenizer, Vokabular, Modelltyp enthalten

Vereinfachte Nutzung: Eine einzige Datei, die mit vielen Tools verwendet werden kann.

Wie man Llama 4 Scout in GGUF umwandelt

Laden Sie das Rohmodell (HF-Format) herunter

Besorgen Sie sich das Originalmodell von Hugging Face (z. B. meta-llama/Meta-Llama-4-Scout-17B).

Installieren Sie die Transformer und die llama-cpp-python-Tools.

pip install transformers huggingface_hub git clone https://github.com/ggerganov/llama.cppcd llama.cppmake

Führen Sie das GGUF-Konvertierungsskript aus.

Aus dem Verzeichnis llama.cpp/scripts:

python convert.py \ --outfile llama4-scout.gguf \--model meta-llama/Meta-Llama-4-Scout-17B \ --dtype q4_0

3. Laden Sie es in Ihr Inferenztool.

Nach der Konvertierung kann die .gguf-Datei direkt ausgeführt werden: ./main -m llama4-scout.gguf -p "Hello, world"

GGUF + Quantisierung = CPU-Superkräfte

Die Konvertierung in GGUF ermöglicht die Quantisierung während der Konvertierung:

q4_0, q4_K, q5_1 und q8_0 werden unterstützt

Sie reduzieren die Größe drastisch – von ~34 GB → ~5–7 GB für q4

Es gewährleistet Kompatibilität mit CPU-SIMD-Befehlen wie AVX, SVE oder RVV.

Auf RISC-V- oder ARM-Boards mit begrenztem Speicher ist GGUF + int4 oft die einzige Möglichkeit, Llama 4 Scout überhaupt zum Laufen zu bringen.

Profi-Tipp: GGUF-Umrechnungsoptionen

Sie können die Konvertierungseinstellungen feinabstimmen:

--vocab-type zur Anpassung der Tokenizer-Struktur

--trust-remote-code, falls das Hugging Face-Repository benutzerdefiniertes Laden verwendet.

--quantisieren Sie q4_K für eine bessere int4-Genauigkeit

Schlussbetrachtung

Metas Llama 4 Scout ist einer der praktischsten Open-Source-LLMs für CPU-Inferenz im Jahr 2025. Mit Quantisierung und SIMD-fähigem Einsatz kann er folgende Aufgaben erfüllen:

Edge-Anwendungen (IoT, Telefone)

Souveräne Rechenplattformen (RISC-V)

Cloud-native Umgebungen ohne GPUs

Wenn Sie daran interessiert sind, die Grenzen offener LLMs auf CPU-Architekturen auszuloten, ist Llama 4 Scout einer der besten Ausgangspunkte.