top of page

Benchmarking von Meta Llama 4 Scout auf reinen CPU-Systemen: Leistung, Quantisierung und Architekturoptimierung

  • Autorenbild: Rajeev Gadgil
    Rajeev Gadgil
  • vor 4 Tagen
  • 3 Min. Lesezeit

Meta's Llama 4 Scout, das im April 2025 veröffentlicht wurde, ist ein universelles Sprachmodell mit 17 Milliarden Parametern, das leistungsstarke Schlussfolgerungen für ein breiteres Anwendungsspektrum ermöglicht – einschließlich solcher, die ohne GPUs laufen.

Dieser Blogbeitrag konzentriert sich auf Benchmarking von Llama 4 Scout auf reinen CPU-Systemen und behandelt folgende Themen:

  1. Token pro Sekunde

  2. Latenz pro Token

  3. Schnelle und effiziente Bearbeitung

  4. Quantisierungstechniken

  5. Architekturspezifische Optimierung für x86, ARM und RISC-V (RV64)

  6. Konvertierung in das GGUF-Format für eine effiziente Bereitstellung


Warum Benchmarking auf der CPU?

Während die meisten LLMs auf GPUs eingesetzt werden, ist die Inferenz ausschließlich auf der CPU oft notwendig für:

  • Edge-Geräte

  • Cloud-VMs ohne GPU-Zugriff

  • Offene Hardware-Ökosysteme (z. B. RISC-V)

  • Kostenbewusste Implementierungen

Das macht Llama 4 Scout zu einem aussichtsreichen Kandidaten, insbesondere mit quantisierten Varianten.


Wichtige Benchmark-Kennzahlen


Tokens/Sek.

Gesamtdurchsatz, entscheidend für lange Abschlüsse

Latenz/Token

Zeit, ein Token zu generieren; wichtig für Chats

Empfindlichkeit gegenüber der Größe der Eingabeaufforderung

Wie sich die Inferenzgeschwindigkeit bei längeren Eingaben verschlechtert

Speichernutzung

Der RAM-Bedarf entscheidet darüber, ob das Modell überhaupt ausgeführt werden kann.


Warum Quantisierung unerlässlich ist

Die Quantisierung reduziert den Speicher- und Rechenaufwand großer Modelle. Llama 4 Scout, quantisiert auf int4 oder int8, läuft problemlos auf CPUs mit 8–16 GB RAM.

Nutzen: Auswirkungen auf Llama 4 Scout
Speichereinsparung: Von 34 GB → ~5–7 GB (int4)
Beschleunigung: Bis zu 3-mal schneller als float16
Hardwarekompatibilität: Ermöglicht ARM- und RV64-CPUs die Ausführung von Inferenzprozessen.

Tools wie ggml, llama.cpp und MLC unterstützen quantisierte Llama 4-Modelle, einschließlich CPU-Backends.


Architekturspezifische Leistungsüberlegungen

🔹 x86-64 (Intel, AMD)

Vektorunterstützung: AVX2 oder AVX-512 bevorzugt.
Threading: Ausgereifte OpenMP- und NUMA-Unterstützung
Leistung: Hoch; gut optimiert für Lama-Modelle


ARM (Graviton, Apple Silicon, Neoverse)

Vektor-ISA: NEON (128 Bit) auf allen, SVE/SVE2 auf neueren Chips
Threading: Erfordert aufgrund von Kernheterogenität eine Feinabstimmung.
Quantisierung: NEON verarbeitet int8 und int4 effizient.

Tipp: Verwenden Sie taskset und numactl, um Threads für eine optimale Leistung zu fixieren.


RISC-V (RV64 mit RVV)

Vektor-ISA: RISC-V Vector Extension (RVV), variable Breite
Quantisierung: Unerlässlich; float32-Modelle sind auf RV64-Edge-Geräten unpraktisch.
Werkzeuge: Die Unterstützung für llama.cpp ist experimentell, aber im Aufbau.

Bei RV64 sind Speicherlayout und cachefreundliche Quantisierung aufgrund der begrenzten Bandbreite von entscheidender Bedeutung.


Beispielhafte Schlussfolgerungsergebnisse (hypothetisch)


Architektur

Modellvariante

Promptgröße

Tokens/Sek.

RAM-Nutzung

x86_64

Lama 4 Scout int4

512

11.2

~6,5 GB

ARM Neoverse

Lama 4 Scout int4

512

8,7

~6,5 GB

RISC-V RV64

Lama 4 Scout int4

512

3.2

~6,5 GB


Diese Ergebnisse setzen Multithread-CPU-Inferenz mit quantisierten Gewichten unter Verwendung von llama.cpp oder ähnlichem voraus.


Vom Rohmodell zu GGUF: Warum und wie?

Um Meta Llama 4 Scout effizient auf reinen CPU-Systemen auszuführen, insbesondere mit Tools wie llama.cpp, muss das Modell im GGUF-Format vorliegen.


Warum zu GGUF wechseln?

GGUF (Grokking GGML Unified Format) ist ein kompaktes, speicheroptimiertes Modelldateiformat, das für die CPU- und Edge-Inferenz entwickelt wurde und Folgendes verwendet:

llama.cpp
mlc-llm
text-generation-webui

GGUF-Vorteil: Nutzen

Speichereffizient: Speichert quantisierte Gewichte und Metadaten.

Schnelle Ladezeiten: Keine Notwendigkeit, Konfigurationen erneut zu tokenisieren oder zu parsen

Metadaten erhalten: Tokenizer, Vokabular, Modelltyp enthalten

Vereinfachte Nutzung: Eine einzige Datei, die mit vielen Tools verwendet werden kann.



Wie man Llama 4 Scout in GGUF umwandelt

  1. Laden Sie das Rohmodell (HF-Format) herunter

Besorgen Sie sich das Originalmodell von Hugging Face (z. B. meta-llama/Meta-Llama-4-Scout-17B).
Installieren Sie die Transformer und die llama-cpp-python-Tools.
pip install transformers huggingface_hub git clone https://github.com/ggerganov/llama.cppcd llama.cppmake

  1. Führen Sie das GGUF-Konvertierungsskript aus.

Aus dem Verzeichnis llama.cpp/scripts:


python convert.py \ --outfile llama4-scout.gguf \--model meta-llama/Meta-Llama-4-Scout-17B \ --dtype q4_0

3. Laden Sie es in Ihr Inferenztool.

Nach der Konvertierung kann die .gguf-Datei direkt ausgeführt werden: ./main -m llama4-scout.gguf -p "Hello, world"

GGUF + Quantisierung = CPU-Superkräfte

Die Konvertierung in GGUF ermöglicht die Quantisierung während der Konvertierung:

q4_0, q4_K, q5_1 und q8_0 werden unterstützt
Sie reduzieren die Größe drastisch – von ~34 GB → ~5–7 GB für q4
Es gewährleistet Kompatibilität mit CPU-SIMD-Befehlen wie AVX, SVE oder RVV.

Auf RISC-V- oder ARM-Boards mit begrenztem Speicher ist GGUF + int4 oft die einzige Möglichkeit, Llama 4 Scout überhaupt zum Laufen zu bringen.


Profi-Tipp: GGUF-Umrechnungsoptionen

Sie können die Konvertierungseinstellungen feinabstimmen:

--vocab-type zur Anpassung der Tokenizer-Struktur
--trust-remote-code, falls das Hugging Face-Repository benutzerdefiniertes Laden verwendet.
--quantisieren Sie q4_K für eine bessere int4-Genauigkeit

Schlussbetrachtung

Metas Llama 4 Scout ist einer der praktischsten Open-Source-LLMs für CPU-Inferenz im Jahr 2025. Mit Quantisierung und SIMD-fähigem Einsatz kann er folgende Aufgaben erfüllen:

Edge-Anwendungen (IoT, Telefone)
Souveräne Rechenplattformen (RISC-V)
Cloud-native Umgebungen ohne GPUs

Wenn Sie daran interessiert sind, die Grenzen offener LLMs auf CPU-Architekturen auszuloten, ist Llama 4 Scout einer der besten Ausgangspunkte.




 
 
 

Kommentare


bottom of page