Um die maximale Anzahl an Tokens für die Ziel-CPU zu generieren
- Archana Barve
- vor 3 Tagen
- 1 Min. Lesezeit

LLMs werden besser und kleiner
Betrachten wir Llama als Beispiel. Die rasante Entwicklung dieser Modelle verdeutlicht einen wichtigen Trend in der KI: die Priorisierung von Effizienz und Leistung.
Als der Llama 2 70B im August 2023 auf den Markt kam, galt er als erstklassiges Einsteigermodell. Seine enorme Größe erforderte jedoch leistungsstarke Hardware wie den NVIDIA H100-Beschleuniger. Knapp neun Monate später präsentierte Meta den Llama 3 8B, ein Modell, das um fast das Neunfache verkleinert wurde. Dadurch konnte er mit kleineren KI-Beschleunigern und sogar optimierten CPUs betrieben werden, was die Hardwarekosten und den Stromverbrauch drastisch reduzierte. Beeindruckenderweise übertraf der Llama 3 8B seinen größeren Vorgänger in Genauigkeitstests.
Setup-Details
Getestet mit llama.cpp auf
Maschine: Gv4 r8g.24xlarge
Betriebssystem: Ubuntu 2204
Kernel: 6.8.AWS
Modell: Meta-Llama-3.1-8B-Instruct- Q8_0.gguf
Testdurchlauf
nproc x nthreads x bs [1-32]
Grafiken mit Beobachtungen, die Vorteile hervorheben
Die Token-Generierung erfolgt autoregressiv und reagiert sehr empfindlich auf die benötigte Ausgabelänge. ARM-Optimierungen helfen hier bei größeren Batchgrößen und steigern den Durchsatz um mehr als das Doppelte.


Abschluss
Für Meta-Llama-3.1-8B-Instruct- Q8_0.gguf kann Graviton4 161 Token pro Sekunde generieren, was 102.486 Token pro Dollar entspricht.

