Um die maximale Anzahl an Tokens für die Ziel-CPU zu generieren

Archana Barve
vor 3 Tagen
1 Min. Lesezeit

LLMs werden besser und kleiner

Betrachten wir Llama als Beispiel. Die rasante Entwicklung dieser Modelle verdeutlicht einen wichtigen Trend in der KI: die Priorisierung von Effizienz und Leistung.

Als der Llama 2 70B im August 2023 auf den Markt kam, galt er als erstklassiges Einsteigermodell. Seine enorme Größe erforderte jedoch leistungsstarke Hardware wie den NVIDIA H100-Beschleuniger. Knapp neun Monate später präsentierte Meta den Llama 3 8B, ein Modell, das um fast das Neunfache verkleinert wurde. Dadurch konnte er mit kleineren KI-Beschleunigern und sogar optimierten CPUs betrieben werden, was die Hardwarekosten und den Stromverbrauch drastisch reduzierte. Beeindruckenderweise übertraf der Llama 3 8B seinen größeren Vorgänger in Genauigkeitstests.

Setup-Details

Getestet mit llama.cpp auf

Maschine: Gv4 r8g.24xlarge
Betriebssystem: Ubuntu 2204
Kernel: 6.8.AWS
Modell: Meta-Llama-3.1-8B-Instruct- Q8_0.gguf

Testdurchlauf

nproc x nthreads x bs [1-32]

Grafiken mit Beobachtungen, die Vorteile hervorheben

Die Token-Generierung erfolgt autoregressiv und reagiert sehr empfindlich auf die benötigte Ausgabelänge. ARM-Optimierungen helfen hier bei größeren Batchgrößen und steigern den Durchsatz um mehr als das Doppelte.

Abschluss

Für Meta-Llama-3.1-8B-Instruct- Q8_0.gguf kann Graviton4 161 Token pro Sekunde generieren, was 102.486 Token pro Dollar entspricht.