top of page

Um die maximale Anzahl an Tokens für die Ziel-CPU zu generieren

  • Autorenbild: Archana Barve
    Archana Barve
  • vor 3 Tagen
  • 1 Min. Lesezeit

LLMs werden besser und kleiner

Betrachten wir Llama als Beispiel. Die rasante Entwicklung dieser Modelle verdeutlicht einen wichtigen Trend in der KI: die Priorisierung von Effizienz und Leistung.

Als der Llama 2 70B im August 2023 auf den Markt kam, galt er als erstklassiges Einsteigermodell. Seine enorme Größe erforderte jedoch leistungsstarke Hardware wie den NVIDIA H100-Beschleuniger. Knapp neun Monate später präsentierte Meta den Llama 3 8B, ein Modell, das um fast das Neunfache verkleinert wurde. Dadurch konnte er mit kleineren KI-Beschleunigern und sogar optimierten CPUs betrieben werden, was die Hardwarekosten und den Stromverbrauch drastisch reduzierte. Beeindruckenderweise übertraf der Llama 3 8B seinen größeren Vorgänger in Genauigkeitstests.


Setup-Details


Getestet mit llama.cpp auf

  • Maschine: Gv4 r8g.24xlarge

  • Betriebssystem: Ubuntu 2204

  • Kernel: 6.8.AWS

  • Modell: Meta-Llama-3.1-8B-Instruct- Q8_0.gguf

Testdurchlauf

  • nproc x nthreads x bs [1-32]

Grafiken mit Beobachtungen, die Vorteile hervorheben


Die Token-Generierung erfolgt autoregressiv und reagiert sehr empfindlich auf die benötigte Ausgabelänge. ARM-Optimierungen helfen hier bei größeren Batchgrößen und steigern den Durchsatz um mehr als das Doppelte.




Abschluss


Für Meta-Llama-3.1-8B-Instruct- Q8_0.gguf kann Graviton4 161 Token pro Sekunde generieren, was 102.486 Token pro Dollar entspricht.



 
 
 
bottom of page