top of page

対象CPUの最大トークン数を生成する

  • 執筆者の写真: Archana Barve
    Archana Barve
  • 2 日前
  • 読了時間: 2分

LLMはより良く、より小規模になっている

Llamaを例に考えてみましょう。これらのモデルの急速な発展は、AIにおける重要なトレンド、つまり効率性とパフォーマンスの優先を示しています。

Llama 2 70Bが2023年8月に発売された当時、最高級のエントリーモデルと目されていました。しかし、その巨大なサイズのために、NVIDIA H100アクセラレータなどの強力なハードウェアが必要となりました。約9か月後、MetaはLlama 3 8Bを発表しました。これはサイズが約9分の1に縮小されたモデルです。これにより、より小型のAIアクセラレータや最適化されたCPUでも動作できるようになり、ハードウェアコストと消費電力を大幅に削減しました。驚くべきことに、Llama 3 8Bは精度テストにおいて、大型の前モデルを上回る性能を発揮しました。


セットアップの詳細


llama.cppでテスト済み

  • マシン: Gv4 r8g.24xlarge

  • オペレーティングシステム: Ubuntu 2204

  • カーネル: 6.8.AWS

  • モデル: Meta-Llama-3.1-8B-Instruct-Q8_0.gguf

試運転

  • nproc x nthreads x bs [1-32]

利点を強調する観察結果を示すグラフ


トークン生成は自己回帰的であり、必要な出力長に非常に敏感です。ARM最適化により、バッチサイズが大きくなってスループットが2倍以上に向上します。




結論


Meta-Llama-3.1-8B-Instruct-Q8_0.gguf の場合、Graviton4 では 1 秒あたり 161 トークンを生成でき、これは 1 ドルあたり 102,486 トークンに相当します。



コメント


bottom of page