対象CPUの最大トークン数を生成する
- Archana Barve

- 2 日前
- 読了時間: 2分

LLMはより良く、より小規模になっている
Llamaを例に考えてみましょう。これらのモデルの急速な発展は、AIにおける重要なトレンド、つまり効率性とパフォーマンスの優先を示しています。
Llama 2 70Bが2023年8月に発売された当時、最高級のエントリーモデルと目されていました。しかし、その巨大なサイズのために、NVIDIA H100アクセラレータなどの強力なハードウェアが必要となりました。約9か月後、MetaはLlama 3 8Bを発表しました。これはサイズが約9分の1に縮小されたモデルです。これにより、より小型のAIアクセラレータや最適化されたCPUでも動作できるようになり、ハードウェアコストと消費電力を大幅に削減しました。驚くべきことに、Llama 3 8Bは精度テストにおいて、大型の前モデルを上回る性能を発揮しました。
セットアップの詳細
llama.cppでテスト済み
マシン: Gv4 r8g.24xlarge
オペレーティングシステム: Ubuntu 2204
カーネル: 6.8.AWS
モデル: Meta-Llama-3.1-8B-Instruct-Q8_0.gguf
試運転
nproc x nthreads x bs [1-32]
利点を強調する観察結果を示すグラフ
トークン生成は自己回帰的であり、必要な出力長に非常に敏感です。ARM最適化により、バッチサイズが大きくなってスループットが2倍以上に向上します。


結論
Meta-Llama-3.1-8B-Instruct-Q8_0.gguf の場合、Graviton4 では 1 秒あたり 161 トークンを生成でき、これは 1 ドルあたり 102,486 トークンに相当します。





コメント