Whileone テックスペース

対象CPUの最大トークン数を生成する

LLMはより良く、より小規模になっている Llamaを例に考えてみましょう。これらのモデルの急速な発展は、AIにおける重要なトレンド、つまり効率性とパフォーマンスの優先を示しています。 Llama 2 70Bが2023年8月に発売された当時、最高級のエントリーモデルと目されていました。しかし、その巨大なサイズのために、NVIDIA H100アクセラレータなどの強力なハードウェアが必要となりました。約9か月後、MetaはLlama 3 8Bを発表しました。これはサイズが約9分の1に縮小されたモデルです。これにより、より小型のAIアクセラレータや最適化されたCPUでも動作できるようになり、ハードウェアコストと消費電力を大幅に削減しました。驚くべきことに、Llama 3 8Bは精度テストにおいて、大型の前モデルを上回る性能を発揮しました。セットアップの詳細 llama.cppでテスト済みマシン: Gv4 r8g.24xlarge オペレーティングシステム: Ubuntu 2204 カーネル: 6.8.AWS モデル: Meta-Llama-3.1

Archana Barve

4月13日読了時間: 2分

成功事例: お客様との信頼できるSREパートナーシップの構築方法

サイト信頼性エンジニアリング（SRE）の世界では、信頼、知識、そして実行力が何よりも重要です。私たちのチームが推論システム分野の大手クライアントの一つにサービスを提供する機会を得たとき、競争が熾烈になることは覚悟していました。多くの大手企業が同じプロジェクトを競い合っていました。しかし、私たちはこれを、専門知識、コミットメント、そして適切なアプローチが、規模やスケールを凌駕することを証明する機会だと捉えました。私たちは比較的小規模な企業ですが、お客様のニーズに的確に応えられるよう、綿密なベンチマーク調査の専門知識と業界知識という独自の強みを提供できました。複雑なシステムを迅速に理解し、データセンター運用における連携を確立し、ソリューションを開発する能力は、競合他社との差別化要因となっています。この専門知識と、適応力、そして学ぶ姿勢が相まって、契約を獲得し、お客様のシステムのL1サポートという、事業継続にとって極めて重要な業務を担うことができました。初期学習曲線: SRE の強固な基盤の構築最初の数ヶ月は容易ではありませんでした。複

Akshay Bhide

4月13日読了時間: 7分

PyTorch による DLRM の理解

DLRMはディープラーニング・レコメンデーション・モデルの略称です。Facebook AI (Meta) が大規模なパーソナライズされたレコメンデーションシステム向けに開発したニューラルネットワークアーキテクチャです。DLRMは、パーソナライズされたレコメンデーションやランキング予測が必要な実世界のアプリケーションで広く利用されています。DLRMは、クリックスルー率 (CTR) の予測とランキングタスク向けに設計されています。例: オンライン広告、電子商取引の推奨、ソーシャルメディアフィードのランキング、ストリーミングサービス、オンラインマーケットプレイス、クラシファイド広告など。 DLRM の機能: DLRM インストールオプション: git と python を使用してオリジナルの Facebook DLRM (PyTorch) をインストールします。 TorchRec を使用して DLRM をインストールする NVIDIA DLRMをインストールする Docker に DLRM をインストールする (CPU のみまたは

Mrinal Kshirsagar

4月13日読了時間: 4分

AWS Graviton4 と GCP Axion の比較

このブログ記事では、2つの主要プロバイダー、AWS Graviton4（AWS r8gインスタンスベース）とGoogle Axion（GCP Axionインスタンスベース）のパフォーマンスを比較します。どちらも先進的なArm Neoverse V2アーキテクチャを基盤としています。今回は、人気のインメモリデータストアであるValkey 8.0.1を用いて、それぞれのパフォーマンスを検証します。競合：AWS Graviton4とGoogle Axion AWS GravitonとGoogle Axionは、AmazonとGoogleが提供する最新世代のARMベースサーバープロセッサです。どちらも、クラウドコンピューティング、機械学習、ハイパフォーマンスコンピューティング（HPC）向けに特別に設計されたArm Neoverse V2 CPUアーキテクチャを採用しています。これらのカスタムビルドチップは、従来のx86ベースのチップと比較して、優れたパフォーマンスとエネルギー効率を提供します。ベンチマーク: Valkey 8.0.1...

Rahul Bapat

4月13日読了時間: 4分

GCCおよびLLVM向けRISCVファザー

GCCやLLVMなどのRISC-Vコンパイラのファジングは、このアーキテクチャに基づくソフトウェアエコシステム全体の正確性とセキュリティを確保するために不可欠な手法です。目的は、コンパイルされたコードの脆弱性を見つけることではなく、誤ったコード生成、予期しない動作、さらには悪用可能なセキュリティ脆弱性につながる可能性のあるコンパイラ自体の欠陥を明らかにすることです。コンパイラファジングが特別な課題となる理由コンパイラファジングは、一般的なアプリケーションにおけるファジングとは異なります。プログラムにランダムなデータを入力するのではなく、ランダムだが構文的には正しいソースコードを生成し、それをコンパイラに渡します。バイト列を変更するだけの単純なファジングツールでは、解析すら不可能なコードをすぐに生成してしまい、より深刻なエラーを見逃してしまう可能性があります。コンパイラファジングの主な目的は、主に 2 種類のエラーを検出することです。クラッシュとパニックアタック：ファジングツールは、コンパイル中にクラッシュ、ハング、または重大なコン

Rajeev Gadgil

4月13日読了時間: 5分

CPUのみのシステムにおけるMeta Llama 4 Scoutのベンチマーク：パフォーマンス、量子化、アーキテクチャのチューニング

2025 年 4 月にリリースされた Meta の Llama 4 Scout は、170 億のパラメータを持つ汎用言語モデルであり、GPU なしで実行されるものも含め、より幅広いアプリケーションに強力な推論機能をもたらします。このブログでは、CPU のみのシステムでの Llama 4 Scout のベンチマークに焦点を当て、次の内容を取り上げます。 1秒あたりのトークン数トークンあたりのレイテンシ迅速な処理効率量子化技術 x86、ARM、RISC-V (RV64) 向けのアーキテクチャ固有の最適化効率的な展開のためにGGUF形式に変換する CPU をベンチマークする理由は何ですか? ほとんどの LLM は GPU 上に展開されますが、次のような場合には CPU のみの推論が必要になることがよくあります。エッジデバイス GPU アクセスのないクラウド VM オープンハードウェアエコシステム（例：RISC-V）コスト重視の導入これにより、特に量子化されたバリアントでは、Llama 4 Scout が強力な候補になります。主要なベ