top of page



対象CPUの最大トークン数を生成する
LLMはより良く、より小規模になっている Llamaを例に考えてみましょう。これらのモデルの急速な発展は、AIにおける重要なトレンド、つまり効率性とパフォーマンスの優先を示しています。 Llama 2 70Bが2023年8月に発売された当時、最高級のエントリーモデルと目されていました。しかし、その巨大なサイズのために、NVIDIA H100アクセラレータなどの強力なハードウェアが必要となりました。約9か月後、MetaはLlama 3 8Bを発表しました。これはサイズが約9分の1に縮小されたモデルです。これにより、より小型のAIアクセラレータや最適化されたCPUでも動作できるようになり、ハードウェアコストと消費電力を大幅に削減しました。驚くべきことに、Llama 3 8Bは精度テストにおいて、大型の前モデルを上回る性能を発揮しました。 セットアップの詳細 llama.cppでテスト済み マシン: Gv4 r8g.24xlarge オペレーティングシステム: Ubuntu 2204 カーネル: 6.8.AWS モデル: Meta-Llama-3.1

Archana Barve
4月13日読了時間: 2分


成功事例: お客様との信頼できるSREパートナーシップの構築方法
サイト信頼性エンジニアリング(SRE)の世界では、信頼、知識、そして実行力が何よりも重要です。私たちのチームが推論システム分野の大手クライアントの一つにサービスを提供する機会を得たとき、競争が熾烈になることは覚悟していました。多くの大手企業が同じプロジェクトを競い合っていました。しかし、私たちはこれを、専門知識、コミットメント、そして適切なアプローチが、規模やスケールを凌駕することを証明する機会だと捉えました。 私たちは比較的小規模な企業ですが、お客様のニーズに的確に応えられるよう、綿密な ベンチマーク調査の専門知識 と 業界知識 という独自の強みを提供でき ました。複雑なシステムを迅速に理解し、データセンター運用における連携を確立し、ソリューションを開発する能力は、競合他社との差別化要因となっています。この専門知識と、適応力、そして学ぶ姿勢が相まって、契約を獲得し、お客様のシステムのL1サポートという、事業継続にとって極めて重要な業務を担うことができました。 初期学習曲線: SRE の強固な基盤の構築 最初の数ヶ月は容易ではありませんでした。複

Akshay Bhide
4月13日読了時間: 7分


PyTorch による DLRM の理解
DLRMはディープラーニング・レコメンデーション・モデルの略称です。Facebook AI (Meta) が大規模なパーソナライズされたレコメンデーションシステム向けに開発したニューラルネットワークアーキテクチャです。DLRMは、 パーソナライズされたレコメンデーションやランキング予測が必要な 実世界のアプリケーション で広く利用されています 。DLRMは、クリックスルー率 (CTR) の予測とランキングタスク向けに設計されています。 例: オンライン広告、電子商取引の推奨、ソーシャル メディア フィードのランキング、ストリーミング サービス、オンライン マーケットプレイス、クラシファイド広告など。 DLRM の機能: DLRM インストール オプション: git と python を使用してオリジナルの Facebook DLRM (PyTorch) をインストールします。 TorchRec を使用して DLRM をインストールする NVIDIA DLRMをインストールする Docker に DLRM をインストールする (CPU のみまたは

Mrinal Kshirsagar
4月13日読了時間: 4分


AWS Graviton4 と GCP Axion の比較
このブログ記事では、2つの主要プロバイダー、AWS Graviton4(AWS r8gインスタンスベース)とGoogle Axion(GCP Axionインスタンスベース)のパフォーマンスを比較します。どちらも先進的なArm Neoverse V2アーキテクチャを基盤としています。今回は、人気のインメモリデータストアであるValkey 8.0.1を用いて、それぞれのパフォーマンスを検証します。 競合:AWS Graviton4とGoogle Axion AWS GravitonとGoogle Axionは、AmazonとGoogleが提供する最新世代のARMベースサーバープロセッサです。どちらも、クラウドコンピューティング、機械学習、ハイパフォーマンスコンピューティング(HPC)向けに特別に設計されたArm Neoverse V2 CPUアーキテクチャを採用しています。これらのカスタムビルドチップは、従来のx86ベースのチップと比較して、優れたパフォーマンスとエネルギー効率を提供します。 ベンチマーク: Valkey 8.0.1...

Rahul Bapat
4月13日読了時間: 4分


GCCおよびLLVM向けRISCVファザー
GCCやLLVMなどのRISC-Vコンパイラのファジングは、このアーキテクチャに基づくソフトウェアエコシステム全体の正確性とセキュリティを確保するために不可欠な手法です。目的は、コンパイルされたコードの脆弱性を見つけることではなく、誤ったコード生成、予期しない動作、さらには悪用可能なセキュリティ脆弱性につながる可能性のあるコンパイラ自体の欠陥を明らかにすることです。 コンパイラファジングが特別な課題となる理由 コンパイラファジングは、一般的なアプリケーションにおけるファジングとは異なります。プログラムにランダムなデータを入力するのではなく、 ランダムだが構文的には正しいソースコードを生成し、 それをコンパイラに渡します。バイト列を変更するだけの単純なファジングツールでは、解析すら不可能なコードをすぐに生成してしまい、より深刻なエラーを見逃してしまう可能性があります。 コンパイラ ファジングの主な目的は、主に 2 種類のエラーを検出することです。 クラッシュとパニックアタック: ファジングツールは、コンパイル中にクラッシュ、ハング、または重大なコン

Rajeev Gadgil
4月13日読了時間: 5分


CPUのみのシステムにおけるMeta Llama 4 Scoutのベンチマーク:パフォーマンス、量子化、アーキテクチャのチューニング
2025 年 4 月にリリースされた Meta の Llama 4 Scout は、170 億のパラメータを持つ汎用言語モデルであり、GPU なしで実行されるものも含め、より幅広いアプリケーションに強力な推論機能をもたらします。 このブログでは、CPU のみのシステムでの Llama 4 Scout のベンチマークに焦点を当て、次の内容を取り上げます。 1秒あたりのトークン数 トークンあたりのレイテンシ 迅速な処理効率 量子化技術 x86、ARM、RISC-V (RV64) 向けのアーキテクチャ固有の最適化 効率的な展開のためにGGUF形式に変換する CPU をベンチマークする理由は何ですか? ほとんどの LLM は GPU 上に展開されますが、次のような場合には CPU のみの推論が 必要になることがよくあります。 エッジデバイス GPU アクセスのないクラウド VM オープンハードウェアエコシステム(例:RISC-V) コスト重視の導入 これにより、特に量子化されたバリアントでは、Llama 4 Scout が強力な候補になります。 主要なベ

Rajeev Gadgil
4月13日読了時間: 5分
bottom of page
