この記事の3行まとめ
NVIDIAは、大規模言語モデル(LLM)の推論を高速化するオープンソースライブラリ「TensorRT-LLM」をApache License 2.0でリリースしました。
TensorRT-LLMは、NVIDIAのGPUを使用して高速化を行います。同社は、LLMのパフォーマンスが最大で4倍高速化できたとしています。
また、パフォーマンス向上のほか、Retrieval-Augmented Generation(RAG)(※)などの手法をLLMに導入するのにも有用とのこと。
※ 学習データには含まれていない情報をプロンプトとして与えることで、より正確な回答を生成させる手法
NVIDIAの公式ブログでは、Metaが開発するLLM「Llama2」と、TensorRT-LLMを利用しRAGを組み込んだLlama2の性能を比較。より正確かつ高速に回答を生成できたと報告しています。
併せて、画像生成AI「Stable Diffusion」を使うWebアプリ「Stable Diffusion web UI」のパフォーマンスを、TensorRT-LLMで向上させる拡張機能「TensorRT Extension for Stable Diffusion Web UI」もMITライセンスでリリースされました。
TensorRT-LLMは、NVIDIA DeveloperやGitHubからダウンロード可能です。
詳細はNVIDIA Developerおよび公式ブログをご確認ください。
「NVIDIA TensorRT」NVIDIA Developer『Striking Performance: Large Language Models up to 4x Faster on RTX With TensorRT-LLM for Windows』NVIDIA 公式ブログ