<img alt="GPUStack" src="https://raw.githubusercontent.com/gpustack/gpustack/main/docs/assets/gpustack-logo.png" width="300px"/>
<a href="https://docs.gpustack.ai" target="_blank">
<img alt="Documentation" src="https://img.shields.io/badge/ドキュメント-GPUStack-blue?logo=readthedocs&logoColor=white"></a>
<a href="https://github.com/gpustack/gpustack/raw/v2.2.1/LICENSE" target="_blank">
<img alt="License" src="https://img.shields.io/github/license/gpustack/gpustack?logo=github&logoColor=white&label=License&color=blue"></a>
<a href="https://discord.gg/VXYJzuaqwD" target="_blank">
<img alt="Discord" src="https://img.shields.io/badge/Discord-GPUStack-blue?logo=discord&logoColor=white"></a>
<a href="https://twitter.com/intent/follow?screen_name=gpustack_ai" target="_blank">
<img alt="Follow on X(Twitter)" src="https://img.shields.io/twitter/follow/gpustack_ai?logo=X"></a>
GPUStackは、効率的なAIモデルデプロイメントのために設計されたオープンソースのGPUクラスタマネージャーです。推論エンジン(vLLM、SGLang、TensorRT-LLM、またはカスタムエンジン)を構成・オーケストレーションし、GPUクラスタ全体のパフォーマンスを最適化します。主な機能は以下の通りです: - マルチクラスタGPU管理。 複数の環境にわたるGPUクラスタを管理します。これには、オンプレミスサーバー、Kubernetesクラスタ、およびクラウドプロバイダが含まれます。 - プラグ可能な推論エンジン。 vLLM、SGLang、TensorRT-LLMなどの高性能推論エンジンを自動的に設定します。必要に応じてカスタム推論エンジンを追加することもできます。 - Day 0モデルサポート。 GPUStackのプラグ可能なエンジンアーキテクチャにより、新しいモデルがリリースされた当日にデプロイできます。 - パフォーマンス最適化設定。 低レイテンシまたは高スループット向けの事前調整済みモードを提供します。GPUStackは、LMCacheやHiCacheなどの拡張KVキャッシュシステムをサポートし、TTFTを削減します。また、EAGLE3、MTP、N-gramなどの投機的デコード手法の組み込みサポートも含まれます。 - エンタープライズグレードの運用。 自動化された障害回復、負荷分散、監視、認証、およびアクセス制御のサポートを提供します。
GPUStackは、開発チーム、IT組織、およびサービスプロバイダーが大規模なモデルサービスを提供できるようにします。LLM、音声、画像、ビデオモデル向けの業界標準APIをサポートしています。このプラットフォームには、組み込みのユーザー認証とアクセス制御、GPUパフォーマンスと使用率のリアルタイム監視、トークン使用量とAPIリクエストレートの詳細なメータリングが含まれています。
以下の図は、単一のGPUStackサーバーがオンプレミスとクラウド環境の両方にまたがる複数のGPUクラスタをどのように管理できるかを示しています。GPUStackスケジューラは、リソース使用率を最大化するためにGPUを割り当て、最適なパフォーマンスを得るために適切な推論エンジンを選択します。管理者は、統合されたGrafanaおよびPrometheusダッシュボードを通じて、システムの健全性とメトリクスに関する完全な可視性も得ます。

GPUStackの自動化されたエンジン選択とパラメータ最適化により、すぐに使える強力な推論パフォーマンスを提供します。以下の図は、デフォルトのvLLM設定と比較したスループットの向上を示しています:

詳細なベンチマーク方法と結果については、推論パフォーマンスラボをご覧ください。
GPUStack は AI 推論用の幅広いアクセラレータをサポートしています:
詳細な要件とセットアップ手順については、インストール要件ドキュメントを参照してください。
以下のコマンドを実行して、Docker を使用して GPUStack server をインストールし起動します:
sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
gpustack/gpustack
代替案:Quay コンテナレジストリミラーの使用
Docker Hub からイメージをプルできない場合やダウンロードが非常に遅い場合は、quay.io を指定することで当社のミラーを使用できます:
sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
quay.io/gpustack/gpustack \
--system-default-container-registry quay.io
GPUStack の起動ログを確認します:
sudo docker logs -f gpustack
GPUStack が起動したら、以下のコマンドを実行してデフォルトの管理者パスワードを取得します:
sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password
ブラウザを開き、http://あなたのホストIP にアクセスして GPUStack UI にアクセスします。デフォルトのユーザー名 admin と上記で取得したパスワードを使用してログインします。
Clusters ページに移動します。Add Cluster ボタンをクリックします。Docker を選択します。Name と Description フィールドに入力し、Save ボタンをクリックします。bash
sudo docker run -d --name gpustack-worker \
--restart=unless-stopped \
--privileged \
--network=host \
--volume /var/run/docker.sock:/var/run/docker.sock \
--volume gpustack-data:/var/lib/gpustack \
--runtime nvidia \
gpustack/gpustack \
--server-url http://your_gpustack_server_url \
--token your_worker_token \
--advertise-address 192.168.1.2Workers ページに表示されます。GPUStack UIのCatalogページに移動します。
利用可能なモデルのリストからQwen3 0.6Bモデルを選択します。
デプロイ互換性チェックが通過した後、Saveボタンをクリックしてモデルをデプロイします。

Runningと表示されたら、モデルは正常にデプロイされています。
Playground - Chatをクリックし、右上のModelドロップダウンからモデルqwen3-0.6bが選択されていることを確認します。これでUIプレイグラウンドでモデルとチャットできるようになります。
ユーザーアバターにカーソルを合わせてAPI Keysページに移動し、New API Keyボタンをクリックします。
Nameを入力し、Saveボタンをクリックします。
生成されたAPIキーをコピーし、安全な場所に保存します。このキーは作成時に一度しか確認できないことに注意してください。
これで、このAPIキーを使用して、GPUStackが提供するOpenAI互換のAPIエンドポイントにアクセスできます。例えば、以下のようにcurlを使用します:
# `your_api_key` と `your_gpustack_server_url` を
# 実際のAPIキーとGPUStackサーバーのURLに置き換えてください。
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "qwen3-0.6b",
"messages": [
{
"role": "system",
"content": "あなたは役立つアシスタントです。"
},
{
"role": "user",
"content": "ジョークを教えてください。"
}
],
"stream": true
}'
完全なドキュメントについては、公式ドキュメントサイトを参照してください。
Python(バージョン3.10から3.12)をインストールします。
make buildを実行します。
ビルドされたwheelパッケージはdistディレクトリにあります。
GPUStackへの貢献に興味がある場合は、貢献ガイドをお読みください。
問題がある場合、または提案がある場合は、お気軽に私たちのコミュニティに参加してサポートを受けてください。
Copyright (c) 2024-2026 The GPUStack authors
Apache License, Version 2.0(「ライセンス」)に基づいてライセンスされます。 ライセンスに準拠しない限り、このファイルを使用することはできません。 ライセンスのコピーはLICENSEファイルで入手できます。
適用される法律で要求されない限り、または書面で合意されない限り、本ライセンスに基づいて配布されるソフトウェアは、明示黙示を問わず、いかなる保証も条件もなしに「現状のまま」配布されます。 ライセンスの権利と制限を規定する特定の言語については、ライセンスを参照してください。
$ claude mcp add gpustack \
-- python -m otcore.mcp_server <graph>