hub / github.com/gpustack/gpustack

github.com/gpustack/gpustack @v2.2.1 sqlite

repository ↗ · DeepWiki ↗ · release v2.2.1 ↗

5,354 symbols 26,180 edges 457 files 1,870 documented · 35%

README

<img alt="GPUStack" src="https://raw.githubusercontent.com/gpustack/gpustack/main/docs/assets/gpustack-logo.png" width="300px"/>










<a href="https://docs.gpustack.ai" target="_blank">
    <img alt="Documentation" src="https://img.shields.io/badge/ドキュメント-GPUStack-blue?logo=readthedocs&logoColor=white"></a>
<a href="https://github.com/gpustack/gpustack/raw/v2.2.1/LICENSE" target="_blank">
    <img alt="License" src="https://img.shields.io/github/license/gpustack/gpustack?logo=github&logoColor=white&label=License&color=blue"></a>
<a href="https://discord.gg/VXYJzuaqwD" target="_blank">
    <img alt="Discord" src="https://img.shields.io/badge/Discord-GPUStack-blue?logo=discord&logoColor=white"></a>
<a href="https://twitter.com/intent/follow?screen_name=gpustack_ai" target="_blank">
    <img alt="Follow on X(Twitter)" src="https://img.shields.io/twitter/follow/gpustack_ai?logo=X"></a>

English | 简体中文 | 日本語

概要

GPUStackは、効率的なAIモデルデプロイメントのために設計されたオープンソースのGPUクラスタマネージャーです。推論エンジン（vLLM、SGLang、TensorRT-LLM、またはカスタムエンジン）を構成・オーケストレーションし、GPUクラスタ全体のパフォーマンスを最適化します。主な機能は以下の通りです： - マルチクラスタGPU管理。 複数の環境にわたるGPUクラスタを管理します。これには、オンプレミスサーバー、Kubernetesクラスタ、およびクラウドプロバイダが含まれます。 - プラグ可能な推論エンジン。 vLLM、SGLang、TensorRT-LLMなどの高性能推論エンジンを自動的に設定します。必要に応じてカスタム推論エンジンを追加することもできます。 - Day 0モデルサポート。 GPUStackのプラグ可能なエンジンアーキテクチャにより、新しいモデルがリリースされた当日にデプロイできます。 - パフォーマンス最適化設定。 低レイテンシまたは高スループット向けの事前調整済みモードを提供します。GPUStackは、LMCacheやHiCacheなどの拡張KVキャッシュシステムをサポートし、TTFTを削減します。また、EAGLE3、MTP、N-gramなどの投機的デコード手法の組み込みサポートも含まれます。 - エンタープライズグレードの運用。 自動化された障害回復、負荷分散、監視、認証、およびアクセス制御のサポートを提供します。

アーキテクチャ

GPUStackは、開発チーム、IT組織、およびサービスプロバイダーが大規模なモデルサービスを提供できるようにします。LLM、音声、画像、ビデオモデル向けの業界標準APIをサポートしています。このプラットフォームには、組み込みのユーザー認証とアクセス制御、GPUパフォーマンスと使用率のリアルタイム監視、トークン使用量とAPIリクエストレートの詳細なメータリングが含まれています。

以下の図は、単一のGPUStackサーバーがオンプレミスとクラウド環境の両方にまたがる複数のGPUクラスタをどのように管理できるかを示しています。GPUStackスケジューラは、リソース使用率を最大化するためにGPUを割り当て、最適なパフォーマンスを得るために適切な推論エンジンを選択します。管理者は、統合されたGrafanaおよびPrometheusダッシュボードを通じて、システムの健全性とメトリクスに関する完全な可視性も得ます。

gpustack-v2-architecture

最適化された推論パフォーマンス

GPUStackの自動化されたエンジン選択とパラメータ最適化により、すぐに使える強力な推論パフォーマンスを提供します。以下の図は、デフォルトのvLLM設定と比較したスループットの向上を示しています：

a100-throughput-comparison

詳細なベンチマーク方法と結果については、推論パフォーマンスラボをご覧ください。

サポートされているアクセラレータ

GPUStack は AI 推論用の幅広いアクセラレータをサポートしています：

NVIDIA GPU
AMD GPU
Ascend NPU
Hygon DCU
MThreads GPU
Iluvatar GPU
MetaX GPU
Cambricon MLU
T-Head PPU

詳細な要件とセットアップ手順については、インストール要件ドキュメントを参照してください。

クイックスタート

前提条件

少なくとも1つの NVIDIA GPU を搭載したノード。他の GPU タイプについては、GPUStack UI で worker を追加する際のガイドラインを参照するか、詳細についてはインストールドキュメントを参照してください。
worker ノードに NVIDIA ドライバー、Docker、NVIDIA Container Toolkit がインストールされていることを確認してください。
（オプション）GPUStack server をホストするための CPU ノード。GPUStack server は GPU を必要とせず、CPU のみのマシンで実行できます。Docker がインストールされている必要があります。Docker Desktop（Windows および macOS 用）もサポートされています。専用の CPU ノードがない場合は、GPU worker ノードと同じマシンに GPUStack server をインストールできます。
GPUStack worker ノードは Linux のみをサポートしています。Windows を使用する場合は、WSL2 の使用を検討し、Docker Desktop の使用は避けてください。macOS は GPUStack worker ノードとしてサポートされていません。

GPUStack のインストール

以下のコマンドを実行して、Docker を使用して GPUStack server をインストールし起動します：

sudo docker run -d --name gpustack \
    --restart unless-stopped \
    -p 80:80 \
    --volume gpustack-data:/var/lib/gpustack \
    gpustack/gpustack

代替案：Quay コンテナレジストリミラーの使用

Docker Hub からイメージをプルできない場合やダウンロードが非常に遅い場合は、quay.io を指定することで当社のミラーを使用できます：

sudo docker run -d --name gpustack \
    --restart unless-stopped \
    -p 80:80 \
    --volume gpustack-data:/var/lib/gpustack \
    quay.io/gpustack/gpustack \
    --system-default-container-registry quay.io

GPUStack の起動ログを確認します：

sudo docker logs -f gpustack

GPUStack が起動したら、以下のコマンドを実行してデフォルトの管理者パスワードを取得します：

sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password

ブラウザを開き、http://あなたのホストIP にアクセスして GPUStack UI にアクセスします。デフォルトのユーザー名 admin と上記で取得したパスワードを使用してログインします。

GPU クラスターのセットアップ

GPUStack UI で、Clusters ページに移動します。
Add Cluster ボタンをクリックします。
クラスタープロバイダーとして Docker を選択します。
新しいクラスターの Name と Description フィールドに入力し、Save ボタンをクリックします。
UI のガイドラインに従って新しい worker ノードを設定します。worker ノードを GPUStack server に接続するには、worker ノードで Docker コマンドを実行する必要があります。コマンドは以下のようになります： bash sudo docker run -d --name gpustack-worker \ --restart=unless-stopped \ --privileged \ --network=host \ --volume /var/run/docker.sock:/var/run/docker.sock \ --volume gpustack-data:/var/lib/gpustack \ --runtime nvidia \ gpustack/gpustack \ --server-url http://your_gpustack_server_url \ --token your_worker_token \ --advertise-address 192.168.1.2
worker ノードでこのコマンドを実行して GPUStack server に接続します。
worker ノードが正常に接続されると、GPUStack UI の Workers ページに表示されます。

モデルのデプロイ

GPUStack UIのCatalogページに移動します。
利用可能なモデルのリストからQwen3 0.6Bモデルを選択します。
デプロイ互換性チェックが通過した後、Saveボタンをクリックしてモデルをデプロイします。

カタログからqwen3をデプロイ

GPUStackはモデルファイルのダウンロードとモデルのデプロイを開始します。デプロイステータスがRunningと表示されたら、モデルは正常にデプロイされています。

モデルが実行中

ナビゲーションメニューでPlayground - Chatをクリックし、右上のModelドロップダウンからモデルqwen3-0.6bが選択されていることを確認します。これでUIプレイグラウンドでモデルとチャットできるようになります。

クイックチャット

API経由でモデルを使用

ユーザーアバターにカーソルを合わせてAPI Keysページに移動し、New API Keyボタンをクリックします。
Nameを入力し、Saveボタンをクリックします。
生成されたAPIキーをコピーし、安全な場所に保存します。このキーは作成時に一度しか確認できないことに注意してください。
これで、このAPIキーを使用して、GPUStackが提供するOpenAI互換のAPIエンドポイントにアクセスできます。例えば、以下のようにcurlを使用します：

# `your_api_key` と `your_gpustack_server_url` を
# 実際のAPIキーとGPUStackサーバーのURLに置き換えてください。
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $GPUSTACK_API_KEY" \
  -d '{
    "model": "qwen3-0.6b",
    "messages": [
      {
        "role": "system",
        "content": "あなたは役立つアシスタントです。"
      },
      {
        "role": "user",
        "content": "ジョークを教えてください。"
      }
    ],
    "stream": true
  }'

ドキュメント

完全なドキュメントについては、公式ドキュメントサイトを参照してください。

ビルド

Python（バージョン3.10から3.12）をインストールします。
make buildを実行します。

ビルドされたwheelパッケージはdistディレクトリにあります。

貢献

GPUStackへの貢献に興味がある場合は、貢献ガイドをお読みください。

コミュニティに参加

問題がある場合、または提案がある場合は、お気軽に私たちのコミュニティに参加してサポートを受けてください。

ライセンス

Apache License, Version 2.0（「ライセンス」）に基づいてライセンスされます。ライセンスに準拠しない限り、このファイルを使用することはできません。ライセンスのコピーはLICENSEファイルで入手できます。

適用される法律で要求されない限り、または書面で合意されない限り、本ライセンスに基づいて配布されるソフトウェアは、明示黙示を問わず、いかなる保証も条件もなしに「現状のまま」配布されます。ライセンスの権利と制限を規定する特定の言語については、ライセンスを参照してください。

Core symbols most depended-on inside this repo

append

called by 662

gpustack/policies/utils.py

get

called by 548

gpustack/scheduler/queue.py

error

called by 185

gpustack/scheduler/calculator.py

one_by_id

called by 173

gpustack/mixins/active_record.py

extend

called by 173

gpustack/policies/utils.py

add

called by 141

gpustack/policies/event_recorder/recorder.py

update

called by 124

gpustack/server/services.py

get

called by 115

gpustack/server/coordinator/cache.py

Shape

Function 2,642

Method 1,674

Class 776

Route 262

Languages

Python100%

TypeScript1%

Modules by API surface

gpustack/server/controllers.py118 symbols

gpustack/websocket_proxy/message.py70 symbols

gpustack/policies/candidate_selectors/gguf_resource_fit_selector.py68 symbols

gpustack/schemas/model_provider.py66 symbols

gpustack/server/services.py63 symbols

gpustack/server/server.py62 symbols

gpustack/gateway/utils.py59 symbols

gpustack/schemas/clusters.py58 symbols

tests/worker/backends/test_multinode_topology.py56 symbols

gpustack/schemas/models.py54 symbols

gpustack/routes/model_routes.py54 symbols

gpustack/mixins/active_record.py45 symbols

Dependencies from manifests, versioned

aiohappyeyeballs2.6.1 · 1×

aiohttp3.12.13 · 1×

aiosignal1.3.2 · 1×

aiosqlite0.20.0 · 1×

annotated-types0.7.0 · 1×

anyio4.9.0 · 1×

attrs24.2.0 · 1×

certifi2025.6.15 · 1×

colorama0.4.6 · 1×

distro1.9.0 · 1×

frozenlist1.7.0 · 1×

h110.16.0 · 1×

Datastores touched

(mysql)Database · 1 repos

dbnameDatabase · 1 repos

gpustackDatabase · 1 repos

dbnameDatabase · 1 repos

postgresDatabase · 1 repos

For agents

$ claude mcp add gpustack \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact