hub / github.com/kohya-ss/sd-scripts

github.com/kohya-ss/sd-scripts @v0.11.1 sqlite

repository ↗ · DeepWiki ↗ · release v0.11.1 ↗

3,402 symbols 12,369 edges 193 files 594 documented · 17%

README

sd-scripts

English / 日本語

はじめに
ドキュメント
AIコーディングエージェントを使う開発者の方へ
Windows環境でのインストール
Linux/WSL2環境でのインストール
- DeepSpeedのインストール（実験的、LinuxまたはWSL2のみ）
アップグレード
- PyTorchのアップグレード
謝意
ライセンス

はじめに

Stable Diffusion等の画像生成モデルの学習、モデルによる画像生成、その他のスクリプトを入れたリポジトリです。

スポンサー

このプロジェクトを支援してくださる企業・団体の皆様に深く感謝いたします。

スポンサー募集のお知らせ

このプロジェクトがお役に立ったなら、ご支援いただけると嬉しく思います。 GitHub Sponsorsで受け付けています。

更新履歴

Version 0.11.1 (2026-06-16):
- Anima LoRA／LLLite学習でtorch.compileサポートを追加しました。PR #2379
  - 学習が20%ほど高速化されるようです。動作にはTritonやMSVCコンパイラが必要です。詳細はドキュメントをご覧ください。
- 2DのみのQwen-Image VAEを追加しました。PR #2382
  - issue #2369 での woct0rdho 氏の提案に基づいています。woct0rdho 氏に感謝します。
  - --qwen_image_vae_2d を指定すると有効になります。重みは通常版（3D版）と同じものが使用できます。
  - latentの事前キャッシュの高速化が期待できます（学習自体は変わりません）。詳細はドキュメントをご覧ください。
- LLLiteインペインティングモデルの学習サポートを追加しました。PR #2378
  - 詳細はドキュメントをご覧ください。
- timestep samplingの設定値のログ出力、timestepsの分布の可視化を追加しました。PR #2384
  - 可視化により学習がどのようなタイムステップで行われるかを理解しやすくなります。
  - 詳細はドキュメントをご覧ください。
Version 0.11.0 (2026-06-12):
- コードベースの大規模な内部リファクタリングを行い、コードベースの品質と保守性を向上させました。PR #2372
  - ユーザーの方には直接の影響が極力少なくなるよう配慮しました。詳細について、および不具合報告などはこちらのdiscussionまでお願いします。
Version 0.10.6 (2026-06-12):
- リファクタリングマージ前の安定バージョン。
Version 0.10.5 (2026-05-08):
- transformersのバージョン5以降に対応しました。PR #2315 および PR #2316 marcus165090-spec氏に感謝します。
  - requirements.txtのtransformersのバージョンは4.xのままですが、5.xでも動作します。何らかの理由で5.xを用いる場合はdiffusersもあわせて最新バージョンにしてください。
- Anima向けのControlNet-LLLite学習に対応しました。PR #2317
  - 詳細はドキュメントをご覧ください。
Version 0.10.4 (2026-05-07):
- Intel GPUの互換性を向上しました。PR #2307 WhitePr氏に感謝します。
- SD 1.5/SDXLのinpaintingモデルの学習に対応しました。PR #2309 および PR #2318allanoepping氏に感謝します。
  - 詳細はドキュメントをご覧ください。

サポートモデル

Stable Diffusion 1.x/2.x
SDXL
SD3/SD3.5
FLUX.1
LUMINA
HunyuanImage-2.1
Anima

機能

LoRA学習
fine-tuning（DreamBooth）：HunyuanImage-2.1以外のモデル
Textual Inversion学習：SD/SDXL
インペインティングモデル学習：SD1.5およびSDXL
画像生成
その他、モデル変換やタグ付け、LoRAマージなどのユーティリティ

ドキュメント

学習ドキュメント（英語および日本語）

日本語は折りたたまれているか、別のドキュメントにあります。

その他のドキュメント

旧ドキュメント（日本語）

学習について、共通編 : データ整備やオプションなど
DreamBoothの学習について

AIコーディングエージェントを使う開発者の方へ

This repository provides recommended instructions to help AI agents like Claude and Gemini understand our project context and coding standards.

To use them, you need to opt-in by creating your own configuration file in the project root.

Quick Setup:

Create a CLAUDE.md and/or GEMINI.md file in the project root.
Add the following line to your CLAUDE.md to import the repository's recommended prompt:

markdown @./.ai/claude.prompt.md

or for Gemini:

markdown @./.ai/gemini.prompt.md
You can now add your own personal instructions below the import line (e.g., Always respond in Japanese.).

This approach ensures that you have full control over the instructions given to your agent while benefiting from the shared project context. Your CLAUDE.md and GEMINI.md are already listed in .gitignore, so they won't be committed to the repository.

このリポジトリでは、AIコーディングエージェント（例：Claude、Geminiなど）がプロジェクトのコンテキストやコーディング標準を理解できるようにするための推奨プロンプトを提供しています。

それらを使用するには、プロジェクトディレクトリに設定ファイルを作成して明示的に有効にする必要があります。

簡単なセットアップ手順:

プロジェクトルートに CLAUDE.md や GEMINI.md ファイルを作成します。
CLAUDE.md に以下の行を追加して、リポジトリの推奨プロンプトをインポートします。

markdown @./.ai/claude.prompt.md

またはGeminiの場合:

markdown @./.ai/gemini.prompt.md 3. インポート行の下に、独自の指示を追加できます（例：常に日本語で応答してください。）。

この方法により、エージェントに与える指示を各開発者が管理しつつ、リポジトリの推奨コンテキストを活用できます。CLAUDE.md および GEMINI.md は .gitignore に登録されているため、リポジトリにコミットされることはありません。

Windows環境でのインストール

Windowsでの動作に必要なプログラム

Python 3.10.xおよびGitが必要です。

Python 3.10.x: https://www.python.org/downloads/windows/ からWindows installer (64-bit)をダウンロード
git: https://git-scm.com/download/win から最新版をダウンロード

Python 3.11.x、3.12.xでも恐らく動作します（未テスト）。

PowerShellを使う場合、venvを使えるようにするためには以下の手順でセキュリティ設定を変更してください。（venvに限らずスクリプトの実行が可能になりますので注意してください。）

PowerShellを管理者として開きます。
「Set-ExecutionPolicy Unrestricted」と入力し、Yと答えます。
管理者のPowerShellを閉じます。

インストール手順

PowerShellを使う場合、通常の（管理者ではない）PowerShellを開き以下を順に実行します。

git clone https://github.com/kohya-ss/sd-scripts.git
cd sd-scripts

python -m venv venv
.\venv\Scripts\activate

pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt

accelerate config

コマンドプロンプトでも同一です。

（なお、python -m venv～の行で「python」とだけ表示された場合、py -m venv～のようにpythonをpyに変更してください。）

注：bitsandbytes、prodigyopt、lion-pytorch は requirements.txt に含まれています。

この例ではCUDA 12.4版をインストールします。異なるバージョンのCUDAを使用する場合は、適切なバージョンのPyTorchをインストールしてください。たとえばCUDA 12.1版の場合は pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu121 としてください。

accelerate configの質問には以下のように答えてください。（bf16で学習する場合、最後の質問にはbf16と答えてください。）

- This machine
- No distributed training
- NO
- NO
- NO
- all
- fp16

※場合によって ValueError: fp16 mixed precision requires a GPU というエラーが出ることがあるようです。この場合、6番目の質問（ What GPU(s) (by id) should be used for training on this machine as a comma-separated list? [all]:）に「0」と答えてください。（id 0のGPUが使われます。）

requirements.txtとPyTorchについて

PyTorchは環境によってバージョンが異なるため、requirements.txtには含まれていません。前述のインストール手順を参考に、環境に合わせてPyTorchをインストールしてください。

スクリプトはPyTorch 2.6.0でテストしています。PyTorch 2.6.0以降が必要です。

RTX 50シリーズGPUの場合、PyTorch 2.8.0とCUDA 12.8/12.9を使用してください。requirements.txtはこのバージョンでも動作します。

xformersのインストール（オプション）

xformersをインストールするには、仮想環境を有効にした状態で以下のコマンドを実行してください。

pip install xformers --index-url https://download.pytorch.org/whl/cu124

必要に応じてCUDAバージョンを変更してください。一部のGPUアーキテクチャではxformersが利用できない場合があります。

Linux/WSL2環境でのインストール

LinuxまたはWSL2環境でのインストール手順はWindows環境とほぼ同じです。venv\Scripts\activate の部分を source venv/bin/activate に変更してください。

※NVIDIAドライバやCUDAツールキットなどは事前にインストールしておいてください。

DeepSpeedのインストール（実験的、LinuxまたはWSL2のみ）

DeepSpeedをインストールするには、仮想環境を有効にした状態で以下のコマンドを実行してください。

pip install deepspeed==0.16.7

アップグレード

新しいリリースがあった場合、以下のコマンドで更新できます。

cd sd-scripts
git pull
.\venv\Scripts\activate
pip install --use-pep517 --upgrade -r requirements.txt

コマンドが成功すれば新しいバージョンが使用できます。

PyTorchのアップグレード

PyTorchをアップグレードする場合は、Windows環境でのインストールのセクションのpip installコマンドを参考にしてください。

謝意

LoRAの実装はcloneofsimo氏のリポジトリを基にしたものです。感謝申し上げます。

Conv2d 3x3への拡大は cloneofsimo氏が最初にリリースし、KohakuBlueleaf氏が LoCon でその有効性を明らかにしたものです。KohakuBlueleaf氏に深く感謝します。

ライセンス

スクリプトのライセンスはASL 2.0ですが（Diffusersおよびcloneofsimo氏のリポジトリ由来のものも同様）、一部他のライセンスのコードを含みます。

Memory Efficient Attention Pytorch: MIT

bitsandbytes: MIT

BLIP: BSD-3-Clause

Core symbols most depended-on inside this repo

called by 1565

library/sdxl_lpw_stable_diffusion.py

get

called by 402

tools/dev/visualize_masks.py

keys

called by 230

library/safetensors_utils.py

clean_memory_on_device

called by 83

library/device_utils.py

state_dict

called by 70

networks/dylora.py

Shape

Method 1,823

Function 1,185

Class 383

Route 11

Languages

Python100%

Modules by API surface

library/original_unet.py118 symbols

library/flux_models.py103 symbols

library/anima_models.py101 symbols

library/sd3_models.py94 symbols

library/dataset.py85 symbols

library/sdxl_original_unet.py81 symbols

gen_img_diffusers.py70 symbols

library/qwen_image_autoencoder_kl.py67 symbols

library/lumina_models.py65 symbols

finetune/blip/med.py61 symbols

gen_img.py56 symbols

networks/lora.py54 symbols

Dependencies from manifests, versioned

accelerate1.6.0 · 1×

einops0.7.0 · 1×

ftfy6.3.1 · 1×

huggingface-hub0.34.3 · 1×

imagesize1.4.1 · 1×

lion-pytorch0.2.3 · 1×

opencv-python4.10.0.84 · 1×

prodigy-plus-schedule-free1.9.2 · 1×

prodigyopt1.1.2 · 1×

pytorch-optimizer3.10.0 · 1×

rich14.1.0 · 1×

safetensors0.4.5 · 1×

For agents

$ claude mcp add sd-scripts \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact