Stable Diffusion 3 を試してみた
最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表
Stable Diffusion 3 のモデルがリリースされたようなので、試してみます。なお、現在は非商用利用のみ可能なライセンスのようです。
準備
GPU を使えるように設定済みのコンテナを使います。
必要なパッケージをインストールします。
pip で pytorch をインストールします。
Huggin Face のモデルダウンロードページ を開き、モデルの使用に同意します。あわせて Hugging Face のアカウントのトークンも取得します。
モデルのページに記載の通り、diffusers をインストールします。サンプルの実行には transformers も必要なので、あわせてインストールします。
※補足:transformers をインストールしただけだと、以下のエラーが発生しました。
ValueError: Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.
これを解決するために、sentencepiece
をあわせてインストールするようにしています。
実行
モデルのページにあるコードを実行してみます。初回実行時はモデルをダウンロードするので、20GB 程のダウンロードが発生します。
GPU をガンガン使っているのが見えます。なお、右下に青丸で囲んだ通り、1 枚生成するのに手元の環境では 12 分以上かかります。
Hello World! 文字もきれいに出力されていますね。