PR

RTX 3060でも動く!画像編集特化の「Qwen Rapid AIO」が凄い!

雑記

以前から存在だけは知っていて気になっていた画像編集モデル「Qwen-Image」。
しかし、うちのグラボはRTX 3060(VRAM 12GB)。
「次世代系のAIをしっかり動かすのは、もっと上のハイエンド環境じゃないと厳しいだろうな…」と半ば諦めていました。

ところが、色々調べているうちにVRAM 8GBのグラボからでも動く軽量版「Qwen-Image-Edit-Rapid-AIO」が存在していたことを発見。
「8GBで動くなら、うちの3060先輩(12GB)なら余裕でいけるのでは……?」と期待を胸に、早速インストールして検証してみました。

今回使用したモデルはこちらです:

検証1:カメラアングルを自由自在に変えてみる

画像編集に特化しているモデルとのことなので、まずは素体となるこちらの画像を用意しました。

Qwen Rapid AIOの検証に使用したAI生成の素体画像

手始めに、プロンプトに「カメラアングルを右に」と入力して実行してみます。
※自然言語かつ日本語でそのまま入力できちゃいます!

※こちらが実際のワークフロー。ComfyUIをほとんど使ったことがないので、何がなんだかよくわかっていませんw

そして、実際に出力された結果がこちら。

Qwen Rapid AIOでカメラアングルを右に変更した出力結果

すご!!!

元の絵柄やキャラクターのクオリティをそのまま維持しつつ、被写体のアングルだけを綺麗に動かすことができました。
さらに別のアングルも試してみます。

Qwen Rapid AIOでカメラアングルを左に変更した出力結果

カメラアングルを左に

Qwen Rapid AIOでカメラアングルを下に変更した出力結果

カメラアングルを下から

LoRAの素材作りに革命が起きるかも?

結局この機能で何が一番嬉しいかというと、「1枚の画像からいろいろなアングルの画像を生成して、LoRAを学習させるための素材作りができちゃう」という点です。
キャラクターの一貫性を保ったままデータセットを量産できるので、今後の創作活動が色々と捗りそう。

検証2:2枚の画像を組み合わせてシチュエーション生成

アングル変更だけでなく、別々の画像と画像を組み合わせる(合成・構図の適用)ことも可能。
以下の2枚の画像を使って実験してみました。

使いまわしですみません😂

Qwen Rapid AIOの検証に使用したAI生成の素体画像
Qwen Rapid AIOの検証に使用したAI生成の素体画像

この2枚を組み合わせて出力した結果がこちら!

Qwen Rapid AIOで画像2枚を合成した出力結果1

画像1の男性が画像2の女性を抱きしめている

Qwen Rapid AIOで画像2枚を合成した出力結果2

画像1の男性が画像2の女性を後ろから抱きしめる

2枚目(後ろから抱きしめる)に関しては、プロンプトの指示と内容が少し逆転してしまいました。自然言語に対応しているとはいえ、細かいシチュエーションを指定する場合は、やはり英語でプロンプトを指定してあげた方が精度がグッと上がるみたいです。

おまけ:恐るべき「文字消し」性能(※悪用厳禁)

色々と触って機能を確認していたら、ふとある恐ろしい使い道に思い至りました。

Qwen Rapid AIOの検証に使用したAI生成の素体画像

「……これ、上と下にある邪魔な文字(ウォーターマーク)も簡単に消せるのでは?」

そして、容赦なく実行した結果がこちら。

Qwen Rapid AIOで画像のウォーターマーク(文字)を消去した結果


やめてね
カテゴリー
雑記

コメント