画像編集特化AI「Qwen Rapid AIO」はRTX3060でもいける？実際に使って凄さをテストしてみた

以前から存在だけは知っていて気になっていた画像編集モデル「Qwen-Image」。
しかし、うちのグラボはRTX 3060（VRAM 12GB）。
「次世代系のAIをしっかり動かすのは、もっと上のハイエンド環境じゃないと厳しいだろうな…」と半ば諦めていました。

ところが、色々調べているうちにVRAM 8GBのグラボからでも動く軽量版「Qwen-Image-Edit-Rapid-AIO」が存在していたことを発見。
「8GBで動くなら、うちの3060先輩（12GB）なら余裕でいけるのでは……？」と期待を胸に、早速インストールして検証してみました。

今回使用したモデルはこちらです：

Phr00t/Qwen-Image-Edit-Rapid-AIO · Hugging Face

検証1：カメラアングルを自由自在に変えてみる

画像編集に特化しているモデルとのことなので、まずは素体となるこちらの画像を用意しました。

手始めに、プロンプトに「カメラアングルを右に」と入力して実行してみます。
※自然言語かつ日本語でそのまま入力できちゃいます！

そして、実際に出力された結果がこちら。

すご！！！

元の絵柄やキャラクターのクオリティをそのまま維持しつつ、被写体のアングルだけを綺麗に動かすことができました。
さらに別のアングルも試してみます。

カメラアングルを左に

カメラアングルを下から

結局この機能で何が一番嬉しいかというと、「1枚の画像からいろいろなアングルの画像を生成して、LoRAを学習させるための素材作りができちゃう」という点です。
キャラクターの一貫性を保ったままデータセットを量産できるので、今後の創作活動が色々と捗りそう。

アングル変更だけでなく、別々の画像と画像を組み合わせる（合成・構図の適用）ことも可能。
以下の2枚の画像を使って実験してみました。

使いまわしですみません😂

この2枚を組み合わせて出力した結果がこちら！

画像1の男性が画像2の女性を抱きしめている

画像1の男性が画像2の女性を後ろから抱きしめる

2枚目（後ろから抱きしめる）に関しては、プロンプトの指示と内容が少し逆転してしまいました。自然言語に対応しているとはいえ、細かいシチュエーションを指定する場合は、やはり英語でプロンプトを指定してあげた方が精度がグッと上がるみたいです。

色々と触って機能を確認していたら、ふとある恐ろしい使い道に思い至りました。

「……これ、上と下にある邪魔な文字（ウォーターマーク）も簡単に消せるのでは？」

そして、容赦なく実行した結果がこちら。

やめてね