Stable Diffusionがオープンソースで公開されてから一ヶ月ほど経ったが、世の中ではいろんな人が色んな方法でこの画像AIを弄くり回している。

私もそういう人達の内の一人と言えるかもしれない。

しかしまあ、オープンソースのおかげでやれる事が多すぎて、自分がどういう風に画像AIに接していくべきか、何をすればいいのか、見失いそうだ。

ちょっと立ち止まって、自分がこの画像AIで何をやっていくべきかを考えてもいいと思う。

画像AIへの関わり方には、色々な方法があるが、上位のレイヤーと下位のレイヤーという概念が存在すると思う。例えばGoogleやStability.aiなどのAI自体を研究・開発しているAI企業は最上位レイヤーの存在だろう。それに対してプロンプトをあれこれこねくり回してイイ絵を出そうとするプロンプターなどはかなり下位レイヤーの存在ではないだろうか。

下位レイヤーというのは、やってる事のレベルが低いとかそういう事を言ってるのではなくて、上位レイヤーに動きがあると、根本からひっくり返されてしまうのが下位レイヤーという事だ。

■AI企業の戦い

てなわけで、一番上位のレイヤーから見てみよう。

今起きてる画像AI戦争の発端になったのは、2021年の頭にOpenAIが公開したCLIPの論文と、DALL-Eという画像AIが発端だ。
OpenAIは論文は公開したものの、AIモデルの方は公開しなかった。

そして2022年の5月には、GoogleがImagenという画像AIを発表したが、「メッチャクチャすごいAIです!」って言うだけで、Googleは我々の手の届かない所にそのAIを隠した。

Stable Diffusion以前にも、オープンソース界隈で動きが無かったワケではない。
Somnai氏は2021年10月にはDiscoDiffusionの最初のバージョンをリリースしている。

だが、その後Somnai氏はMidjourneyに参加してしまった。
Midjourneyが一般公開されたのは7月末だ。

今挙げたAIは、DALL-E、Imagen、Midjourneyは、企業によって独占されたAIだと言える。DALL-E2やMidjourneyは画像生成サービスを提供しているので、お金さえ払えば画像生成させてもらえるが、フェイク画像やエロ画像を生成する事は出来ない。

そんな中、8/23にリリースされたのがStable Diffusionだ。
60万ドルかけて学習させた大規模AIモデルもソースコードもオープンで公開されてしまった。

私は当時、「Disco Diffusionは1枚描くのに15分くらいかかってたから、SDで1枚10秒とかで描けるようになるなら嬉しいなあ」程度の事しか想像できてなかったが、実際リリースされてみると想像を超えた事が色々と起きまくった。

ジョン・カーマック氏はこのように総括している。↓

GoogleやOpenAIは「画像AIは凄すぎるから愚民どもに与えると危険すぎるから我々が管理しなければならない」とか偉そうな事を言って独占していたわけだが、じゃあ実際にSDがオープンソースで全てを公開してみれば、みんなしてAIを弄くり回し始めて、ものすごい勢いで進化させている。

こうなってみると、GoogleやOpenAIの言ってた事は間違ってたわけで、アホ丸出しである。もはや「AIは危険だから公開しない方がいい」なんて意見は説得力を喪失した。

SDのCIOに就任した人の記事がある。↓

https://danieljeffries.substack.com/p/the-turning-point-for-truly-open?sd=pf

これはやたらめったらSDを持ち上げる提灯記事ではあるが、なかなか読ませる文章でもある。

ベル研究所はトランジスタを発明したが、それをコンピュータに利用するなんて事は全く思いつかなかった。つまり、研究者がなにか凄い物を発明したところで、それを自分だけで大事に抱え込んでたら面白い使い道に気付く事ができず、話が先に進まない。それよりはみんなに公開してしまった方が、みんなの思い付きと試行錯誤で凄い進歩に繋がるというわけだ。

■オープンVSクローズ

かつて、マイクロソフトのスティーブバルマーは、「Linuxは共産主義だ!」と批判した。

マイクロソフトはWindowsというOSをずっとクローズドで独占して開発して、大儲けしている。
マイクロソフトに言わせれば、「OSを独占して販売する事で、利益を出す事ができて、だからその利益でOSをもっと良くしていけるわけで、クローズドだからこそ成長して行けるんだよ」という話だろう。

まあ、ごく当たり前な資本主義的な考え方であるし、私も普通に考えてそう思う。

Linuxはオープンソース陣営の代表みたいなもんだ。
オープンソースのソフトウェアは誰にでも無料で提供される。みんな自分で使うソフトウェアなんだから良くしていきたいに決まってるので、みんなで寄ってたかってコードを改善する事で集合知の力でメッチャクチャ良くなっていくんだよ。みたいな理屈だ。

どうしても、理想論のように聞こえてしまう。そんな風に上手く行くか?自分が直接儲かるわけじゃないのにコード書くヤツなんてそんなにいるのか?

だが、現在までの結果を見るとLinuxは大成功をおさめ、サーバー用途ではほぼ全てLinuxが使われている。

まあ私は自分のPCはずっとWindowsを使ってたわけで、Windowsが無ければ困っていたと思う。
かと言って、世界にLinuxが存在しなかったとしたら今頃相当困ったことになっていただろう。

WindowsもLinuxもどちらも素晴らしい。
つまり、オープンとクローズでどちらが勝つか?というと、どちらも両方が存在すべきなのかもしれない。

AIについても、このOSの話と同じように片付けてしまえるものだろうか?

■モスターク氏に付いていっていいのか?

SDがオープンで公開されて、世の中で色々と面白い事が起きている。
だがそれは、すでにGoogleやOpenAIが先行して画像AIを独占していた状況に対して、そこにカウンターパンチを食らわせたいがためだけにオープン戦略を取っているだけという事もあり得る。

たしかに今はSDでAIビッグバンが起きてるが、それはたまたまAI企業戦争のおこぼれとか、気まぐれみたいなもので、この状況がずっと続くのかどうかは怪しいかもしれない。

正直言って、モスターク氏の気分次第だ。

すでに現状、SDのV1.5がDreamstudio上では使用できるのに、モデル自体は一向に公開されないという事態が、モスターク氏のオープン志向が口だけかもしれない可能性を暗示してないだろうか。

私が警戒しているのは、画像AIの盛り上がりに「乗るしかないこのビッグウェーブに!!」と言って全力でフルコミットしていたのに、Stability.aiが急に方針転換してクローズドになってハシゴを外されはしまいか?という懸念だ。

何故そうまで疑うか?と言えば、Stability.aiのビジネスモデルの怪しさがある。

AIモデルをオープンにするというのはOSとは違う所がある。
AIはコードを書くだけでは済まない。モデルを学習させる必要がある。
そして、大規模なAIモデルを学習するには、大規模な計算資源が必要であり、要するにすごいカネがかかる。

大金かけてモデルを作ったら、その金を回収できなければ明らかに持続不可能だ。
オープンソースでモデルを公開してしまえば、一体どうやって儲けるのか?

これについて、モスターク氏の考えは曖昧に見える。
「クリエイターがファインチューニングしたモデルを売買できるストアを作る」みたいな発言もあるが、そんなストアなんて別に誰だって作れてしまう。

ビジネスモデルが曖昧にもかかわらず、Stability.aiは10億ドルのバリューで資金調達したそうだ。仮に、そのバリューで10%の株を売ったとしたら、1億ドル…140億円ほどの資金を手にする事になる。

まあ、そうなれば当面、AIは学習させ放題だろう。
Stability.aiはすでにSDのバージョン2.0や3.0の学習を開始しているようだ。
とは言え、何か中身の革新が起きたというわけではないようだ。単に高解像度の画像を使ったり、データセットを増やしたり、学習時間を増やしたりしてるだけではないだろうか。

今後の予定としては、動画を生成するAIだとか、3Dやテキストなどを生成するAIも作っていく予定らしい。アニメ特化のAIも作るかのようなツイートをしていたが、どうなってるのか分からない。

さて、もしもモスターク氏がひたすら世の中をひっくり返したいだけの狂人であれば、オープンソースに殉じてとにかく資金が全部尽きるまでオープンなAIを作り続けてくれるかもしれない。

だが、単にGoogleにカウンターパンチしたいがためにポーズで「オープン最高!」なんて言ってただけだとしたら、競合他社が潰えたあたりで一気にクローズドに転換してしまう事は十分考えられる。

だって、そうじゃなきゃ儲かりようが無いように思うし。

■AI研究者

AI企業の下のレイヤーに位置するのがAI研究者だろう。

彼らはAIを基本的な理論から理解している。だから根本的な部分からSDを改善、進化させていく事が可能だろう。

例えば、こちらではSDを改造して、もっとプロンプト通りの画像を生成するようにした論文が発表されている。↓

■AIプログラマー

彼らはSDのアルゴリズムを理解していて、pytorchだか何だかを使いこなせる。

SDによる画像生成は、当初VRAM10GBのGPUが必要とされていたが、AIプログラマーによって最適化されて、今では4GBのGPUでも画像生成できるようになった。

Dreamboothもみんなに寄ってたかって改善されて、当初は30GBのVRAMを要してたが、今では12.5GBまで最適化された。

このように、AIプログラマーはSDの動作を最適化できる。

■プログラマー

AIそのものというより、その周辺で色々作ってくれているプログラマーたちがいる。

例えばWebUIは日々新機能が搭載されて非常に便利だし、WindowsのスタンドアロンGUIで動作するアプリを作ってくれる人もいる。

■トレーナー

SDを追加学習させる人達がいる。

例えばHaru氏はSDを追加学習してWaifu Diffusionを作って公開した。学習コストはたった160ドルほどだったらしいが、そのアニメ絵の品質向上には目を見張るものがある。

追加学習は、自分でコードをわちゃわちゃ書かなくても、データセットとGPUマシンさえ用意すれば誰でも出来て、手が出しやすい。結果も分かりやすくて面白い。

ビジネスにもしやすいようだ。

AIのべりすとは1920万枚の画像を追加学習させて、Trinartキャラクターズモデルを作って、課金生成サービスを始めた。これだけの数を追加学習させるには、数百万円というような大金が必要だっただろう。
それだけ学習させただけに、段違いのクオリティのアニメキャラ生成を可能にしている。

NovelAIも同様に、とにかく金をかけて、Danbooruの500万枚の画像をすべてAIに食わせて強力なAIを生み出して課金生成サービスにしようとしているようだ。

このように、AI追加学習は手軽なのはいいが、金をかければかけるほど良くなるので、資金力がある企業の勝ちになってしまう。そして、結局AI独占を生み出してしまう。そんだけ金をかけてAI作ったんだから、その金を回収できるだけ儲けようとすれば結局のところこうなるしかない。

ちなみに、Waifu Diffusionのディスコを見ていると、最近誰かがWDをフォークして改造して有料課金のSaaSサービス(Midjoruneyみたいな奴)を始めようとしているらしい。オープン志向のHaru氏に対して、それをクローズドにして儲けようとしてる人がいるという事だ。
それに対抗するために、みんなでHaru氏のトレーニング費用を援助しよう!とか、みんなのPCで分散トレーニングできる仕組みを作ろう!みたいな動きが始まっているっぽい。

Haru氏は次期バージョンのWDをトレーニングするために、相当な私費を投じてるらしい。どうしてそんな事をしているのかと言えば、”趣味”らしい。このように、オープン志向のAIは奇特な金持ちでもいてくれなければクローズドに対抗する事は困難だ。

■プロンプター

プロンプターは要するにプロンプト打って画像生成する、AIの利用者だ。

AIを使って画像を作っていると、狙い通りに生成するにはプロンプトをアレコレ工夫するハメになっていく。
そうしてプロンプトのノウハウなどが集まって、テクニックと化していく。

だが、このレイヤーはかなり最下層と言っていい。
AIモデルにちょっと変化があれば、それらのノウハウは通用しなくなり、まったく役に立たなくなるという事だ。

現在、トレーナー達によって毎日アレコレ新モデルが発表されたりしており、プロンプターのノウハウは毎日ちゃぶ台返しを食らわされているに等しい状況だろう。

■結局どうしていくべきか

このように、画像AIへのコミットの仕方にも色々あると分かる。

結局のところ、自分はどういう形で関わっていくべきだろうか。
まず、プロンプターは下層レイヤーすぎて、状況に振り回され過ぎるので微妙かなと思う。

トレーナーは面白いっちゃ面白いけど、結局は金かけられる人ほど強いだけのゲームに収束しそうだ。

じゃあAI研究者になるか?というと、そうもいかんだろう。研究者は研究する事でメシが食えるわけだが、私はそういう立場では無い。

だったらAIプログラマーやプログラマーとしてコミットするのか?といえば、そうしたとしてもそれで食えるというものでもなさそうだしな…。

結局、当面のところは”画像AIに興奮してtwitterでワチャワチャ言ってるだけの人”でい続けるしかないのかもしれない。