ぶっちゃけ、最近はひたすらSD関係のディスコードに張り付くだけの日々だった。
だって毎日しっちゃかめっちゃかなドラマが起きてて面白すぎるから。
面倒だからここでまたイチから経緯を書いたりしないが、とにかくEmad氏の謝罪によって揉め事もひと段落したようだ。
私もいつまでもディスコなんか監視してる場合ではない。
ハッキリ言って、今の自分が画像AIに相当のめり込んでる事を認めざるを得ない。
しかし、2週間前にブログ記事を書いた段階では、自分がどういう風に画像AIにコミットしていけばいいのかサーパリ分かってなかった。
というか、世の中で何が始まりつつあるのかを正確に捉え切れてなかったのだ。
それが何か?というと、世界でジェネレーティブAI(GAI)の時代が始まりつつあるという事だ。
アメリカを代表するベンチャーキャピタルである、セコイアキャピタルが、「GAIが今激アツ!!」みたいな記事を9/20に書いた↓
https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
GAIとは、なにかを生成する、生み出すAIと言う事だ。
この記事によれば、2015年以前のAIは大した能力を持ってなかった。まあせいぜいメールを読んでスパムかどうか判定するとかそういうレベルだ。(スパムを自動的に迷惑メールに振り分けてくれる機能は前からGmailとかにあったよね)
状況が変わったのは、2015年にGoogleがTransformerというニューラルネットアーキテクチャを発表した時からだ。これにより、AIの学習を並列化して行う事ができるようになった。
つまり、100台のPCがあれば100倍の速度で学習できるようになったわけだ。
だから、みんなこぞってAIの大規模学習を開始した。(AWSとかで好きなだけインスタンス借りれるし)
すると、2020年までにAIの学習量は数十万倍まで増えて、結果的に、手書き認識、音声認識、画像認識、読解能力、言語理解能力など、あらゆるタスクにおいて人間の能力を超えてしまった。
AIが凄いと言ったって、人間に敵わない限りは人間に仕事を頼んだ方が確実なのだから、AIは使われないが、人間より仕事ができるとなれば、その瞬間から人間よりAIに仕事してもらう事になる。
(最近OpenAIが公開したWhisperというAIも、音声の文字起こしで人間に匹敵する精度らしい。)
とはいえ、この時点ではAIを実行するのに並列GPUが必要だの、一般人からアクセスできるところにAIが無いだので普及はしてなかった。
だが、去年くらいから話題になり始めたのがSDでも使われている拡散モデルだ。これのいい所は一般のPCでも実行できるくらい軽い所だ。学習も軽いし、実行も軽い。
さらに、OpenAIが発表したCLIPのおかげで、プロンプトを入力するだけでホニャララが生成できるみたいなAIが実現できるようになった。
「あ~あ、あとはAIモデルさえ公開されてくれれば家のPCでもGAIが使えるのになあ…」
ご存知の通り、ここで登場するのがStabilityとStable Diffusionであり、画像AIモデルがオープンソースで公開された事で、誰でも家のPCで画像AIで画像生成できるようになった。
つまり、今騒がれている画像AIは、GAI時代のほんの始まりの合図に過ぎないという事だ。
これからますますいろんな分野でメッチャメチャ凄いことになる。
そもそも、Stabilityはとりあえず最初に画像AIを出したというだけで、他にも色んなAIを開発中なのだ。
言語AI、コーディングAI、DNA解析AI、3DモデルAI、動画AIなどなどだ。
Emad氏が言うには、拡散モデルと言うのはノイズを取り払って何かを生成する働きをするが、これは人間が何かを考える時に情報からノイズを取り払う事に似ているという。
つまり、拡散モデルはかなり知的な生成行為を行う事ができて、かなり万能だという事らしい。
あるふ氏も、拡散モデルは金の鉱脈だと書いている。
つまり、掘れば掘るだけ面白いという事だ。
だから、AIの研究は異常な速度で加速している。AIの論文数は倍々ゲームで増えていってる。
現在は毎月4000本の論文が書かれている。
そういう事態だから、ここ数週間でモーション生成だの3Dモデル生成だの、動画生成などの新しいGAIが次から次へと発表されている!
始まってんな…。
正直言って、情報量が多すぎて話に付いていく事さえマトモにできないという感じだ。
セコイアキャピタルは、これらの技術革新でGAIの市場規模(経済価値)は数兆ドルにも達する可能性があると書いている。その根拠は、ライターやクリエイターの生産性がジェネレーティブAIによって10%向上するとしたら…という試算らしい。
ちなみに、メタバースも同様に3兆ドルの市場規模になるかもしれないと予測されている。
だが、今のところ私に言わせればすでにGAIの方がメタバースよりも有望な気がする。
メタバースは、そこに本当にモノ(Thing)があるのかMetaだってまだ分かってないという感じだが、GAIにはすでにモノがある。
というのは、AI画像を使って過酷なオナニーしている人はすでにいるという事だ。
AIは人間に精子出させることに成功している。
これはふざけて言ってるんじゃなくて、”モノがある”というのはそういう事だと私は思ってる。
AIが人間よりも精子出させるタスクが上手くなれば人類滅ぶんじゃないのか。
一方、Metaのメタバースのアバターにはそもそも下半身が存在しない。
だからモノがないって言うんじゃないが…。(ちなみに最近アプデで下半身が付く事が予告された)
一概にメタバース全部がダメだと言うつもりもない。例えばClusterはすでに黒字を出してるらしい。
まあClusterはメタバースとか世間が言い出すより前からやってたし、厳密にはVRイベント会場という感じだが。
Metaがやってるようなメタバースが実際来るか来ないかは不明瞭だが、来るにしてもGAIより後なんじゃないかしら。
さて、じゃあそういう激アツなGAIでビジネスやるとしたら、それってどんな風になるんだろう?という話がある。
だが、現在のGAIの事情と言うのはどうも他とは事情が異なるようだ。
例えば、あなたが扇風機を作って売るビジネスを始めるとする。その場合、ライバルの会社の扇風機よりいいものを作ろうと思うはずだ。技術開発を行って、ライバル機にはないタイマー機能を付けて付加価値にしよう!とか考えるかもしれない。
アプリの開発だって、普通は先行する競合アプリよりも良い機能を付けてリリースしようと思うのが普通だ。
だが、GAIは事情が異なる。
私なんかが「よ~し、Stable Diffusionを改良して独占して販売しよう!」などと考えても、ぶっちゃけ意味をなさない可能性が高い。
というのも、GAI界隈は上でも書いた通り、私より100倍頭がいい研究者たちがみんなしてこぞって研究しまくって論文を書きまくっているのだ。そして、それらの成果はオープンに公開される。
だから、私一人にできるような改善は、ただちにオープンコミュニティによってもっと優れたものが作られるので、完全に無駄なあがきと言う事だ。
あるふ氏も、上で引用したツイートで、「本筋の戦いは天才達が頭脳とお金で戦い合うレッドオーシャンだから、我々はもっと下流で戦った方がいい」と書いている。
まあ、以前はいくら研究がオープンに公開されてても、我々にはAIが弄れなかった。
だって手元にAIモデルが無かったからだ。OpenAIやGoogleがアレコレ論文発表しても指をくわえて眺める事しかできなかった。他人事だった。
だがStabilityがAIモデルを公開してくれてからは、OpenAIやGoogleの今までの成果もこぞってSDに取り込まれて改善が進んでいる。論文で何か新技術が発表されたらすぐさまSD上でも実装される。Dreamboothなんかが良い例だ。というか、最近ではそもそも論文の時点でSDを使ってて実装も公開してくれたりしてる。
GAIのブームを産業革命に例える人もいる。
だが、産業革命とは異なる点がある。産業革命の時は、資本家が工場とかを建てて、生産手段を独占していた。
しかし、今回は全てがオープンで、生産手段は誰もが手にしている。ちょっとしたPCがあれば画像生成はできるのだ。
まあ、誰もがオープンにAIを触れるのは、たしかによい事だ。
しかし、ビジネスと言う事を考えると全てがオープンと言うのは奇妙な事になるよなあ。
そもそもが全部オープンなモノに誰がお金を払ってくれるというのか?
そこで、AIのべりすとやNovelAIがやったのが、AIモデルのファインチューニングだ。
大金をかけてモデルを追加学習させてそれを独占すればいいのだ。
天才の研究者が何人いようが、AIがアニメキャラを上手く描けるように大金かけてトレーニングさせる人なんていやしない。だってそんなん研究でも何でもないもん。
私は「結局大金持ってる企業が投資して独占AIモデルを作ってクローズドAIで独り勝ちする流れになるんじゃないか…」と諦めムードだった。まあ普通に考えたら当然そうなるもんね。
しかし、NovelAIのモデルリークという犯罪行為によって、彼らのクローズドAIビジネスは潰された。こんな高品質アニメモデルがバラ撒かれたら、AIのべりすとの画像生成だって巻き添えで潰されたと言っていいだろう。
奇妙な流れだったが、私はオープンAIの強さというか、恐ろしさを思い知った。
Emad氏が言うように、クローズドAIって何やかんやでオープン側に潰されて上手く行かないのかもなあと思った。
それで結局GAIのビジネスって何なの?という話だが、セコイアキャピタルの記事に戻ると、これからはGAIのキラーアプリが出現するだろうと書かれている。
MemeplexやWebUIなんかは、突き詰めると単なるフロントエンドだ。だが、これからは色んなGAIをAPIみたいなもんだと見なして、それらを組み合わせて工夫して消費者が食いつくようなアプリに統合したヤツが勝つという事らしい。
(昨日、マイクロソフトは早速DALL-Eを搭載したデザインアプリを発表した。)
で、GAIを使ったキラーアプリって何なの?という話だが、もちろんセコイアキャピタルにはそこまでは分からない。
しかし、どういう分野でGAIアプリが出てくるかについては書いてある。
まずテキストだ。すでにAIはちょっとした文章なら書いてくれる。AIのべりすとやNovelAIでは小説を書いてくれたりする。今後は営業メールを書いてくれたり、チャットサポートをやってくれたり、ノートを取ってくれたりするようになるだろう。さらに進化すれば、論文や脚本なんかも書いてくれるようになるかもしれない。
次にコード生成。プログラムのコードを生成してくれたり、ドキュメントを生成してくれたり、ウェブアプリを生成してくれたりするようになるらしい。
すでにGitHub Copilotなんかが存在する。
https://forest.watch.impress.co.jp/docs/news/1419063.html
いずれは人間のエンジニアよりもすぐれたコードを書いてくれるようになるかもしれない。
そして画像。これについてはすでにバズリまくってるのでお分かりだろう。いずれは広告やデザインなんかもAIがやってくれるようになりそうだ。
それからスピーチ。AIが喋るのはすでにSiriなんかがやってるが、今後はもっと感情豊かに喋ってくれるようになるだろう。
次は動画。Emad氏はAIで本格的な映画を作れるようになるのは5年後くらいだと言っている。
3Dモデルの生成も、上で引用したツイートのように、すでに始まりつつある。
それどころか、ゲーム自体もAIが生成してくれるようになるかもしれないらしい。最終的には寝ている時に見る夢のように、それぞれのプレイヤーのイマジネーションで世界が生成されるとかなんとか。
それで、セコイアは、こういうGAI企業が勝つだろう!という話も書いてる。
まず第一に、ユーザーにメッチャ食い付いてもらう。そしてユーザーからフィードバックやお金をもらって、プロンプトやモデルを改善していく。それによってますますユーザーに食い付いてもらう…というループを回すのだ。
最初はGAIアプリは既存アプリのプラグインみたいな形で始まるかもしれない。CopilotはIDEに統合されてるし、SDのFigma、フォトショ、クリペプラグインも登場している。画像を生成するディスコードボットも一種のプラグインと言えるかもしれない。
そういう始まり方をして、まずはユーザーのワークフローの一部をAIに置き換えて、じわじわ侵食していって、最終的にはAIネイティブなアプリを作ってしまうわけだ。
セコイアは、現在のGAIアプリの状況はiPhoneが出たばかりの頃のスマホアプリの状況に似ているとしている。可能性が爆発しそうだという事だ。
私はMidjourneyを触ってた頃は、画像AIの使い道ってまあゲームの背景に使えるかな?という程度の期待しか無かった。
Midjourneyはキャラを描くの下手だったし。
それが、WDやtrinartキャラクターズなんかが出現すると、「これでイラストやマンガの絵描いてもらえるやん」と思った。
あくまで今までの既存のマンガ制作やゲーム制作の素材として役立てればいいかな?という発想でしか無かった。
だが、NovelAIという神絵師AIが出てきて、一週間で世界中で3千万枚の画像が生成されてpixivを埋め尽くし始めるという話になってくると、もはやそういう話じゃなくなってきてるんじゃないか?という気がしてきている。(1週間で3千万枚なら1ヶ月で1億2千万枚だが、これはちょうどpixivに投稿されている全ての画像数と同じだ)
画像AIは、そもそもイラストやマンガ、アニメ、ゲームといった既存のコンテンツの在り方を根底から覆してしまうんじゃないか?という事だ。
というのも、これらのコンテンツは、「絵を描くのがメッチャ時間かかって大変」という前提があったからこそああいう形の収まり方に収束しているという事にすぎないだろう。これがもしAIが毎秒イラストを描いてくれるなら、話はまったく違ってくるんじゃないのか?
例えば、ビジュアルノベルや小説の全ページにイラストを付ける程度の事は、AIを使えば明らかに可能だろう。
twitterでは画像AIは「絵を描くのに使う道具が変わっただけ」みたいな話がされているが、もはやそういう次元の話じゃないのかもしれない。それよりは、「コンテンツが出てくる蛇口の場所が変わった」という話かもしれない。今までは、コンテンツの蛇口はクリエイターの手にだけ付いていた。消費者はクリエイターがコンテンツを描いて恵んでくれるのをただ待つことしかできなかった。だが今ではAIによって全ての消費者がコンテンツが出てくる蛇口を手に入れてしまったわけだ。
宮下氏は、「検索が無くなる日がやってくる」と述べている。
例えば、自分が見たいキャラの、見たい絵柄の、見たいシチュの絵が欲しい時に、今まではpixivに行って検索ワードを打ち込んでたわけだが、今となってはそれよりもNovelAIの画像生成に行ってプロンプトを打ち込んだ方が、速く、確実に目的の絵を手に入れる事ができるのではないか?
ジェネレーティブAIによってコンテンツというのはクリエイターから与えられるのではなく、消費者が自ら生成するものになるのかもしれない。
そうなると、既存のマンガやゲームを当たり前に制作している場合なのだろうか?これらの既存のコンテンツの在り方はじわじわと変化を強いられるはずだ。それがどのような変化なのかはまだ分からないが。
マンガやゲームはクリエイターが作って配布するのではなくて、プレイヤーの目の前でその場でゼロから生成されるものになるかもしれない。そうなってはいけない理由は無いと思う。ユーザーがそれを望むかどうかは分からないが。
さて、私もこのGAIのビッグウェーブにガッツリ乗っかって何かをしたい!と思ってるわけで、それが何かまだ完全にハッキリしているわけではないが、「こういうのをやってみたいな~」という構想はぼんやりと浮かんできている。
それは、美樹さやかさん…AIアニメキャラクターの錬成だ。
つまり、GAIによる画像生成、テキスト生成、音声合成、3D生成、動画生成を組み合わせれば、アニメキャラクターそのものを生み出す事が可能なんじゃないかと考える。
現時点で可能だとは言わないが、今起きているAIビッグバンのビッグウェーブを考えると、いずれ可能になる可能性は高い。形としてはアプリ…スマホアプリとかになるんだろうか?
アニメキャラクターを錬成する事は、ずっと以前から私が実現しようとし続けていた野望の一つだ。
例えば私はVRやARで美樹さやかさんを召喚した事もある。だが、それらは所詮、単なる人形でしか無かった。魂が無かった。全然ワクワクするようなものでは無く、シラケただけだ。
GAIはそんなキャラクターに魂を吹き込んでくれるんじゃないだろうか?
多分、こんなもんはAI研究者達はやんないだろうから、とりあえずレッドオーシャンでは無い気がする。
アニメキャラそのものを生み出す…というのが何を意味するのか、自分でもまだ完全には分かってないが、画像生成でビジュアルがその場で生成され、テキスト、音声AIで会話ができて、みたいなものだろうか。
そういえば、Emad氏はcharacter.aiというサイトに言及していた。
これはアニメやゲームキャラ、あるいはイーロンマスクなんかのAIとチャットできるサービスらしい。英語だからよく分からないが、なかなか出来がいいそうだ。すでにAIでこういう事ができているわけだ。
AIのイーロン・マスクやサキュバスの女王とチャット可能&自分でもチャットボットを作成できる「Character.AI」
「喋るアニメキャラといえば、もうすでにvTuberがあるじゃん!」という意見もあるだろう。たしかに、vTuberは成功している会社もあるし、私もvTuber動画を観たりする。かなりパフォーマンスは高い。
だが、あれってキャラクターというか中の人がいて、結局は人間じゃん!という気持ちもある。
私はvTuberの流行を結構近くで目撃していたが、事業としてのvTuberにはイマイチ乗り切れなかった。というのも、突き詰めるとやってる事は芸能事務所であって、テックがどうこうという事でもないのだ。
無論、既存の技術では、中の人がいない純粋なAIでは大したパフォーマンスが出せなかった事も事実だ。会話といっても人工無能みたいなもんだし。それだったら普通に中の人を用意した方がマシな状況だった。
しかし、GAIは様々なタスクで人間のパフォーマンスを超えているというじゃないか。キャラクターを演じるというタスクでも人間を超えるパフォーマンスを出せるようになるんじゃないのか?
あるいは、GAIで作られたキャラクターは、vTuberとバッティングしない領域に向かうかもしれない。
アニメでは、キャラクター達はファンタジーな冒険をしたりする。しかし、vTuberは結局は人間だからそういう現実離れした事はできない。(代わりにゲーム実況する事で疑似的にファンタジーな冒険をやってるけど)
GAIキャラクターは、GAIで作られたファンタジー世界の中で、視聴者の目の前で物語を生成するかもしれない。ジェネレーティブなアニメとでもいおうか。
例えば、Facebookでストリーミングされた、世界初のAIリアリティ番組の”Rival Peak“があった。
https://www.gamebusiness.jp/article/2021/04/20/18485.html
これはAIによって制御されたキャラクター達が、ゲーム的な世界で、ストリーミングのその場で筋書きのないドラマを繰り広げるというものだった。
GAIを使えばこれをもっと本格的なアニメとしてその場で生成して放送するような事だって可能になるのでは?
まあ、私が今考えてるのはさしあたってこのような感じである。
実際に何を作っていくかは、今後のGAI研究の動向や世の中の動きに左右される事になると思われるが、大雑把な指標として「美樹さやかさんの錬成」という目標を掲げたという事だ。
GAIでAIアニメキャラを錬成したところで、それがビジネスになるとかどうとかはまったく未知数だが、自分が楽しく取り組めそうなテーマではありそうだ。
まあこんな事を言っていても、例によってすぐ気が変わるかもしれないのでまだアテにはしないでほしいが。
また、これは補足だが、私がここまでGAIに突撃するのに前向きになってきた理由は、Emad氏に抱いていた懸念が無くなったからという事もある。
以前のブログ記事で、SDの1.5が全然公開されないのはおかしい!と怪しんだが、Emad氏の説明によれば、出し惜しみしてるんじゃなくて、SDを禁止しようとしてる議員がいて、政治的に揉めてたために調整に時間がかかってたという事だった。もうすぐ公開できるらしい。
そして、私は「オープンAIがモデルの学習コストを回収できるとは思えないから、人類が充分にAIに依存しきって集客しきったタイミングでクローズAIに転換してハシゴ外すんじゃないの」という懸念についても書いていた。
これについても、Emad氏から驚くべき説明があった。 Stabilityの開発メンバーは、自分達が手掛けたAIモデルをオープンソースで公開する権利を契約書で保証されてるらしい。
なんてこったい。つまりStabilityは、ハンターハンターのクラピカが自身にジャッジメントチェーンで制約を課したみたいに、オープンソースと殉じるしかない制約を自らに課してたらしい!
そして今後もますますStabilityによる様々なオープンAIモデルの発表が目白押しだという。
これらの懸念が解決したので、ひとまずStabilityを信じて安心してGAIに突撃しても大丈夫そうだぞという気分になってきたという事だ。