最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。

ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。
オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。
OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。

だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。

GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題

まず「結局GPTのAPIを叩いてサービス運営して成功してる企業なんて存在しねえじゃねえか」という状況がバレてきている。何故そんな事になってしまうのか?というと、APIの料金に比べてChatGPT Plusの料金が安すぎるという問題がある。ChatGPT Plusなら月額3千円払うだけでGPT-4Tがたっぷり使えてしまう。もしもAPIで同じような使い方したら軽く数万円かかってしまいかねない。断然ChatGPTに課金した方がオトクだ。必然的に、API叩いてサービス運営する企業はChatGPTよりも高くてしょぼいサービスしか提供できず、最初から負け確定の戦いを強いられている。
それから、OpenAIみずからChatGPTに便利な機能を実装しまくっていて、同様の機能を提供していた他のAIベンチャーなんかを皆殺しにしまくっているという問題も極めて大きい。ちょっと考えて思い付くようなAPI使ったサービス、例えば簡単に論文をAIに要約させれるようなサービス、そんなのはChatGPTのGPTsとして山ほど提供されている。さらに、API料金のコストがのしかかるAIベンチャーに対して、GPTsの作者は1円も支払う事なく自分独自のAIチャットボットを公開する事ができている。

結局、GPTのAPIはコスパが悪い。いやまあ、GPT-4じゃなくてGPT-3.5Tならかなり安いけど、今となってはしょぼくて使う気になれない。そんなだから、OpenAIのAPIよりもオープンなモデルに目を向けてみようかという動きも出てきてるわけだ。

それでローカルLLMの話になるのだが、ちなみにローカルLLM関係の最新情報を追いたければRedditのLocalLlamaというサブレディットをウォッチするのが一番手っ取り早い。

ローカルLLM推論ライブラリが色々ある

最近はローカルでLLMを推論するためのライブラリも充実してきている。当初は本家のTransformerしかなかったのだが、Transformerで素で推論させるとパラメータあたり2バイトのVRAMを消費してしまう。7Bモデルなら14GB以上。かなりハードルが高かった。load_in_4bitオプションを使えば4GBくらいの消費に抑えられるが、推論精度も下がってしまう。

ローカルLLM推論ライブラリでデファクトスタンダードと化してるのがLlama.cppだろう。PyTorchで実装されてるTransformerに対してLlama.cppはC++で実装されており、高速化されている。当初はもっぱらMacでCPU推論するためのライブラリだったが、最近ではGPUサポート、Cudaサポートも入っており、GPUによる超高速推論が可能になっている。常に最先端の量子化手法を取り入れており、4bitくらいまで量子化しても性能の劣化はほぼ無い。モデルの一部のレイヤーをVRAMに、残りのレイヤーをメインメモリに置いて、GPUとCPUで分担して推論させる事なんかもできる。これによりGPUによる推論高速化の恩恵は受けつつ、VRAMに収まらない大型のモデルも推論させる事が可能だ(まあチャットできるような速度はでないがちだ。私のPCでLlama3-70Bの5bit量子化モデルを推論させるとせいぜい1tpsくらいの速度しか出ない。リアルタイムにチャットしたいなら最低限4tpsくらいの速度が出ないとキビシイ) PythonプログラムからLlama.cppを使うならサーバアプリがあるのでそれを起動して叩くのが簡単だろう。チャットしたいだけならLlama.cppからフォークされたKobold.cppが扱いやすい。

ollamaというのもある。これはバックエンドはLlama.cppなのだがなんも知識がないエンドユーザ向けに使いやすくラップしているというブツだ。インストーラでインストールすればコマンド一発でモデルDLしてきてただちにチャットできるし、ローカルサーバも簡単に立ち上がる。例えばObsidianというメモアプリのCopilotプラグインではOllamaサーバを叩く事でローカルLLMサポートを実現してる。面倒なバックエンドの諸々はollamaに吸収してもらえるわけだ。ollamaはエンドユーザ向けの割にWindowsがサポートされてないのがダルくてスルーしてたのだが、最近Windows版がプレビューで公開されており、試してみたらまあ普通に使えるようだ。

さらに、vLLMという推論ライブラリはサーバにAIモデルをデプロイして実際にサービスに使う事を念頭に置いて設計されてるらしい。プロ向けのライブラリといった所か。CUDAで動作するのだが、WindowsやMacはサポートされてない。Linuxだけだ。Windowsから使いたければWSLが必要になる。vLLMはレイテンシ的には特にLlama.cppよりも優れてるというものでも無いようなので、単にチャットするだけなら別にLlama.cppで十分だろうが、vLLMが本領を発揮するのはバッチ推論においてである。バッチ推論とはつまり大量のプロンプトをまとめて投げつけて、まとめて処理する事だ。まとめて推論できるので一個一個チマチマ推論するより当然効率的になる。vLLMではページドアテンションという仕組みでバッチ推論をものすごく効率化している。実際試してみたところ、60個くらいのプロンプトをまとめて投げると8Bモデルで1000tpsくらいの物凄い爆速のスループットが出る事もあった。Llama.cppではせいぜい100tpsくらいしか出ないのでその速度の差は圧倒的である。

強力な大型オープンなAIモデルが公開されはじめてる

オープンなAIモデルはGPT-4なんかにはかなり性能で後れを取っていたが、じわじわと追い付き始めている。OpenAIはGPT-4を出して以来、GPT-4TやGPT-4oなんかで改善はされてるものの、大幅な進化は起きていない。ナンバリングが全く増えないのはOpenAI自身も自分達が足踏みして進歩できてない事を自覚してる表れだろう。

そうこうしてる内に、オープンなAI側ではCommand R+(非商用利用)やLlama3-70Bのような、GPT-3.5Tはすでに超えてしまって、GPT-4と比較できるレベルのモデルがオープンで公開されてきている。他にも総パラメータ数が236B、推論時活性化パラ数が21Bの巨大なMoEモデルであるDeepSeek-V2や、これまた総パラ数が480B、推論時活性化パラ数が17Bの巨大MoEモデルのSnowflake-Arctic、ゼロから日本語で学習されてるStockmark-100Bのようなモデルも公開されてきている。

「だったら、それらのオープンな大型モデルを手元で動かしてしまえば、ChatGPTに課金しなくてもAPIに課金しなくてもタダでAI使い放題じゃん!」という考え方が出てきていて、これがローカルLLMがアツいと言われる一つ目の流れだろう。

しかし、そんな風にローカルLLMがアツくなってくると、逆に話が難しくなってくるのが、どんな風にローカルLLMを動作させる環境を用意するのがいいのか?という話だ。メタのような大企業は何も考えずにNVidiaの最上級サーバ向けGPUであるH100を爆買いしているが、500万円のH100なんて個人には手が出ない。
104BのCommand R+を動かすには、4bit量子化したとしても60GBくらいのVRAMが必要だろうし、70BのLlama3を動かすのも、40GBくらいのVRAMが必要になる。
一方でコンシューマ向けの最上位GPUのRTX4090でもVRAMは24GBしか積んでない。全然足りない。

だったらどうするか?というと、GPUを複数枚刺しするという手がある。

例えば、oshizoさんは中古のRTX3090を3枚刺しにしてVRAM72GBを確保している。

中古のRTX3090は10万円くらいなので、3枚で30万くらいだ。割とコスパよくVRAMを確保できていると分かる。H100はVRAM80GBで500万である。

しかし、GPU3枚積みはさすがに電気代がバカにならなくなってくるらしい。

oshizoさんによれば3枚のGPUをぶん回すと電気代が1日390円、一ヶ月間で1万4千円くらいかかるという。ちなみにクラウドのRunpodあたりでA100を1枚借りると1時間で2.29ドル、350円くらいかかる。1日で8千円、一ヶ月で25万円くらいかかる。

KohyaさんはRTX A6000を2枚積みに加えてRTX3090も積んでる。A6000はVRAM48GB積んでるが、値段は価格コムによると66万円くらいする。合計で120GBものVRAMを確保できてる。

AIサトシさんはRTX4090が2枚積みのマシンとRTX3090が2枚積みのマシンでGPUクラスタを構築している。

自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!|AIサトシ (note.com)

LLMはクラスタで分散学習させる事は可能だが、推論はどうするのか?というと、vLLMが複数台クラスタでの推論をサポートしてるらしい。つまり、VRAM合計48GBのマシン2台をVRAM合計96GBのマシンと同様に扱えるという事だ。

こんな感じで、最近ではAI界隈ではVRAMのインフレが起きている。何故かというとやっぱりCommand R+のようなモデルをローカルで推論するにはそれだけのVRAMが実際に必要になってきたからだ。
もう一つの理由として、今まではNVidiaのGPU買っても後でもっといいデバイスが出ちゃったら損だよねという懸念があったかもしれない。何となくどっかからすぐにでも強力なAIチップが発売されそうな空気も無くは無かったからだ。だが、実際に出てきてるのはせいぜいがGroqが発売したLPUのような推論ユニットだ。これは1枚が2万ドルするのだが、それを576台でクラスタ組めばLLMが爆速推論できますよ…みたいな話である。大企業なら検討できるかもしれないが、個人には全く縁のない話だ。そんなわけで、個人レベルなら結局は今後数年間は素直にNVidiaのGPU買っとくのが正解っぽくなってきたのが最近のGPU爆積みラッシュに繋がってるのではないかと思う。AMDも思ったよりNVidiaに付いてこれてないし、NVidiaの安泰はしばらく続きそうだ。

私はRTX4090を1枚しか積んでないのでVRAMは24GBしかない。これから先LLMで色々遊ぶことを考えるとやはりもう一枚中古のRTX3090あたりを積み増して、VRAM48GBくらいは欲しいところだなとは思うものの、ケースを開けてみたらもう1枚GPUを積めるスペースなんてどこにもなかった。

一応x16幅のPCIEスロットはもう一つあるのだが、RTX4090が完全にスロットを塞いでしまってる。

どうしてもGPUを増やすなら、ライザーケーブルとかいうのでPCIEスロットを延長して2枚目のGPUを繋ぐしかないだろう。ケースには収まらないので横に倒してしまって、内臓むき出しの状態でOshizoさんみたいに2枚目のGPUは棚かなんかに載せるしかないだろう。
私は今までGPU2枚積みとかライザーケーブルとか扱った事が無いので、いきなりRTX3090買ってしまって失敗したらイヤだ。考えてるのはまずライザーケーブルだけ買って、とりま手元に転がってるGTX1080を刺して実験して、それが上手く動作したらあらためてRTX3090買って刺すのがいいかもしれない。

そんな風にGPU爆盛り合戦が流行ってる一方で、「実はMacがLLM推論コスパいいんじゃね?」という話も出てきている。

しげぽんさんがメモリ192GB積んだM2Ultraでテストしたところ、4bit量子化のCommand R+の推論が、NVidia GPUのA6000+RTX3090環境では9.5tpsだったところ、M2Ultraは9.9tpsで抜いてしまったらしい。

2枚のGPUをぶん回すPCよりもM2Ultraの方が省電力だろう。とはいえメモリを192GB積んだM2Ultraは100万円くらいする。A6000+RTX3090のPCと値段自体は同じくらいだろう。

MacのGPU自体はそこまで大した性能ではない。じゃあなんでこんなに推論速度が速いの?というと、LLMの推論というのは実は演算性能よりもメモリ帯域幅がモノを言うらしい。
Macのメモリはチップに直結されてるユニファイドメモリだから帯域幅が爆速で800GB/sもある。GPUのVRAMの帯域幅も爆速で、RTX4090では1008GB/sもある。これが推論速度に効いている。一方、私のPCのメインメモリなんて25.6GB/s、デュアルチャネルでも51.2GB/sしか出ない。全然遅い。だからCPUの推論も全然遅くなってしまうわけだ。

てなわけで、MacがローカルLLMでコスパいい説はそういう話だ。メモリ192GBのM2Ultraは100万円くらいだが、NVidiaのGPUでVRAM192GBを確保しようとすれば例えばA6000が4枚必要になる。250万円くらいしてしまうだろう。

ちなみにデルのRTX6000 Adaが4枚積みされたワークステーションが294万円で買えてしまう時期があったという記事がある↓

RTX 6000 Ada世代を4枚買うより186万円安い、Dellのワークステーション – PC Watch (impress.co.jp)

しかし、Macを買ってまでローカルでLLM推論する事がコスパがいい、などという話には正直言って疑問の余地があると私は思う。
というのは、例えば64万円くらいのM3MaxのMacでは、Llama3-70Bモデルの推論速度は24tpsくらいらしい。これは丸1日ブッ通しで出力させ続けても207万トークンしか出力できない。
Llama3-70BのAPI料金は入力1Mあたり0.59ドル、出力1Mあたり0.79ドルというかなりの激安で提供されている。207万トークン出力させるのに300円くらいしかかからない。
つまり、APIに対してMacでのローカル推論で元が取れるまでには6年間くらいブッ通しで推論させ続ける必要がある。しかも電気代は含めてない。それってコスパいいんだろうか?

Macのコスパが向上する余地があるとすれば、高速バッチ推論を使えばスループットが数倍に跳ね上がる可能性があるかもしれない。とはいえvLLMはMacに対応していない。じゃあMacにLinuxインスコすればvLLM使えるのでは?と思うかもしれないが、そもそもMacのGPUに対応してないのだ。

さらに言えば、Gemini1.5FlashなんかはLlama3-70Bよりも断然賢く、そしてAPI料金も安い。(入力1Mあたり0.35ドル、出力1Mあたり0.53ドル)

まあ、推論能力だけ見ればMac買うよりAPI使った方がいいかもしれないとは言え、Macには普通に高性能なコンピュータとして仕事とかに使えるという利点がある事も忘れてはならない。

しかし、Command R+で推論がしたければCohereのAPIが一カ月当たり1000回まで無料で叩けてしまうので、普段使い程度の量ならそれで十分なのではないだろうか。それで足りなければ、Gemini1.5Flashなんて1日1500回も無料で叩けてしまう。普段使いでは使い切るのも難しい量だ。

こうなってしまうとそもそも論としてローカルLLMがアツいなんて話自体怪しいかもしれない。

だが、コスパだけの問題じゃなく、ローカルLLMにはクラウドよりも安心感があるという意見もある。

新さんの記事では”ローカルLLMの最大の魅力は、「自分の生成データが外部からチェックされない」という圧倒的な安心感”だと書かれている。↓

たしかに回数制限を気にせずにチャットできたり、回答を拒否されなかったり、会話の内容をAI企業に監視されずに済むのはローカルLLMの魅力だろう。
とは言えAIと自由にチャットしたいがために66万円でA6000買う事が値段に見合うのか?というのは人によるかもしれない。新さんは元からA6000積んでただろうからいいだろうけど。

あと、Macは推論は速いけど、プロンプトが長くなるとプロンプト評価の待ち時間(つまり出力が始まるまでの時間)がNVidiaのGPUよりも大分長くなるらしいという点にも触れておく。

それから、Macは推論はNVidiaのGPUよりも速いかもしれなくとも、微調整や追加学習などの学習の速度についてはNVidiaのGPUよりかなり弱いらしく、学習用途には向いていない。

で、結局ローカルLLMやりたい場合にどれを買うのが鉄板なんですか?というと一概にどれが鉄板とは言えなくて、かなりチョイスが難しい状況だと言わざるを得ない。今後どうなるかも不透明な面が大きい。例えばM4のMacは最大512GBのメモリを搭載できるなんて噂もある。だとしたら今買うよりそれが出るのを待つべきか?とは言え所詮は信ぴょう性のないウワサに過ぎない。冷静に考えると512GBもメモリ積むか?そんなスペースがチップにあるのか?という気もする。

判断基準としては、推論と学習の両方やりたければNVidiaのGPUを買う一択だろう。じゃあ推論したいだけならMac買う方がいいのか?というと、それも微妙な情勢かもしれない。そもそも、タダで推論したいだけなら大抵の人にとってはCommand R+やGemini1.5Flashの無料API枠を叩いとけば十分な状況かもしれない。現状ではローカルLLMよりもGemini1.5Flashの方が多分性能高いのだから。
単にMacが好きな人とか、とてもAPIになんて入力できないような話題をAIとチャットしたい!というような人ならまあMac買う選択肢も出てくるかもしれない。例えばエッチな話題に対応したそれなりに賢いモデルでどうしてもエロチャしたいとなれば、ChatGPTやClaudeはそんな話題させてくれないし、そんなモデルのAPIなんてホスティングされないのだから、有志が公開してるLlama3-70Bから派生したエロ対応モデルやCommand R+をDLしてきて自前でローカルで動かすしかないのだからじゃあ100万払ってMacで…という選択肢も出てくるかもしれない。

しかしそれもまた判断が難しい情勢なのは、最近になってOpenAIのCEOであるサム氏が「ChatGPTでエロOKにしたい」などと言い出してる。ChatGPTでエロチャできるようになるなら、苦労してVRAMマシマシPC組んでローカルLLMで頑張る必要なんてあるのか?多くの人にとってローカルLLMのアドバンテージが大きく失われる話かもしれない。とは言え、ChatGPTでエロチャできるようになるなんて本当に実現するかどうか分からないが。

小型のAIモデルの性能向上の潮流

ローカルLLMがアツい説は、GPT-4に近いレベルの大型モデルが公開されてきてるという以外にもう一つの流れも存在する。

それは主にMistral-7Bベースの小型派生モデルの著しい性能向上の流れである。

ChatVector操作で作られたLightChatAssistantが登場してから、Japanese-Starling-ChatVが登場する流れ、それから私も進化的マージでElyzaTasks100のスコアが3.57に達するモデルを作った話は過去の記事で書いた。

あれからも状況の進展は素早く、LocalNovelLLM-projectが発表したVecteus-v1は手元で評価したところ、ElyzaTasks100のスコアが3.74に達した!

さらに高校生のHoly-foxさんが発表したArrowPro-KUJIRAに至っては、ElyzaTasks100のスコアが3.8に達している!

スコア3.8というのは、例えばCommand R+がスコア3.83、GeminiProがスコア3.85であり、これら大型モデルでしか到達し得ない”神々の領域”と私は呼んでたのだが、こんな風に7Bモデルであっさり到達してしまうとは仰天した。

Holy-foxさんによれば、ChatNTQモデルをベースに何十ものモデルをChatVectorとして足し合わせまくってる内に偶然見つかったという事らしい。
Holy-foxさんのPCは、CPUはRyzen 7 5700X、GPUはRTX4060Ti16GBであり、この記事の前半で登場したような大袈裟なスペックではなく、まあ普通のミドルレンジのゲーミングPCといったところだ。20万円くらいあれば組めそうだ。

そんな環境でどうして高性能なモデルが作れたのか?これまではLLMの性能を上げようと思ったら膨大な金をかけて追加学習、微調整するしかないと思われていた。しかしこれまでの記事でも書いてきた通り、ChatVectorの操作や進化的マージには学習が必要無い。だから学習にはVRAMが全然不足していてせいぜい推論しかできないPCでもChatVector操作の試行錯誤は十分にできる。

とは言えまさかこんなにあっさりと7Bモデルがスコア3.8に達するとは半年前(ELYZA-japanese-Llama-2-7bあたりが出てた頃)には誰も想像してなかったのではないか?相当賢いモデルでなければこんなスコアは出せない。
小型モデルの日本語性能の爆上がりはちょっとしたダークホースだろう。

個人でもAI開発競争に食い込める可能性について

しかし、考えてみると面白いのが、今回のような流れがAI企業や研究所、大学などではなく、むしろ有志の個人たちのあいだで起きているという点だ。これはStableDiffusionが有志たちの間で微調整、マージが繰り返されてどんどん性能を上げていった流れに似ていると思う。
私は以前はAIを作る側なんかに回っても、世界中の天才研究者がこぞってAI研究してる環境なんだから天才達に勝てるわけがないし意味無いのでは?と思わなくもなった。しかし、よくよく見ていると研究者という人達は自分の成果物にあまりこだわらない傾向があるようだ。作られたモデルや成果物はあくまで論文を書くための副産物であり、論文さえ書き上げたらハイ終わり、じゃあ次って切り替えてしまう。切り替えが早いというか、飽きてポイしがちというか。研究者が上げてくれたコードもメンテはされないがちだ。

例えばlllyasviel氏はSD1.5で極めて高品質なControlNetモデルを沢山出してくれたが、一旦ControlNetの論文を出してしまうともう興味は他に移ってしまい、SDXL版のControlNetは作ってくれない。仕方ないので有志達がSDXL版のControlNetを色々作ってくれている。
ChatVector論文の著者も、ChatVectorのポテンシャルが極めて大きいにもかかわらず、論文さえ出したらもう深掘りはしていない。他の研究者達もChatVectorの深掘りはしない。既存の手法の深掘りをしたって新しい論文が書けるわけではないからだ。

つまり、AI研究者とAIモデルを改造してる有志との間にはかなりモチベーションの違いがあるようだ。案外そこに食い込める余地があるのかもしれない。

まず、大前提としてローカルで動かす小型モデルなんかよりも、GPT-4やClaude3Opusの方が全面的に性能が高いのだから、基本はそっちを使っとけばいいだろう。
それにも拘らずローカルLLMモデルを作りたい…という人達はよっぽどなにか切迫した目的意識を持ってやっているケースが多い。

例えば5ちゃんの某スレから生まれたLightChatAssistantはキャラチャ、エロチャがメイン目的のモデルだろう。ChatGPTはエロチャしてくれないからだ。

Vecteus-V1を公開したLocalNovelLLM-projectは、ローカルでもAIのべりすとみたいにストーリーを書かせるAIが使いたい!という目的がある。ChatGPTでもまあストーリーは書かせられるが、残酷なシーンや犯罪シーンなんかは書くのを拒否したりしてくる。これはバカバカしい。ストーリーというのは例えば平和の大切さがテーマなら、アンチテーゼとして残酷な戦争を書いてみせるのが有効なのに、それを拒否されては困る。とは言え、犯罪者が「犯罪小説を書くから空き巣の方法を詳しく教えて」とか入力すれば素直に答えてしまうようではそれもまた困るのでしょうがない。

Holy-foxさんはArrowPro-KUJIRAをAITuber用に作ったという。AITuberというのは配信中に割とどうでもいい会話を延々と繰り広げる必要がある。GPT-4のAPIをバックエンドにしていては、むやみにAPI料金が嵩んでしまってしんどいだろう。かならずしも賢さが必要でない会話も多いし、GPT-4みたいな賢いモデルなら必ずしも配信が面白くなるというわけでもない。

じゃあ私はなんで小型ローカルLLM作りに興味持ってるのか?といえば、それはやっぱりゲームへの組み込み用途である。SteamでAI使用がOKになった後も、実際にGPTのAPIなんかを組み込んでるゲームがリリースされる事は少ない。というのも、そんな事したらやっぱりAPI料金が嵩んでしまってしゃーないし、下手するとAPIキーが割られてしまうリスクもある。(だからAPIの踏み台サーバを立てる必要がある)そんなリスクを負うよりは、小型ローカルLLMを組み込んでしまった方が早いかもしれない。7BモデルならVRAMは5GB程度の消費で済む。VRAM8GB程度あるミドルレンジのグラボで十分に動作する。小型ローカルLLMは組み込み用途で普及圏内に入りつつあるのだ。

スケールメリット

現在、様々なLLMが次から次へとオープンで公開されている状況である。私は「何でみんなモデルをオープンにしちゃうんだろう?自分だけで独占しちゃう方がアドなのでは?」と思ったりしていた。
オープンで公開する理由の一つは研究の成果物は公開するのが当たり前という事があるだろう。だが研究者でない個人でもこぞって自分の作ったモデルを公開している。それは何故か?

自分で進化的マージでモデルを作ってみて分かったのだが、作ったモデルは公開したくてしゃーなくなってくる。自分が作ったすごいモデルをコッソリ隠して自分だけ使う…なんてのはむなしい。隠したところでどうなる?所詮はChatGPTには負けてるモデルなのに。
それよりは公開しちゃって世界中で使ってもらう方が、功利主義的に考えて世界の効用が最大化される。つまりみんな嬉しい。

思うに、これからは計算資源をスケールさせる事ができるひとに計算資源がどんどん回ってくる世界になっていく気がする。お金の運用が上手い人にお金がどんどん回ってくるのと同じである。
例えばHoly-foxさんはMetaDataLabからGPUの提供を受ける事ができた。

そうして考えると、NVidiaのGPUを買ってモデルを追加学習して公開するのはスケールメリットのありそうな考え方である一方、推論しか能がないMacを買って、「自分だけが快適にLLM推論できて嬉しい」なんてのはあんまりスケールしない考え方かもしれない。

ただし、学習無しで推論だけでもスケールさせる方法もある。例えばはちさんはMixtral8x22Bを使って日本語の合成データを作って命令チューニング用のデータを作って公開してくれている。まあはちさんはMistralのAPIを叩いて作っててローカルでやってるわけではないが。

それから私が今考えるにMacのポテンシャルが最大限発揮されるのは、実は進化的マージにおいてではないだろうかと思う。

進化的マージでは推論さえできれば学習無しでモデルの性能を上げられる。VRAM24GBのGPUではせいぜい7Bモデルを進化させるのが精いっぱいだが、メモリ192GBのM2Ultraなら多分Llama3-70Bでも進化的マージさせる事は可能な気がする。まあ、Mistral-7Bベースに比べてLlama3-70Bの派生モデルはまだバリエーションに乏しいという問題はあるだろうが。

今回の記事はこれで終わりだが、最後に断っておくが今回の記事の内容は他人のツイートや記事、感想を鵜呑みにしてエアプで書いてる部分も大きい。この記事を見てM2UltraやらA6000を買ったのに、実際使ってみたら話が違う!などと言われても責任は負えない。やるなら人柱覚悟でどうぞ。