前回の記事の続きです。

前回の記事で、Command R+(CR+)のようなモデルはまあ4bit程度までは量子化しても実用的に問題なさそうだという事が分かった。

では、今回はいよいよローカルのCR+でElyzaTasks100の採点をさせまくろう!と言いたいところだが、だがちょっと待ってほしい。
…実は、あの後「もしかしたらCR+よりもLlama3-70Bの方が日本語能力高かったりして…」と考えて、LLama3の8Bモデルと70BモデルにElyzaTasks100を解かせていつも通りCR+に自動評価させてみた。

その結果がこれである。

な、なんと、Llama3-70BはCommand R+を上回るスコアを獲得している!つまり、Llama3-70Bの日本語での能力はCommand R+を上回ってる可能性が高い!

Llama3をHuggingChatで触った時、なんか日本語で訊いても英語で返ってきたりするから、てっきり日本語が弱いと思っていたが、「You must answer all responses in Japanese.あなたは役に立つ誠実な日本人のアシスタントです。あなたは全ての回答に日本語で答えなければならない。」というような感じでシステムプロンプトで日本語で返す事を強制すれば、大体日本語でちゃんと返してくれるようになる。まあそれでも8Bモデルは時々英語で返しちゃったりする事もあるが。

上のグラフの評価の詳細は以下のスプレッドシートを参照。

https://docs.google.com/spreadsheets/d/1hdVvlDNS9lDF7XBlJStb_IDss9iPSzgDP4QmNKNq37Q/edit?usp=sharing

ちなみに(参考)と書いてるモデルについては、ELYZAの評価スプレッドシートから人力で評価した結果から引っ張ってきた。つまり私がCommand R+に自動評価させた結果とは条件が異なるわけだから、あんま参考にはならないかもしれない。

そういうわけで、Command R+よりもLlama3-70Bの方が優秀らしいと分かった以上は、ローカルで採点をやらせるモデルもLlama3-70Bの方を採用する事にする。(ちなみに今回は5bitのQ5_K_M量子化モデルを使った)

じゃあ本題に入る。ローカルでElyzaTask100を採点させるといっても、難しい話ではない。前々回の記事で書いたような、GPT-4やCommand R+のAPIを叩いて採点させていた部分のスクリプトをローカルのLlama.cppのサーバーAPIを叩くように書き換えるだけである。無論、Llama.cppサーバーにLlama3-70Bモデルをロードして起動しておく。

今回のコードについては記事の最後に載せておく。

しかし、なんの工夫もなくローカルLlama3-70Bに採点させると、私の環境ではかなり時間がかかってしまう。104BのCR+からLlama3-70Bに乗り換えた事で、パラ数が減ったのは嬉しいが、それでもQ4_K_Mの4bit量子化モデルでもまだ42.5GBもあるので、私のRTX4090のVRAM24GBには乗り切らない。すると、推論は1tps程度のトロイ速度しか出せない。これでは真面目にElyzaTasks100問を採点させると143分…2時間半くらいかかってしまう。

一方、RTX3090を3枚積みにしてVRAM72GB環境を構築してるoshizoさんのような環境では、VRAMにモデル全部載りきるので高速に推論できる。4bitのCR+によるElyzaTasks100の評価がたったの15分程度で完了してしまうという。

この如何ともしがたい計算資源格差を何とか埋める方法はないか?と思って色々考えた結果、以下のような工夫を盛り込む事にした。

①講評無しで点数だけ出力させる
②KVキャッシュを駆使する
③3回出力させて平均を取る
④グラマー(文法)で回答に制約を付ける

①から説明していく。

①講評無しで点数だけ出力させる

私の環境(2時間半)とoshizoさんの環境(15分)でどうしてここまで評価時間に差が付いたのか?それは、推論速度が全然違うんだから当然である。私の環境では1tps、oshizoさん環境では12.5tps。10倍以上の格差がある。

だったら、推論しなければ差は付かない。

何言ってんだと思うかもしれないが、まあ待ってほしい。GPT-4によるElyzaTasks100の自動評価スクリプトでは、GPT-4に点数とその理由(講評)をjsonとして出力させている。

Northern-System-Service/gpt4-autoeval: GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト (github.com)

たしかに講評も出してくれた方が、AIが何故その点数を付けたのか納得できて嬉しい。とは言え、ぶっちゃけ評価するだけなら講評は無くても点数は付けられる。だから、プロンプトテンプレート(prompt_eval.txt)を以下のようにして、講評無しで点数だけを数字で出力させるようにする。

LLMの出力文字数指定(n_predict)も1にしてしまって、強制的に1文字しか出せなくしておく。
いくら推論速度が1tpsしかなくてトロくても、逆に言えば1文字出すだけなら1秒で済む!

とは言え、推論の前にプロンプト評価の時間も必要だから、本当に1秒で済むわけではない。むしろプロンプト評価の方が10秒くらい待たされたりして、もはや推論自体よりもそっちの方がボトルネックになる。

まあこのような工夫により、評価にかかる時間は143分から10分程度に劇的に短縮される!すでにoshizoさん環境より速い!(いやまあoshizoさんが同じ手法をやればもっと速くなっちゃうんだけど)

②KVキャッシュを駆使する

APIなどでは使えない、ローカル特有の便利機能がKVキャッシュだ。
KVキャッシュって何?というと、以前にツイートで説明したのでそれを引き写す。

まずKVキャッシュとは何か?というと、LLMの入力プロンプトのkey,valueをキャッシュする仕組み。LLMの推論が始まる前に入力プロンプトを処理してkeyとvalueを生成するわけだけど、毎回同じプロンプトだったりした場合、毎回同じ処理かけるのは時間の無駄だから、keyとvalueを保存しておいて使い回した方がいい。それがKVキャッシュ。 チャットボットだとそれまでの対話にプロンプトが追加される形だが、この場合もそれまでの対話の分はKVキャッシュが使い回されるので、プロンプト処理は追加プロンプト分だけで済む。 で、Llama .cppにもそういうKVキャッシュの仕組みがある。とは言え、直近のプロンプトしかキャッシュされない。チャットのセッションを切り替えて別の対話を再開したら、キャッシュ効かなくてイチからプロンプト処理するハメになる。だからKVキャッシュを自由にセーブ、ロードできる仕組みがあればいいのになあ…という話があった。Llama .cpp本体(main)には前からその機能あったけど、serverにはまだ無かった。(https://github.com/ggerganov/llama.cpp/issues/5843…)でも今、serverでもKVキャッシュを自由にファイルにセーブ、ロードできる仕組みのプルリクがマージ寸前まで行ってる。(https://github.com/ggerganov/llama.cpp/pull/6341…) これがマージされれば便利になるけど、ただし古い会話が押し流されてコンテキストから消えてくタイプのチャットボットだとKVキャッシュが効きづらい点に注意。一般的には①システムプロンプト②キャラ設定③会話1④会話2⑤会話3 みたいな感じでコンテキストが構成されるだろうけど、新しい会話を追加する時に、コンテキスト長の関係で代わりに③会話1をプロンプトから削除しちゃった場合、KVキャッシュは①~②までしか効かない。それ以降はプロンプト処理やり直し。これを改善する提案はIssueに上がってる(https://github.com/ggerganov/llama.cpp/issues/5793…)ものの、まだまだ検討段階で実装は遠そう

まあ要するに、プロンプト評価の計算結果を次の推論でも使い回せるのがKVキャッシュだ。同じプロンプトを使って何度も推論するならKVキャッシュを使えばプロンプト評価をスキップできる。

さらに最近のバージョンのLlama.cppではKVキャッシュをファイルに保存したり、保存したファイルからKVキャッシュをロードしたりする機能が追加されている。
ElyzaTasks100の評価においては、評価のたびに問題ごとにほとんど同じプロンプトで推論する事になる。異なるのは一番最後のモデル毎の回答部分だけである。だから、KVキャッシュの保存、ロードを使う事でプロンプト評価時間を短縮できる。

KVキャッシュ無しだと15.5分かかっていた評価が、KVキャッシュを使うと13.3分に短縮される。思ったほど縮まらないなとは私も思ったが、まあちょっとでも短縮されるのは嬉しい。

③3回出力させて平均を取る

①において、講評無しで点数だけを出力させる事で評価時間を劇的に短縮する事ができたわけだが、とは言え講評が無いとAIが何を考えてその点数を付けたのか分からなくなるというデメリットはある。

また、LLMというのは喋りながら考えるみたいな面がある。Chain of Thought(CoT)で精度が上がるなんてのは最たるものだろう。だから、講評無しで1文字だけ答えさせると精度が落ちるかもしれない。

そこで、代わりに1問ごとに3回ずつ答えさせて平均を取れば落ちた精度が補える事が期待できる。
3回答えさせると言っても、2回目と3回目についてはKVキャッシュが効いてるからプロンプト評価時間はゼロである。1tpsだから2文字だすのに2秒のロスしか追加されない。

oshizoさんはCR+による評価は採点のバラツキが大きい問題を指摘しており、「何回かやって平均取った方が良さそう」との事。

「LLMに何回も同じ事訊いて意味あるんか?」と思うかもしれないが、例えば”More Agents is All You Need”という論文では、何回も同じプロンプト投げて結果を多数決取る事で精度が上がるという結果が報告されている。

もちろん、精度的にあまり問題にならない局面なら1回で済ませても構わないかもしれない。
3回ずつ答えさせる事で、10分程度で済んでいた評価時間は13.3分に伸びてしまう。まあ実質3回評価してるのだからタイパはいいかもしれない。

④グラマー(文法)で回答に制約を付ける

GPT-4のAPIでもjsonなどで出力フォーマットを強制する事ができるが、ローカルのLlama.cppでもグラマー(文法)という正規表現みたいなフォーマットで出力に制約を付ける事ができる。

それこそ任意のjsonで出力するように強制する事もできる。

制約が無い場合、いくらプロンプトで「1~5の数字で答えて」って指示しても、たまに数字じゃない文字を出力してくるような場合もあって、困る。

だから、例えばこのようなシンプルなグラマーを指定すれば、1~5の数字1文字だけ出力する事を強制する事が可能だ。

ちなみに、現在のところCR+でグラマーを使って推論させるとLlama.cppが落ちるという問題が起きてるので注意して欲しい。Llama3なら問題ない。

Constrained decoding with grammar fails for c4ai-command-r-v01 · Issue #6112 · ggerganov/llama.cpp (github.com)

そういうわけで、上に挙げたような工夫によって、GPUが1枚しか無くてLlama3-70Bを高速に推論できない環境でも、13.3分というそれなりに高速にElyzaTasks100の評価が回せるようになった。

で、さっそくこれで各モデルのElyzaTasks100の回答を採点させてみた結果、こうなった。↓

評価の詳細はこちらのスプレッドシート↓

https://docs.google.com/spreadsheets/d/1eMZVhmP_MhT-Lzz5xkVqGOVdoAE1Sb96glRpHM8PPNg/edit?usp=sharing

なるほど。全体的にCR+に評価させた時より低めに出てるが、見た感じ妥当な結果が出ており、採点結果は指標としても一応信頼できそうな感じではないだろうか。
3回の評価での誤差も、最大でも0.08点程度の差に収まっている。あんま採点にバラツキが無いので3回ずつ答えさせるまでもなかったかもしれない。

ちなみにCR+に自動評価させた時の結果もまとめている↓

https://docs.google.com/spreadsheets/d/1Lrs3Q1h4MzPtEDkYotK8LEGkt6IWKHVO0elxHZPwW88/edit?usp=sharing

これを見るとちょっと良くない感じがして、というのは採点のバラツキが激しい。1回目は4点を付けた回答に、2回目は1点を付けたりしている。3回の評価の平均点は0.22点くらいバラついてしまっている。0.22点も誤差があると困ってしまう。つまり、CR+の採点はテキトーすぎるんじゃねえか?という前回の記事からの疑惑は広がる一方である。

CR+は採点者としては問題がありそうなところに、代わりに信頼できそうなLlama3-70Bが出てきてくれたのは助かった。

というわけで、結果をまとめると、まずCR+にElyzaTasks100を採点させるのは、ちょっとアテにならなそうかも…という事が分かった。しかしLlama3-70Bの方が賢そうな事が分かったので、こっちに採点させれば良さそうだ。でも私のPC環境ではLlama3-70Bの推論もかなり遅いんだが、それでも色々工夫する事で13.3分で3回評価が回せるようになった。

今後の展望としては、他のモデルとかも色々評価してみたいという事や、自分独自の評価ベンチマークを作りたいという事や、ElyzaTasks100のローカル評価を指標にChatVectorマージの進化的アルゴリズム回してみたいねという事などがある。

最後に、今回使用したコードを一応掲載しておく。

まずこれがllamacpp_judge_llama3.py↓

ちなみにLlama3のチャットテンプレートを使うためにLlama3のリポジトリからtokenizerのダウンロードを行ってるが、HuggingFaceのLlama3へのリポジトリのアクセス権がないとダウンロードに失敗するので注意。リポジトリに行ってフォームに記入して申請ボタンを押して、さらにメタの管理者が承認してようやくアクセス権が貰える。それまで待つハメになる。待てなければ自分でプロンプトテンプレートを設定してもOK。

で、こっちがllamacpp_main_llama3.py↓

使い方はGPT-4自動評価スクリプトや前々回の記事など参照。ディレクトリをなめて評価したり、subprocessでサーバーを立ち上げる機能とか盛り込んだせいでゴチャついてる。