最近、一部のローカルLLM勢のあいだでChatVectorで遊ぶのが流行っている。
ChatVectorとは何か?というとこちらの論文で発表された技術だ。

[2310.04799] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages (arxiv.org)

こちらの解説記事が分かりやすい。

Chat Vectorを使って日本語LLMをチャットモデルに改造する – Qiita

要するに、ChatVectorとは指示チューニングでチャット能力を獲得したモデルのウエイトから、ベースになったモデルのウエイトを差し引いた差分の事である。
そしてChatVectorを別のモデルのウエイトに加算すれば、そのモデルにチャット能力を付与する事ができてしまうらしい。そんな大雑把な理屈が上手くいくとは!
それどころか、英語モデルから抽出したChatVectorを日本語ベースモデルに加算すると、日本語でチャットできるようになるという!マジ!?

これが面白い話だってんで、色々と試して遊ぶ人が続々と現れている。よく使われてるのはMistral-7Bベースの派生モデルだ。というのも、優秀なベースモデルだから沢山の派生モデルが存在するし、7Bというのはローカルで遊ぶには手頃なサイズだからだろう。

続々と出現する日本語ChatVectorモデル

まず、AIXサトシさんが3月20日にSwallow-MX-8x7b-NVE-chatvector-Mixtral-instructというモデルをリリースした。

ベースになったSwallow-MX-8x7b-NVE-v0.1はスペックが高いが指示チューニングされてないのでチャットに難があるらしい。そこで、Mixtral-8x7B-Instruct-v0.1から抽出したChatVectorを加算したモデルらしい。
数日後にv2がリリースされた。これはv1とほぼ同じ構造だが、ChatVectorを0.8倍して加算してる点が違う。こうする事で出力される日本語がより自然になったとの事。

次に3月24日にかもさんがswallow-hermes-st-v1というモデルをリリースした。

このモデルでは、まずHermes-2-Pro-Mistral-7bからChatVectorを抽出し、Mistral-7B-Instruct-v0.2-Neural-Storyから物語Vectorを抽出して、Swallow-MS-7b-v0.1に加算している。
さらにSakanaAIのEvoLLMの手法を参考に、レイヤーごとに最適なVector加算割合を進化戦略で求めてるそうだが、詳しい手法は分からない。

それから、5ちゃん(PINKちゃんねる)の某スレで発表されて話題になったモデルがSdff-Ltbaさんが作成したLightChatAssistant-2x7Bだ。パラ数が小さい割に、かなり流暢な日本語の文章を出力できて賢い感じがする。

このモデルでは、まずMistral-7B-Instruct-v0.2からChatVectorを抽出して、ChatNTQ-ja-7b-v1.0とAntler-7Bにそれぞれ0.8倍で加算する。出来上がった二つのモデルをMergekitでMoEとして合体させたらしい。

ZuntanさんはLightChatAssistant(LCA)をKoboldCppから簡単に遊べるようにしたEasyLightChatAssistantを公開してくれている。

その次に、AratakoさんはLCAと同じノリで、エキスパートを4つに増やしたモデルをリリースした。

Aratako/LightChatAssistant-4x7B · Hugging Face

さらに続いてAratakoさんはLCAのChatVectorの加算割合を最適化したモデルをリリースした。元のLCAでは一律で0.8倍のChatVectorを加算していたが、このモデルではOptunaを使ってTPEというベイズ最適化ベースの手法でレイヤーごとに加算倍率を最適化したらしい(よく分かってない)

Aratako/LightChatAssistant-2x7B-optimized-experimental · Hugging Face

一方その頃、BakuさんもLCAに着目して色々と検証記事を書いている。

Mistral 7Bベースの日本語チャットモデル ChatNTQ-JA-7B を試す – ローカルLLM自由帳 (hatenablog.com)

ChatNTQ 7B と LightChatAssistant 2x7B の日本語性能を測定する – ローカルLLM自由帳 (hatenablog.com)

MergeKitによるMoEマージだけで日本語性能は上がるか? – ローカルLLM自由帳 (hatenablog.com)

【LLM論文を読む】Chat Vector:LLMに新たな言語での指示追従とアラインメントを付与するシンプルなアプローチ – ローカルLLM自由帳 (hatenablog.com)

LightChatAssistant 2x7B を再現する – ローカルLLM自由帳 (hatenablog.com)

Chat Vector の効果 vs. MoEマージ の効果 – ローカルLLM自由帳 (hatenablog.com)

どの記事も非常に重要な知見の塊だが、個人的には一連のChatVectorモデルを評価する手法を確立してくれた意義が大きい。Bakuさんの評価手法では、ElyzaTasks100というベンチマークをGPT-4に評価させるている。

LLMのベンチマークには色々あるが、旧来のベンチマークの5択クイズみたいな問題では、もはやLLMの性能をちゃんと評価できないという話が出てきている。特にChatVectorモデルで我々が求める性能は、どんだけ流暢にイケてる日本語文章を書けるかどうかであって、クイズ王なんて別に欲しくない。
そんななか出てきてるのがjmt-benchやElyzaTasks100などの新しいベンチマークだ。これらのベンチマークではLLMに質問に対して自由回答させる。自由に文章を書かせてこそLLMに求めてる性能が測れるというものである。
それはいいんだが、旧来の5択クイズとかなら回答の正解不正解を機械的に判定、評価させる事ができたのに対して、自由回答の文章がどんだけ優れてるか?なんて事は機械的に判定できないから、人間が評価するしかない。
そんな事言ったって、色んなモデルを作っては評価して…を繰り返さないといけないのに、自分でLLMの答案の採点までしないといけないのはダルすぎる。
だったらもう、評価もLLMにやらせればいいじゃんという発想が出てくる。だから、ElyzaTasks100をGPT-4に評価させるという手法なら、旧来よりちゃんとLLMの性能を評価できるし、自動で評価させる事ができるのも優れている。
まあ、問題があるとすれば評価のたびにGPT-4のAPI料金がかさんでいく点だろう。一度の評価(100問)で1ドルくらいかかるらしい。高いとは言わないが、LLMを評価するだけでチマチマ金取られるのはうっとおしい。

話を戻すが、そんなElyzaTasks100においてLCAは3.31点という高い平均スコアを叩き出している。ベースになったChatNTQ-JAが3.06点だったのでかなり性能向上してると分かる。Command R-35Bの3.42点に匹敵するスコアである。

そんで、Bakuさんは検証記事で得られた知見を元にJapanese-Starling-ChatV-7Bというモデルを作ってリリースした。

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました|Baku (note.com)

このモデルでは、Starling-LM-7B-betaという、Mistralベースの非常に優秀なモデルからChatVectorを抽出して、ChatNTQ-JA-v1.0-7bに1.0倍で加算している。

MoEにすらしていないにも関わらず、ElyzaTasks100において3.42点という、LCAを上回る高得点をたたき出してしまったという。なんとCommand R-35Bと同点だ。

はちさんもChatVectorに着目して色々な実験を行われている。

Chat VectorにならぬCode Vectorは作れるのか|はち (note.com)

Chat VectorならぬMath Vectorは作れるのか|はち (note.com)

Chat VectorとMath Vectorは併用できるのか|はち (note.com)

はちさんがリリースしたモデルがSwallow-MS-7b-v0.1-ChatSkill-LABだ。

ibm/merlinite-7bから抽出したChatVector(はちさんはスキルツリーと呼んでいる)をMistral-7B-v0.1に加算したものらしい。

というような感じで、最近はChatVectorで色々遊ぶのが界隈で流行ってきているという事だ。
今までもLLMのマージやMoE化で遊ぶのは流行っていたが、そこに新しいオモチャとしてChatVectorが加わった感じだ。
ちなみに、どうして界隈ではLLMの継続事前学習や微調整やLoRA学習はあんま流行ってないのか?それは要求する計算資源のハードルが高いからだ。LLMの継続事前学習、微調整、LoRA学習は7Bとかのモデルでさえ相当強力なGPUが必要だったりしがちだ。画像AIのLoRA学習ならちょっとしたGPUさえあれば手元で遊べていたが、そんなに強力なPC持ってる人はそうそういないので、手元で遊べる人が少ないとあんま流行らないという事になる。モデルのマージやMoE化やChatVector抽出は学習が要らないから計算資源も要らない、つまり誰でも手元で遊べるから流行ってきている。

SakanaAIが進化的マージ、EvoLLMの手法を発表したのもモデルマージなら計算資源が要らない点に着目したらしい。

モデルマージやMoE化、ChatVectorは、まあこういう組み合わせたらいいんじゃないか?という予感とかはあるものの、実際に作ってみて評価してみないとどんな性能になるか事前にあんま予測できない。ガチャみたいで面白いといえば面白いかもしれないが。
LCAやJapanese-Starling-ChatV-7Bなどではシンプルな発想でChatVector加算を行ってるが、swallow-hermes-st-v1やAratakoさんの最適化LCAでは何らかの手法で自動的に最適化が行われている。これが突き詰められるとEvoLLMのようになってくのだろう。
出回ってる全てのモデルを全組み合わせパターンでマージ、MoE化、ChatVector合成してみて、片っ端から評価していって、最強モデルを見つけてピックアップする…ゆくゆくはそんな感じで全てが自動化されてくかもしれない。

ところで、昨日またMistral-7BベースのWizardLM-2-7Bというモデルがマイクロソフトからリリースされた。(今は事情で一時的に消されてるが)
それによると、WizardLM-2-7Bはmt-benchでStarling-LM-7B-betaを上回ったらしい!
「え?だったらこのWizardLM-2-7BからChatVector抽出してChatNTQ-JA-v1.0-7bに加算すればJapanese-Starling-ChatV-7Bに勝てるんじゃね?」安易にそう考えた私は自分でもChatVector遊びに手を出してみる事にした。

先に結果を見せておくと、これが完成したJapanese-WizardLM2-ChatV-7Bである。

umiyuki/Japanese-WizardLM2-ChatV-7B-GGUF · Hugging Face

結局、ベンチでJapanese-Starling-ChatV-7Bに全然勝てんかった。残念だったけど、できちまったもんはしょうがねえからモデルは一応上げた。

というわけで、今回の記事ではこのJapanese-WizardLM2-ChatV-7Bを作って評価するまでのところを書いていく。

ChatVectorを抽出して加算する

ChatVectorを云々する具体的な方法は、LCAのリードミーに丁寧に書いてくださってる。

Sdff-Ltba/LightChatAssistant-2x7B · Hugging Face

BakuさんもLCAの再現手順をまとめてくれてるので参考になる。

LightChatAssistant 2x7B を再現する – ローカルLLM自由帳 (hatenablog.com)

とりま、condaとかで仮想環境を作って、pipで色々入れる必要があるかと思うが、すいませんが何をインスコしたか忘れました。まあtransformersとかpytorchは入れなきゃいけない気がする。

とにかく、このpythonコードを実行するだけでChatVector加算したモデルができてしまう。とても簡単だ。

ただし、最後にちょっと作業が必要になる。

まず、いくつか足りないファイルがあるので、ChatNTQ-ja-7bのリポジトリからspecial_tokens_map.jsonとtokenizer.modelとtokenizer_config.jsonファイルをDLしてきて出力されたモデルのフォルダに入れる。

NTQAI/chatntq-ja-7b-v1.0 at main (huggingface.co)

モデルのフォルダの中のconfig.jsonを開いて編集する。”max_position_embeddings”を32768に、”rope_theta”を1000000.0に、”sliding_window”をnullにそれぞれ変更する。

これでtransformers形式のモデルは完成だが、扱いにくいのでgguf形式に変換する。そのためにはLlama.cppリポジトリのconvert.pyが必要になるので、Llama.cppリポジトリをクローンしてくる。

こんな風にconvert.pyを叩けばモデルがggufに変換される。

次にggufを量子化するには、Llama.cppをビルドすると生成されるquantize.exeが必要になる。ビルドするのがダルければLlama.cppのリリースページからバイナリをダウンロードしてきてもいい。

で、例えばこんな風に書けばQ6_Kで量子化モデルが生成できる

指定できる量子化オプションの一覧についてはソース見た方が早い

llama.cpp/examples/quantize/quantize.cpp at master · ggerganov/llama.cpp (github.com)

ついでにimatrix量子化の方法も書いておく。まずimatrixを作成するためのテキストが必要なようだが、LCAの説明ではwiki.train.rawというテキストを使ってる。よく分からんがここからDLできるようだ。↓

Index of /pub/datasets/wikitext-2-raw/ (cosmo.zip)

で、Llama.cppバイナリのimatrix.exeを使ってimatrixを作成する。こんな感じ

作ったimatrixを使ってquantize.exeでこんな感じでimatrix量子化モデルが作成できる

Command R+に評価させよう

モデルはすぐできたが、問題はこれをどうやって評価するかだ。
まあ、BakuさんがやってたみたいにElyzeTasks100でベンチマークして、GPT-4に採点させるのが一番ベストだろう。

しかし、GPT-4のAPIに金払うのはなんか癪だな。

そこで、GPT-4の代わりにCohereのCommand R+のAPIを使う事にした。何故ならCommand R+なら現在のところタダでAPIが叩けるからだ。なんか正式リリースまでは無料らしい。もし有料化したとしても、そもそもGPT-4のAPIよりも大分安い。それにCommand R+はGPT-4に近い性能があるとか言う話なので、ベンチ評価だってできるだろう。

それで、こちらにElyzatasks100をGPT-4に自動評価させるためのスクリプトが公開されている。

Northern-System-Service/gpt4-autoeval: GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト (github.com)

ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた #LLM – Qiita

とりま、git cloneする。

まず、どうやって作ったJapanese-WizardLM2-ChatV-7B(JWC)モデルにElyzaTasks100に回答させるかだが、リポジトリのなかのノートブックを適当に開く。

gpt4-autoeval/notebooks/ELYZA_tasks_100_inference_rinna_youri_7b_chat.ipynb at main · Northern-System-Service/gpt4-autoeval (github.com)

ノートブックを参考にやっていく。まず、ノートブックの最初のセルのとおりに、pipで諸々入れる。

で、次のセルのスクリプトでElyzaTasks100データセットをDLしてきてjsonlに変換して保存する。保存するパスは適宜自分の都合のいいパスに変える。

その次のセルがいよいよ推論させるスクリプトだが、ところで、どうやってJWCモデルにElyzaTasks100の設問を回答させていくか?
今回はLlama.cppバイナリのserver.exeでモデルを動かして、そのサーバーのAPIを叩く形にする事にする。こうすれば、サーバー側でロードするモデルを切り替えれば推論側のスクリプトは使い回せて便利な気がする。

というわけでJWCモデルを読み込ませてサーバーを起動する↓

引数のcはコンテキスト長で、これを増やすと消費メモリも増える。nglはGPUオフロードレイヤー数を指定する。今回は7Bモデルだし全部オフロードすりゃいいので適当に100にしてる。

で、推論側のスクリプトはこんな感じだ

server.exeのAPIを叩くように改変している。input_datasetのパスはさっき保存したElyzaTasks100データセットのjsonlのパスを指定する。base_dirも各自の環境に合わせて変える。

これを実行するとLLMが設問に対する答えを1問ずつ生成して、結果はoutput_dirにpreds.jsonlとして保存される。

LLMの回答(preds.jsonl)ができたら次はこれをCommand R+のAPIに採点させる。

自動評価リポジトリのmain.pyが採点のメインコードで、openai_judge.pyがGPT-4のAPIに採点判定させているコードだ。

そこでまず以下のようにcohere_judge.pyを作成する。

これはGPT-4の代わりにCommand R+のAPIを呼び出して判定させるコードだ。APIキーの部分には各自のキーを入力する。

次に、以下のようにcohere_main.pyを作成する。

これまた、main.pyをcohere_judgeを使うように改変したコードだ。datasetにはElyzaTasks100データセットのjsonlのパスを、base_directoryにはさっきのbase_dirのパス、model_nameにはさっきのoutput_dirnameを指定する。

それから、assets/prompt_eval.txtも編集した方がいい。これはCommand R+に投げるプロンプトのテンプレートだ。GPT-4ならjsonフォーマットで回答するように強制できる機能があるが、Command R+にはそういうのが無い。まあJsonで回答してって言えば大抵はちゃんとJsonで返してくれるが、たまに余計な文言を付け足してくる時がある。だからこんな感じで「絶対にJsonだけ返答しろ」って念押ししといた方がいい。

ここまで言ってもダメな時はダメだから、アカン時はまあどうにかするしかない。一応、JSONのパースに失敗した時はリトライする処理が入ってるが、10回投げても10回失敗するケースも稀にある。

さて、これを実行する事で、base_directoryの中にはさっき生成したpreds.jsonlの他に、Command R+が採点したresult.jsonlが生成されてるハズだ。

採点してくれたのはいいけど、結果をスプレッドシートとかにまとめてくれないと見づらいわけだが、自動評価リポジトリには親切な事にそれをやってくれるスクリプトも同梱されてる。tools/copy_jsonl_to_google_spreadsheet.jsというファイルだ。

まず、Googleドライブのルートにllm_research/migrationというディレクトリを切る。その中に、評価結果のpreds.jsonlとresult.jsonlが入ってるフォルダをコピーする。

次にGoogleスプレッドシートを開いて、メニューの拡張機能→Apps Scriptを選択して、エディタにcopy_jsonl_to_google_spreadsheet.jsの中味を貼り付ける。

スクリプトだと開始列がCZになっており、やたら遠いところから始まってしまうので、Eとかに変えた方がいい。で、スクリプトを実行して成功すればスプレッドシートに回答、評価が記入される。

記入されるのは回答だけで、設問や正解例は記入されないので、こちらのスプレッドシートなどからコピペしてくるといいだろう。↓

https://docs.google.com/spreadsheets/d/1nOWtneRdrkxwQbAN0rWmXqiJXR9IXK9lVkyDjQTqNGc/edit?usp=sharing

スプレッドシートに評価が記入されれば、平均点なども簡単に算出できる。
今回私が評価した結果のスプレッドシートはこちら↓

https://docs.google.com/spreadsheets/d/1hdVvlDNS9lDF7XBlJStb_IDss9iPSzgDP4QmNKNq37Q/edit?usp=sharing

ちなみに無料のCommand R+のAPIには1分間に20回までしか呼べないレートリミットがある。まあそこはリトライ処理を入れてるので大丈夫だが、それ以外に1日に1000回くらいまでしか呼べない制限もあるようだ。 [追記24/04/18] 1日に1000回までというのは勘違いで、実際には1ヶ月に1000回まででした。(https://docs.cohere.com/docs/going-live
それ以降は永遠にレートリミットエラーが出続ける。ElyzaTasks100は100問あるので1日に10回くらいしか評価できない。

おわり

てなわけで、今回はChatVectorを使った遊びが流行ってる件についての解説と、自分でもChatVectorで遊んでJapanese-WizardLM2-ChatV-7Bってモデルを作って公開してみた話について書いた。

結果的に作ったモデルが大した性能では無かったのは残念だが、とは言えCommand R+にElyzaTasks100の回答を評価させる事で、タダでLLMをいい感じに評価できる方法が確立できたのは意義がある。これからは何か新しいLLMがリリースされるたびにこの方法でシュッと評価すればそのモデルの性能がどんなもんか定量的にシュッと把握できるわけだ。

ただし、ElyzaTasks100はかなり優秀なベンチマークとは言え、これだといい子ちゃんとしての性能しか測れない。私の欲してるユースケースに完全に一致してるわけではない。いくら頭がいいLLMでもエロ知識が皆無とか、エッチな話題は全拒否してくるモデルだとつまらない。
だから例えばElyzaTasks100と同じフォーマットで自分なりのベンチマークを自ら開発するような必要もあるんじゃないのか。それで評価してこそ本当に自分が求めてる性能のLLMが見つけられるというものである。

また、ベンチマークの多様性で言えばjmt-benchなんかも同様に自動評価できるようになればいいと思う。

LLM創造性ベンチマークというものもあるらしい。こういうのも自動評価させられないだろうか?

Command R+のAPIが現在無料で使えるのは嬉しいが、有料化したらどうすんねん?という話がある。ちょっと考えてるのが、ローカルでCommand R+を動かして評価すればいいかもしれない。まあ私のPCではCommand R+は推論がメチャクチャ遅くなる。だが、例えば1文字だけ出力するだけでいいならいくら推論が遅くてもすぐ終わるわけだ。ElyzaTasks100は講評の文章をすっ飛ばして得点だけ出力させれば1文字で済む。また、ローカルでLlama.cppを動かす場合、APIと違って指定したフォーマットでの出力をグラマーで強制できるというメリットもある。

まあめげずにこれからもChatVectorで遊んで色んなモデルを作ってみるのもいいと思う。AratakoさんはOptunaをつかって自動で最適化を行っていたとの事だが、その辺についても勉強してみるべきかもしれない。

まったく人力の作業無しでモデルのマージ、ベンチマーク、評価、最適化までを完全自動化できるようになればまあ理想だろう。