ローカルLLMでブラウザ操作を自動化できるのか？【BrowserOS & LMStudio】

こんにちは！秋ノ原窓也です！
みなさん、ブラウザ操作の自動化に興味はありますか？
AIが勝手にアマゾンの商品を注文したり、twitterの投稿を代行させてみたり、、、
最近のアプリはほとんどウェブ版もあるので、ブラウザが操作できれば何でもできるということになります。夢がありますね！

しかし、自分のログイン情報やアカウントをクラウドサービス型のAIに自由にアクセスできるようにすると少し怖い、、、なんて気持ちもありますよね

そこで今回はローカルLLMでブラウザ操作を自動化したらどうなるのか！検証していきます。

動作環境
LLMプロバイダーの設定、今回使うLLM
検証
結論

動作環境

いつもどおりメイン機でやります。メイン機の性能の制約上、qwen3.6 35b a3bなどの重たいモデルは試せません。20BレベルのLLMが限度なことをご了承ください。

ubuntu 24.04
i7 10700k
ddr4 32gb
RTX2070 & RTX2060super
LMStudio

また、BrowserOSのインストール方法はここでは解説しません。公式ページに行き、メアド（[email protected]で行けました）を入力して各OS用のものをインストールしてください。

LLMプロバイダーの設定、今回使うLLM

では早速LLMの設定に移っていきます。

今回使用していくLLMは以下のとおりです。

gemma4 e4b it
gemma4 26ba4b
GPT-OSS 20b

次に設定です。

assistantカラムの右上の設定マークから変更できます。お好みのプロバイダーを選んでください。私は今回LMStudioを使用します。

モデルは、今回は一つずつ交互にロードするので適当な名前（例えばaでも）で動きます。複数同時にロードする場合はこの限りではありません

検証

今回はyoutubeにアクセスし検索、再生までをテストしました。

gemma4 e4b

まともに動きませんでした。youtubeを開く、など簡単な指示はできるものの検索欄に意味不明な単語を入力してしまい、これでは使えないと早々に見切りをつけました。

gemma4 26ba4b

動きます。youtubeでの検索も問題ありません。

ただ、わたしの環境では壊滅的に遅いんです、、、。性能も、メモリも足りません。youtubeの検索だけに3分以上かかるのは流石に耐えられません。だれかRTX Pro 6000 blackwell恵んで、、、

gpt oss 20b

gemma4 e4bと同じで、こちらも日本語検索が壊滅的。例えばMAD動画を検索させようとしても日本語がおかしいです。（柴又を探してという指示を出した）

あまりにも検証結果が悪すぎます、、、

なので！今回に限り！（？）

もっとモデルを増やしてやってみようと思います。

流石にこの結果はひどいからね、、、

ということで追加モデルはこの子達です

qwen3.5 9b
lfm2 24ba2b
glm4.6v flash
phi4 reasoning plus
glm4.7 flash

では行きますよ！！！

qwen3.5 9b

こちらも検索欄にまともな日本語を入力することが出来ませんでした。ただ動作はめっちゃ速い。

lfm2 24ba2b

動作はそれなりに速いですが、クリック処理に何回も失敗します。

glm 4.6v flash（リソースの余裕からq8を使用）

サイズの割に一番まともなモデルでした。が、思考や出力が中国語だったり、現在のタブでと支持しても新規タブを開いたり、うーんなけっかに。ただ、ツール呼び出しのミスはモデルサイズの割にかなり少なかったです。

phi4 reasoning plus

そもそも日本語がおかしい。解散。

glm 4.7 flash

くっっっそおそい（二回目）。ですがまともな日本語で検索することが出来ました。

結論

ローカルLLMでブラウザ操作の自動化をしようとすると、20B以上の最新モデルを快適に動かせる環境が必要。2070&2060s環境では不可能ではないがものすごく遅い。

検証で得られた「おそらく向いているモデル」は以下の通り

qwen3.6 27b & 35ba3b
gemma 26ba4b & 31b
glm 4.7 flash

最低でも2080ti*2やtitanRTX、3090と同等のVRAMと計算力が必要みたいです。

最後に

今回の検証では動作の様子を動画にして伝えようかと思いましたが、満足な結果を得られずうまく伝えられませんでした。これは反省です。もっとお金貯めて強いGPUを買わなければ。

でも、お金さえあれば全自動ブラウザ操作を「ローカルモデルで」実行できる可能性が大いに高まるのはとても夢がありますね！

それでは！