ローカル執行環境を構築した「設計者」の記録

はじめに
■ 1. 28GB VRAMが叩き出す「20 tokens/sec」の衝撃
■ 2. 「壁打ち」の果てに辿り着いた、クラウドとローカルの境界線
■ 3. 実践：Claude Codeを100%ローカルで動かす「技術的アプローチ」
■ 4. CLAUDE.md：ローカル優先の鉄則
■ おわりに：ユーザーからアーキテクトへ

はじめに

2026年、AI界隈は「ChatGPT 5.5」や「Claude 4.7」の登場で沸いています。しかし、私はあえて月額3,000円のサブスクを手放す道を選びました。自作PCとローカルLLMを組み合わせ、AIを「サービス」として享受するのではなく、自分のマシンの「OSの一部」として組み込んだ記録をここに残します。

■ 1. 28GB VRAMが叩き出す「20 tokens/sec」の衝撃

私の環境は、個人クリエイターとして極限まで最適化したデュアルGPU構成です。

GPU 1 (AMD Radeon RX 9070 XT / 16GB): LLMおよびVLMの推論を専ら担当。
GPU 2 (NVIDIA GeForce RTX 3060 / 12GB): 画像生成（ComfyUI）やCUDA関連タスクを担当。

このハードウェア資産（計28GB VRAM）を、AIが直接操作できる環境こそが私の「武器」です。実際に google/gemma-4-e4b を動かした際のログがこちらです。

Model loaded successfully in 5.16s. (5.89 GiB)

わずか5秒で知能が立ち上がり、実測値で 20.55 tokens/sec という速度を記録しました。これは、ローカルのエージェントとして十分すぎるほど実用的なレスポンス速度です。

■ 2. 「壁打ち」の果てに辿り着いた、クラウドとローカルの境界線

当初は「ChatGPT Plus」や「Claude Pro」への課金を検討し、秘書（AI）と徹底的に比較検討を行いました。

しかし、対話の中で気づいたのは、「クラウドの砂場」ではなく「ローカルの書斎」にこそ、真の創造性があるということです。クラウドAIは強力ですが、私のPCにある動画素材を直接整理したり、その場で ffmpeg を叩いて動画を書き出したりすることはできません。この「実環境への干渉力」の差が、サブスク卒業の決定打となりました。

■ 3. 実践：Claude Codeを100%ローカルで動かす「技術的アプローチ」

Claude Codeをクラウドから切り離し、完全にローカルで制御するために行った具体的な手順は以下の通りです。

① インフラ：LM StudioによるローカルAPIサーバーの構築

知能の供給源として「LM Studio」を採用し、Anthropic互換APIをローカルホスト（http://localhost:1234）で立ち上げます。これにより、Claude Codeは「クラウドのAnthropicサーバー」ではなく「自分のPCの1234ポート」へリクエストを送るようになります。