自宅PCに「28GBのローカルAI」を作った話【後編】

未分類

【後編】RX 9070 XT + RTX 3060 デュアルGPU構築記 — ドライバーとソフトウェア構築、そして72B AIを動かすまで

ハードは組んだ。あとは地道なソフト側の作業。
NVIDIAドライバーのクリーンインストールから、llama.cppのデュアルGPU動作確認、そして Qwen2.5-72B を自宅で動かすまでの全記録です。

◀ 前編を読む

前編:RX 9070 XT + RTX 3060 デュアルGPU構築記 — ハードウェア編

なぜ28GB VRAMが必要なのか、異なるメーカーのGPUを同居させるコツ、物理的な取り付け作業まで。前編でハードウェアの全体像を把握してから読むのがおすすめです。

ドライバーとソフトウェアのセットアップ

ハードウェアを組み上げたら、次は地道な設定・インストール作業です。AMDとNVIDIAのドライバー共存、そして llama.cpp と ComfyUI のセットアップをclaudeと順番に進めました。

画像

① NVIDIAドライバーのインストール(AMDとの共存)

AMD(RX 9070 XT)のAdrenalinドライバーは既に導入済みだったため、NVIDIA側を追加インストール。共存については特に問題は発生しませんでした。

方法A:winget でコマンドライン一発インストール

winget install --id NVIDIA.GeForceGameReadyDriver

手早く済ませたい場合はこれが最速。インストール後は再起動が必要な場合があります。

方法B:NVCleanstall でクリーンインストール(推奨)

不要なテレメトリやアドウェアを除外して、最小構成でドライバーを入れたい場合は NVCleanstall が便利です。

「Installation Tweaks」画面での推奨設定:

  • ✅ Perform a Clean Installation(既存ドライバーの残骸を除去)
  • ✅ Disable Installer Telemetry & Advertising(テレメトリ無効化)
  • その他はチェックなしでOK
画像

設定後「Next」→「Install」でドライバーの取得とインストールが走り、完了後に再起動。

インストール後の確認

nvidia-smi

出力例:

項目値ドライバー596.21CUDA Version13.2VRAM12288 MB(12GB)温度39°C(アイドル・正常)

RTX 3060が正常に認識されていれば成功です。

画像

② llama.cpp のセットアップと動作確認

llama.cppは複数のバックエンドが用意されています。今回は Vulkan版(デュアルGPU用) と CUDA版(NVIDIA単体用) の両方を確認しました。

Vulkan版:2枚のGPUを同時認識

./llama-cli.exe --list-devices

出力:

load_backend: loaded RPC backend from C:\llama.cpp\ggml-rpc.dll
load_backend: loaded Vulkan backend from C:\llama.cpp\ggml-vulkan.dll
load_backend: loaded CPU backend from C:\llama.cpp\ggml-cpu-alderlake.dll

Vulkan0: AMD Radeon RX 9070 XT → 16GB(約15.1GB空き)
Vulkan1: NVIDIA GeForce RTX 3060 → 12GB(約11.3GB空き)
合計:約28GB VRAM

2枚同時に使う場合の実行例:

llama-cli -m your-model-q2_k.gguf -ngl 99 --device vulkan0,vulkan1

💡 vulkan0 が RX 9070 XT、vulkan1 が RTX 3060 に割り当てられました。デバイス番号は環境によって入れ替わることがあるので、必ず –list-devices で先に確認しましょう。

画像

CUDA版:NVIDIA単体での認識確認

./llama-cli.exe --list-devices

出力:

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 12287 MiB):
  Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes, VRAM: 12287 MiB
load_backend: loaded CUDA backend from C:\llama-cuda\ggml-cuda.dll

CUDA版はNVIDIA GPUしか見えないため、RTX 3060単体・12GBに収まるモデル用。-ngl 40 程度で運用します。

画像
画像

③ ComfyUI(画像生成用)のインストール

画像生成も並行して使いたいので、ComfyUIも導入しました。公式GitHub(Comfy-Org/ComfyUI)のWindows Portable版が最も手軽です。

画像
  1. releasesページから ComfyUI Windows Portable をダウンロード
  2. 7-Zipで展開(展開がうまくいかない場合は、zipを右クリック → プロパティ → ブロックの解除
  3. NVIDIA用の標準版はPython 3.13 / PyTorch CUDA 13.0 同梱
  4. AMD GPU用には Experimental portable for AMD GPUs が別途あり

⚠️ ComfyUIが起動中はVRAMを数GB消費します。LLMを本気で動かす時は不要なアプリは閉じてください。


実際に動かす——23GB(Q2_K)モデルの運用

28GB VRAM環境が整ったところで、実際にモデルを動かす際の具体的な運用ポイントをまとめます。

なぜ「23GB(Q2_K)」なのか

33GBのモデルはVRAM 28GB / RAM 32GBという物理的な壁に当たっていました。Q2_K量子化による23GBへの軽量化によって、その壁を突破できます。

VRAMの割り当てイメージ

画像

23GBのモデルをロードすると、VRAMの空きは残り約5GBになります。

GPU担当使用量RX 9070 XT(16GB)モデルのメイン部分約13〜14GBRTX 3060(12GB)残りのモデル約9〜10GB残り5GBコンテキスト・KVキャッシュ用—

この「残り5GB」が重要で、ある程度の長さの会話(数千トークン程度)もVRAM内で完結し、高速なレスポンスが期待できます。

llama.cppでの起動コマンド例(Vulkan使用時)

# デバイスの確認(どちらが0か1かを確認)
llama-cli --list-devices

# 実行例(Vulkanで2枚のGPUを指定)
llama-cli -m your-model-q2_k.gguf -ngl 99 --device vulkan0,vulkan1

-ngl 99 とすることで、すべてのレイヤーをVRAMに送るよう指示します。23GBなら「All layers offloaded to GPU」になるはずです。

パフォーマンスと精度のトレードオフ

速度:すべてVRAMに収まるため、以前のようにシステムRAM(GTT)に溢れていた状態とは比較にならないほど高速になります。

精度:Q2_Kは大幅な圧縮がかかっているため、複雑な論理パズルや長文要約などで「物忘れ」や「言い間違い」が増える可能性があります。「少し頭が悪いな」と感じたら、モデルサイズを下げて(例:30B級→14〜20B級)、精度が高い Q4_K_M 量子化を試すのも一手です。

注意点:バックグラウンドの「干渉」

ComfyUIやゲームを起動したままだと、そちらで数GBのVRAMが消費され、23GBモデルがVRAMから溢れる可能性があります。

LLMを本気で動かす時は、ComfyUI・重いブラウザ・ゲームは一旦閉じることで、28GBのパワーをフルに発揮できます。


実際に動かした——起動成功レポート

動作確認コマンド

# モデルフォルダに移動
cd C:\llama.cpp\models

# 起動
llama-cli -m Qwen2.5-72B-Instruct-Q2_K.gguf -ngl 99 --device vulkan0,vulkan1 -c 512 --tensor-split 57,43

起動画面

llama.cpp
build  : b8683-d0a6dfeb2
model  : Qwen2.5-72B-Instruct-Q2_K.gguf
modalities : text

> 自己紹介して

こんにちは!Qwenと申します。アリババクラウドによって開発された大規模
言語モデルのアシスタントです。私の役割は、さまざまな質問に回答したり、
情報を提供したりすることで、ユーザーの皆様をサポートすることです。
技術的な質問から日常的な相談まで、幅広くお手伝いできます。

[ Prompt: 3.0 t/s | Generation: 0.6 t/s ]

結果

項目結果モデルQwen2.5-72B Q2_K(27.8GB)GPURX 9070 XT + RTX 3060日本語応答✅ 完璧生成速度0.6 t/s

日本語で「自己紹介して」と聞くと、しっかり日本語で返答してくれました。自宅に完全プライベートな72B AIが誕生した瞬間です。 🎉

画像

ローカル72B AIのメリット・デメリット

✅ メリット

🔒 完全プライバシー
会話内容が一切外部に送られません。仕事の機密情報、個人的な悩み、何を聞いても完全にローカル完結です。

💰 ランニングコストゼロ
ChatGPT PlusやClaude Proのような月額料金が一切かかりません。電気代だけです。

🚫 検閲なし
クラウドAIでは断られるような際どい質問や、過激な創作なども制限なく扱えます。

⚡ 通信環境不要
インターネットが切れていても動きます。

🧠 72Bの実力
GPT-3.5を超え、GPT-4に迫るレベルの知性がローカルで動いています。

❌ デメリット

🐢 速度が遅い
0.6 t/sは人間の読む速度より遅く、長文回答は数分かかります。

🔌 電気代
フル稼働時は500W前後消費します。長時間使うと電気代が気になります。

📅 知識が古い
学習データのカットオフ以降の最新情報は知りません。

🛠️ メンテナンスが必要
モデルの更新や環境構築を自分でやる必要があります。

一言でいうと

「遅いけど、タダで、プライベートで、賢い」のがローカルAIです。用途によってクラウドAIと使い分けるのがベストです。

◀ 前編をもう一度読む

前編:RX 9070 XT + RTX 3060 デュアルGPU構築記 — ハードウェア編

ハードウェアの構成、Q&A、物理的な取り付け作業まで。

コメント