自宅PCに「28GBのローカルAI」を作った話【後編】

【後編】RX 9070 XT + RTX 3060 デュアルGPU構築記 — ドライバーとソフトウェア構築、そして72B AIを動かすまで

ハードは組んだ。あとは地道なソフト側の作業。
NVIDIAドライバーのクリーンインストールから、llama.cppのデュアルGPU動作確認、そして Qwen2.5-72B を自宅で動かすまでの全記録です。

◀ 前編を読む

前編：RX 9070 XT + RTX 3060 デュアルGPU構築記 — ハードウェア編

なぜ28GB VRAMが必要なのか、異なるメーカーのGPUを同居させるコツ、物理的な取り付け作業まで。前編でハードウェアの全体像を把握してから読むのがおすすめです。

ドライバーとソフトウェアのセットアップ
実際に動かす——23GB（Q2_K）モデルの運用
実際に動かした——起動成功レポート
ローカル72B AIのメリット・デメリット

ドライバーとソフトウェアのセットアップ

ハードウェアを組み上げたら、次は地道な設定・インストール作業です。AMDとNVIDIAのドライバー共存、そして llama.cpp と ComfyUI のセットアップをclaudeと順番に進めました。

① NVIDIAドライバーのインストール（AMDとの共存）

AMD（RX 9070 XT）のAdrenalinドライバーは既に導入済みだったため、NVIDIA側を追加インストール。共存については特に問題は発生しませんでした。

方法A：winget でコマンドライン一発インストール

winget install --id NVIDIA.GeForceGameReadyDriver

手早く済ませたい場合はこれが最速。インストール後は再起動が必要な場合があります。

方法B：NVCleanstall でクリーンインストール（推奨）

不要なテレメトリやアドウェアを除外して、最小構成でドライバーを入れたい場合は NVCleanstall が便利です。

「Installation Tweaks」画面での推奨設定：

✅ Perform a Clean Installation（既存ドライバーの残骸を除去）
✅ Disable Installer Telemetry & Advertising（テレメトリ無効化）
その他はチェックなしでOK

設定後「Next」→「Install」でドライバーの取得とインストールが走り、完了後に再起動。

インストール後の確認

nvidia-smi

出力例：

項目値ドライバー596.21CUDA Version13.2VRAM12288 MB（12GB）温度39°C（アイドル・正常）

RTX 3060が正常に認識されていれば成功です。

② llama.cpp のセットアップと動作確認

llama.cppは複数のバックエンドが用意されています。今回は Vulkan版（デュアルGPU用） と CUDA版（NVIDIA単体用） の両方を確認しました。

Vulkan版：2枚のGPUを同時認識

./llama-cli.exe --list-devices

出力：

load_backend: loaded RPC backend from C:\llama.cpp\ggml-rpc.dll
load_backend: loaded Vulkan backend from C:\llama.cpp\ggml-vulkan.dll
load_backend: loaded CPU backend from C:\llama.cpp\ggml-cpu-alderlake.dll

Vulkan0: AMD Radeon RX 9070 XT → 16GB（約15.1GB空き）
Vulkan1: NVIDIA GeForce RTX 3060 → 12GB（約11.3GB空き）
合計：約28GB VRAM

2枚同時に使う場合の実行例：

llama-cli -m your-model-q2_k.gguf -ngl 99 --device vulkan0,vulkan1

💡 vulkan0 が RX 9070 XT、vulkan1 が RTX 3060 に割り当てられました。デバイス番号は環境によって入れ替わることがあるので、必ず –list-devices で先に確認しましょう。

CUDA版：NVIDIA単体での認識確認

./llama-cli.exe --list-devices

出力：

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 12287 MiB):
  Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes, VRAM: 12287 MiB
load_backend: loaded CUDA backend from C:\llama-cuda\ggml-cuda.dll

CUDA版はNVIDIA GPUしか見えないため、RTX 3060単体・12GBに収まるモデル用。-ngl 40 程度で運用します。

③ ComfyUI（画像生成用）のインストール

画像生成も並行して使いたいので、ComfyUIも導入しました。公式GitHub（Comfy-Org/ComfyUI）のWindows Portable版が最も手軽です。

releasesページから ComfyUI Windows Portable をダウンロード
7-Zipで展開（展開がうまくいかない場合は、zipを右クリック → プロパティ → ブロックの解除）
NVIDIA用の標準版はPython 3.13 / PyTorch CUDA 13.0 同梱
AMD GPU用には Experimental portable for AMD GPUs が別途あり

⚠️ ComfyUIが起動中はVRAMを数GB消費します。LLMを本気で動かす時は不要なアプリは閉じてください。

実際に動かす——23GB（Q2_K）モデルの運用

28GB VRAM環境が整ったところで、実際にモデルを動かす際の具体的な運用ポイントをまとめます。

なぜ「23GB（Q2_K）」なのか

33GBのモデルはVRAM 28GB / RAM 32GBという物理的な壁に当たっていました。Q2_K量子化による23GBへの軽量化によって、その壁を突破できます。

VRAMの割り当てイメージ

23GBのモデルをロードすると、VRAMの空きは残り約5GBになります。

GPU担当使用量RX 9070 XT（16GB）モデルのメイン部分約13〜14GBRTX 3060（12GB）残りのモデル約9〜10GB残り5GBコンテキスト・KVキャッシュ用—

この「残り5GB」が重要で、ある程度の長さの会話（数千トークン程度）もVRAM内で完結し、高速なレスポンスが期待できます。

llama.cppでの起動コマンド例（Vulkan使用時）

# デバイスの確認（どちらが0か1かを確認）
llama-cli --list-devices

# 実行例（Vulkanで2枚のGPUを指定）
llama-cli -m your-model-q2_k.gguf -ngl 99 --device vulkan0,vulkan1

-ngl 99 とすることで、すべてのレイヤーをVRAMに送るよう指示します。23GBなら「All layers offloaded to GPU」になるはずです。

パフォーマンスと精度のトレードオフ

速度：すべてVRAMに収まるため、以前のようにシステムRAM（GTT）に溢れていた状態とは比較にならないほど高速になります。

精度：Q2_Kは大幅な圧縮がかかっているため、複雑な論理パズルや長文要約などで「物忘れ」や「言い間違い」が増える可能性があります。「少し頭が悪いな」と感じたら、モデルサイズを下げて（例：30B級→14〜20B級）、精度が高い Q4_K_M 量子化を試すのも一手です。

注意点：バックグラウンドの「干渉」

ComfyUIやゲームを起動したままだと、そちらで数GBのVRAMが消費され、23GBモデルがVRAMから溢れる可能性があります。

LLMを本気で動かす時は、ComfyUI・重いブラウザ・ゲームは一旦閉じることで、28GBのパワーをフルに発揮できます。

実際に動かした——起動成功レポート

動作確認コマンド

# モデルフォルダに移動
cd C:\llama.cpp\models

# 起動
llama-cli -m Qwen2.5-72B-Instruct-Q2_K.gguf -ngl 99 --device vulkan0,vulkan1 -c 512 --tensor-split 57,43

起動画面

llama.cpp
build  : b8683-d0a6dfeb2
model  : Qwen2.5-72B-Instruct-Q2_K.gguf
modalities : text

> 自己紹介して

こんにちは！Qwenと申します。アリババクラウドによって開発された大規模
言語モデルのアシスタントです。私の役割は、さまざまな質問に回答したり、
情報を提供したりすることで、ユーザーの皆様をサポートすることです。
技術的な質問から日常的な相談まで、幅広くお手伝いできます。

[ Prompt: 3.0 t/s | Generation: 0.6 t/s ]