RX 9070 XT + RTX 3060 デュアルGPU構築記——試行錯誤の結果、最適な構成にたどり着いた

「自分だけのプライベートAIを、誰にも見られない自宅サーバーで動かしたい」そんな欲求から始まった、デュアルGPU・合計VRAM 28GB マシン構築の記録です。

※本記事にはAmazonアソシエイトリンクが含まれています。Amazonアソシエイト・プログラムの参加者として、適格販売により収入を得ることがあります。

はじめに——なぜローカルLLMなのか
構成の概要
72B AIを動かすことに成功！……だが
1. でも……現実は厳しかった
現実的な問題：GPUが全部埋まる
さらなる問題：異メーカーGPUの制約
試行錯誤の結果——最適な構成にたどり着いた
1. 変更前の構成
2. 変更後の構成（現在）
72B合算 vs 現在の構成——正直な比較
Qwen3-8Bは「小さいのに賢い」
現在の起動方法
まとめ——28GBの正しい使い方

はじめに——なぜローカルLLMなのか

ChatGPTやClaudeのようなクラウドAIは便利ですが、「会話の内容がサーバーに送られる」という点が気になることがあります。

そこで注目しているのが ローカルLLM——自分のPC上でAIを動かすという選択肢です。

ローカルLLMの最大のボトルネックは 「GPUのVRAM（メモリ）容量」 です。7Bパラメータのモデルなら4〜8GBで動きますが、賢さが増す30B〜70Bクラスになると、量子化してもVRAM不足で起動すらしないことがあります。

そこで今回、手持ちの RX 9070 XT（16GB） に RTX 3060（12GB） を追加して、合計28GBのVRAM環境を作ることにしました。

構成の概要

72B AIを動かすことに成功！……だが

合計28GBのVRAMを活かして Qwen2.5-72B Q2_K（27.8GB） を動かすことに成功しました。

🎉 完全成功！
モデル：Qwen2.5-72B Q2_K（27.8GB）
GPU：RX 9070 XT + RTX 3060
日本語応答：✅ 完璧
生成速度：0.6 t/s

自宅に完全プライベートな72B AIが誕生した瞬間でした。

でも……現実は厳しかった

0.6 t/s という速度は、72Bモデルとしては想定内ではあります。ただし、実際に使ってみると：

200トークンの返答に 約5分 かかる
その間、両方のGPUがフル占有される
つまりこの間 ゲームも画像生成も一切できない

「72Bが動く」ことと「72Bが使える」ことは、別の話でした。

現実的な問題：GPUが全部埋まる

72B合算時のVRAM使用状況：

GPU使用状況
RX 9070 XTVRAM 16GB → 72Bで全部使用
RTX 3060VRAM 12GB → 72Bで全部使用

両方のGPUがフル占有されるので、ゲームを動かす余地がありません。

せっかくのデュアルGPU構成なのに、「72B専用マシン」になってしまうのです。

さらなる問題：異メーカーGPUの制約

RX 9070 XT（AMD）とRTX 3060（NVIDIA）の組み合わせには、根本的な制約があります。

異メーカーのGPUを合算する場合、Vulkan経由での分散処理になります。今回の実験でも、llama.cppがCUDA・ROCm・Vulkanの3バックエンドを同時に検出して、モデルを3分割しようとしてクラッシュする事象が発生しました。

試行錯誤の結果——最適な構成にたどり着いた

色々調べた末に、役割分担という発想にたどり着きました。

変更前の構成

GPU役割
RTX 3060llama.cpp（Qwen2.5-72B Q2_K・VRAM 11.5GB使用）
RX 9070 XTComfyUI（ROCm）

変更後の構成（現在）

GPU役割RX 9070 XTllama.cpp（Qwen3-8B Q4_K_M・ROCm）RTX 3060ComfyUI（CUDA）

72B合算 vs 現在の構成——正直な比較

現在の構成の方がトータルで優れています。

Qwen3-8Bは「小さいのに賢い」

「72Bから8Bに落としたら性能が下がるのでは？」と思うかもしれません。しかし Qwen3-8B には大きなアドバンテージがあります。

Thinkingモード搭載——推論前に内部で「考える」プロセスを挟む機能で、8Bながら複雑な推論でも精度が高くなります。

また、Q2_K（2bit量子化）まで圧縮された72Bより、Q4_K_M（4bit量子化）の8Bの方が、情報の損失が少なく実質的に賢い場合があります。

現在の起動方法

1. J:\start-llama.bat をダブルクリック（llama-server起動）
2. ComfyUI Desktopを起動

これだけで：

RX 9070 XT → Qwen3-8Bがローカルで回答
RTX 3060 → ComfyUIで画像生成
ゲーム → RX 9070 XT（LLMアイドル時）で起動可能

まとめ——28GBの正しい使い方

28GBのVRAMは「1つの巨大モデルに使う」より「複数の用途に分けて使う」方が、圧倒的に快適でした。

「72Bが動く」というロマンは素晴らしいですが、実用性では8Bの役割分担構成が勝ちます。

異メーカーGPUの2枚挿しは「合算」ではなく「分業」——この発想の転換が、今回の一番の学びでした。

今回使用したグラフィックボード

RX 9070 XT

ASRock RX 9070 XT スチールレジェンド 16GB GDDR6

ASRock AMD Radeon RX 9070 XT Steel Legend Dark 16GB GDDR6 256ビット、2970MHzブースト、PCIe 5.0、3xDP2.1+HDMI2.1、トリプルファン、メタルバックプレート...

RTX 3060

MSI RTX3060 VENTUS 2X 12G OC 正規品

MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553がグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。アマゾン配送商品は、通常配送無料（一部除...

※ リンク先はAmazonアソシエイトを利用しています。価格は記事作成時点のものです。