自宅PCに「28GBのローカルAI」を作った話【前編】

【前編】RX 9070 XT + RTX 3060 デュアルGPU構築記 — ハードウェア編

「自分だけのプライベートAIを、誰にも見られない自宅サーバーで動かしたい」
そんな欲求から始まった、デュアルGPU・合計VRAM 28GB マシン構築の記録です。

※本記事にはAmazonアソシエイトリンクが含まれています。Amazonアソシエイト・プログラムの参加者として、適格販売により収入を得ることがあります。

はじめに——なぜローカルLLMなのか
構成の概要
Q&A形式で解説——疑問に思ったこと、全部答えます
物理構成の変更作業メモ
LANカードの代替——USB 2.5G LANアダプター選び
1. 選ぶ時のチェックポイント
2. 購入したモデル
ハードウェア編のまとめ

はじめに——なぜローカルLLMなのか

ChatGPTやClaudeのようなクラウドAIは便利ですが、「会話の内容がサーバーに送られる」という点がどうしても気になることがあります。

そこで注目しているのが ローカルLLM——自分のPC上でAIを動かすという選択肢です。

ローカルLLMの最大のボトルネックは 「GPUのVRAM（メモリ）容量」 です。7Bパラメータのモデルなら4〜8GBで動きますが、賢さが増す30B〜70Bクラスになると、量子化してもVRAM不足で起動すらしないことがあります。

そこで今回、手持ちの RX 9070 XT（16GB） に RTX 3060（12GB） を追加して、合計28GBのVRAM環境を作ることにしました。

構成の概要

パーツ	詳細
マザーボード	MSI MPG Z390 GAMING PLUS
GPU①（メイン）	RX 9070 XT — 16GB VRAM
GPU②（サブ）	RTX 3060（12GB版）— 12GB VRAM
合計VRAM	28GB
電源ユニット	850W

Q&A形式で解説——疑問に思ったこと、全部答えます

Q1. 異なるメーカーのGPUを同時に使えるの？

結論：使えます。むしろLLM用途では非常に有効な手段です。

AMDとNVIDIA、異なる世代・メーカーのGPUを組み合わせることは、ローカルAI界隈では珍しくありません。

PyTorchなどのAIフレームワークが「モデルのデータを分割して、それぞれのGPUのメモリに載せる」という処理を行うためです。

【モデル全体（例：20GB）】
      │
      ├─ 前半部分 ──▶ RX 9070 XT (16GB) にロード
      └─ 後半部分 ──▶ RTX 3060  (12GB) にロード

このように レイヤー単位でモデルを分割・配置するため、CrossFireやNVLinkのような「GPU同士を物理的につなぐ技術」は一切不要です。

Q2. VRAMは本当に「28GB」になるの？

はい、なります。ただし「1枚の強力なGPU」として扱えるわけではありません。

具体的には、Llama-3 70Bなどの巨大モデル（量子化済み）をロードできるようになります。1枚では絶対に起動しなかったモデルが、「分割して載せる」ことで動くようになるのです。

ただし注意点が一つ：処理速度は「遅い方のGPU（RTX 3060）」に引っ張られます。

リレー形式でデータが処理されるため、RTX 3060の処理が終わるのを待たなければなりません。それでもCPUで動かすよりは圧倒的に速いです。

Q3. RTX 3060と3070、どっちを追加すべき？

AI・LLM用途なら、RTX 3060（12GB版）の圧勝です。

項目	RTX 3060	RTX 3070
VRAM	12GB	8GB
計算性能	やや低い	高い
中古相場	約4.8万円（なるべく良状態）	約3.0〜4.5万円

AIの世界では「速度よりもVRAM容量が正義」です。8GBしかないRTX 3070では、少し大きなモデルを動かそうとするとメモリ不足でエラーになります。

3060を追加して28GBにするのと、3070を追加して24GBにするのでは、動かせるモデルの選択肢が一段階変わります。

⚠️ RTX 3060には「8GB版」も存在します。AI用途なら必ず 「12GB」と明記されたものを選んでください。

Q4. CrossFireは使えないの？

使えません。そもそも必要ありません。

AMDはRadeon RX 5000シリーズ（Navi世代）以降、CrossFireのサポートを事実上終了しています。RX 9070 XTのような最新世代にCrossFireは存在せず、ゲーム用途でも対応タイトルがほぼないため、今から考慮する意味はゼロです。

LLM環境でのマルチGPU動作は、CrossFireとは全く無関係の仕組みで動きます。

Q5. マイニングみたいな感じ？

見た目は似ていますが、中身は別物です。

項目	マイニング	LLMマシン
やること	単純計算の超高速リピート	巨大データの読み込みと予測
重視するもの	計算スピード	VRAM容量
PCへの負荷	24時間フルパワー	質問した時だけ一瞬高負荷

マイニングは「2枚にすれば2倍稼げる」足し算の世界。LLMは「28GBの器がないと、そもそも脳みそが入らない」しきい値の世界。

今回の構成は 「巨大な知能を迎え入れるための、大きな部屋を作る」 イメージです。

物理構成の変更作業メモ

GPUを2枚刺すにあたって、PCIeスロットに空きを作る必要がありました。

用意したパーツ

パーツ	用途
MSI GeForce RTX 3060 VENTUS 2X 12G	VRAM拡張用のサブGPU
ORICO 3-in-1 USBハブ有線LANアダプター（2.5Gbps対応）	PCIe LANカードの代替
Thermal Grizzly ドイツオーバークロック用特別設計高性能熱伝導グリス	CPUグリスの塗り直し用

外したパーツ

EZDIY-FAB 汎用ビデオカードホルダー
NVME M.2 PCIe 拡張カード変換アダプター → 一旦取り外し
2.5GBASE-T LANアダプタ → USB外付けアダプターに置き換え

この3つを外してPCIeスロットを空け、RTX 3060を取り付けました。

作業手順

EZDIY-FAB 汎用ビデオカードホルダーを取り外す
NVME M.2 PCIe 拡張カードと2.5G LANカードを取り外す
GPUを外したタイミングで、ついでにCPUグリスを拭き取って塗り直し（Thermal Grizzlyに交換）
LANケーブルをUSBハブ有線LANアダプターに挿し替え

EZDIY-FAB 汎用ビデオカードホルダーを取り外す

NVME M.2 PCIe 拡張カードと2.5G LANカードを取り外す

GPUを外したタイミングで、ついでにCPUグリスを拭き取って塗り直し（Thermal Grizzlyに交換）

LANケーブルをUSBハブ有線LANアダプターに挿し替え

SATAポートの注意点

M.2スロットにSSDを2枚刺しにすると、SATAの 2番・5番・6番ポートは使用不可 になります。HDDは 1番・3番・4番 に接続。（今回はM.2スロットにSSDを１枚）

GPUの配置

スロット	GPU	役割
上段（PCI_E1）	RX 9070 XT（16GB）	メイン・画面出力・ゲーム
下段（PCI_E4）	RTX 3060 VENTUS 2X 12G	サブ・LLM拡張用

RX 9070 XTは大型カードのため、つっぱり棒でしっかりサポート。

下のグラボにもつっぱり棒欲しいかも。

LANカードの代替——USB 2.5G LANアダプター選び

2.5GカードをPCIeスロットから抜くため、USB外付けの2.5Gアダプターが必要になりました。

選ぶ時のチェックポイント

LANポートが「2.5Gbps」対応か（安いハブは1Gbpsどまりが多い）
チップが「RTL8156B」または「RTL8156BG」か（末尾「G」が最新・低発熱）
マザーボードの青/赤のUSB 3.0ポートに挿す（黒いUSB 2.0ポートは速度が落ちる）

購入したモデル

ORICO 3-in-1 USBハブ有線LANアダプター（2.5Gbps対応）

USB-C / USB-A / RJ45（LAN）の3ポートを1台に集約したコンパクトなハブ。

USB-CとUSB-Aの両方から接続できるため、将来的なポート変更にも対応
2.5Gbps対応で、抜いたPCIe LANカードと同等の速度を維持
GPU2枚差しで背面スペースがタイトな環境でも、ケーブル1本にまとめられてスッキリ

ハードウェア編のまとめ

項目	内容
合計VRAM	28GB
動かせるモデル	Llama-3 70B / Qwen2.5-72B（量子化）など
速度	RTX 3060依存（CPUよりは圧倒的に速い）
必要なもの	850W以上の電源・排熱対策・AMDとNVIDIAのドライバー共存設定

これで 28GB VRAM環境のハードウェアは完成——「巨大な知能を迎え入れるための大きな部屋」は整いました。