RTX 5090でローカルLLMを実行する完全ガイド

> 公開日: 2026年3月8日
> 対象読者: ローカルLLMを始めたい初心者〜中級者
> 関連記事: [RTX 5090で始めるAI開発入門](){: .internal-link placeholder=”rtx5090-ai-development-beginner”}

—

1. はじめに：なぜRTX 5090がローカルLLMに最適なのか
1. なぜ「ローカル」なのか？
2. なぜRTX 5090なのか？
2. RTX 5090のスペック概要（AI開発観点）
3. 必要なハードウェア要件
4. セットアップガイド
5. DeepSeek / Qwen等の主要モデル実行方法
6. パフォーマンス測定結果（推定値）
7. トラブルシューティング
1. よくある問題と解決策
8. まとめ：RTX 5090で開くローカルLLMの世界
参考リンク

1. はじめに：なぜRTX 5090がローカルLLMに最適なのか

2026年現在、ローカルLLM（大規模言語モデル）を実行する環境として、NVIDIA RTX 5090は文句なしの最強GPUです。

なぜ「ローカル」なのか？

クラウドAIサービス（ChatGPT、Gemini、Claude等）は便利ですが、以下の理由でローカル実行が見直されています：

プライバシー: データが外部に送信されない
コスト: 従量課金を気にせず使い放題
オフライン: ネット環境がない場所でも利用可能
カスタマイズ: モデルの微調整が自由にできる
レイテンシー: ネットワーク遅延なし

なぜRTX 5090なのか？

RTX 5090は前世代のRTX 4090を大幅に上回るAI性能を誇り、DeepSeek V4やQwen3-Maxといった最新モデルも快適に実行できます。

| 項目 | RTX 5090 | RTX 4090 |
|——|———-|———-|
| VRAM | 32GB GDDR7 | 24GB GDDR6X |
| AI推論性能 | 約1.8倍 | ベースライン |
| 消費電力(TGP) | 575W | 450W |

> ⚠️ 注意: 575Wという消費電力は、一般家電を超えるレベルです。電源ユニットと熱設計が重要になります（後述）。

—

2. RTX 5090のスペック概要（AI開発観点）

ローカルLLM実行において重要なスペックを解説します。

VRAM（ビデオメモリ）：32GB GDDR7

これが最も重要です。 LLMのサイズはVRAMで決まります：

| モデルサイズ | 必要VRAM | 代表的なモデル |
|————-|———-|—————-|
| 7B〜8B | 6〜10GB | Llama 3.1 8B, Mistral 7B |
| 14B | 10〜16GB | Qwen2.5 14B, Gemma 2 27B(4bit) |
| 32B〜34B | 20〜24GB | Yi-34B, Command R |
| 70B〜72B | 40〜48GB | Llama 3.1 70B, Qwen2.5 72B |
| 100B以上 | 64GB+ | DeepSeek V4, Qwen3-Max |

RTX 5090の32GBあれば、量子化（4bit圧縮）を使えば70Bクラスまで実行可能です。

Tensor Core第5世代

AI推論を高速化する専用ハードウェア。RTX 5090では第5世代Tensor Coreにより、FP8精度での計算がさらに高速化されています。

NVLink対応（オプション）

2枚のGPUを接続してVRAMを統合できる機能。RTX 5090同士を繋げば、事実上64GB VRAMとして扱えます。

—

3. 必要なハードウェア要件

RTX 5090を安定して動作させるには、適切な周辺機器が必須です。

電源ユニット（PSU）

“`
推奨: 1200W以上（80 PLUS Platinum/Gold認証）
“`

RTX 5090単体で575W消費します。CPU、メモリ、ストレージ等を含めると、システム全体で800W〜1000W近くになるため、余裕を持った電源が必要です。

CPU

“`
推奨: Intel Core i7/i9 または AMD Ryzen 7/9
“`

LLMのロード時やトークナイズ処理でCPUも使用されます。多コアの高速なCPUを選びましょう。

メモリ（RAM）

“`
推奨: 64GB以上（DDR5推奨）
“`

モデルのロード中や、複数のプロセスを動かす場合に必要です。

ストレージ

“`
推奨: NVMe SSD 2TB以上
“`

LLMのモデルファイルは大きいです（70Bモデルで40GB以上）。高速な読み書きができるNVMe SSDを推奨します。

冷却・ケース

“`
推奨: フロント/トップに大口径ファンを装備したATXフルタワー
“`

575Wの熱を逃がすには、十分なエアフローが必要です。GPU温度が85°Cを超えるようなら冷却を見直しましょう。

電力契約の確認

“`
注意: 一般的なコンセント（1500W）であれば問題ありませんが、
タコ足配線や古い配線ではブレーカーが落ちる可能性があります。
“`

—

4. セットアップガイド

それでは、実際にローカルLLM環境を構築していきましょう。

4-1. NVIDIAドライバーのインストール

まず、最新のNVIDIAドライバーをインストールします。

“`bash

Ubuntu/Debianの場合

sudo apt update
sudo apt install nvidia-driver-575

インストール後、再起動

sudo reboot

確認

nvidia-smi
“`

`nvidia-smi`コマンドでGPUが認識されていればOKです。

4-2. Ollamaのインストール（初心者向け）

Ollamaは、ローカルLLMを最も手軽に使えるツールです。

“`bash

Linux/macOS

curl -fsSL https://ollama.com/install.sh | sh

モデルのダウンロードと実行

ollama run llama3.1:8b

DeepSeek V3を実行

ollama run deepseek-v3:8b

Qwen2.5を実行

ollama run qwen2.5:14b
“`

たったこれだけでローカルLLMが動きます！

#### Ollamaの主なコマンド

“`bash

モデル一覧

ollama list

モデル削除

ollama rm llama3.1:8b

モデル情報

ollama show llama3.1:8b

APIサーバーとして起動（デフォルト: http://localhost:11434）

ollama serve
“`

#### API経由で使用

“`bash
curl http://localhost:11434/api/generate -d ‘{
“model”: “llama3.1:8b”,
“prompt”: “RTX 5090について説明して”
}’
“`

4-3. vLLMのインストール（上級者向け）

vLLMは、本格的な運用に適した高速推論エンジンです。APIサーバーとしてOpenAI互換のインターフェースを提供します。

“`bash

仮想環境作成

python -m venv vllm-env
source vllm-env/bin/activate

vLLMインストール

pip install vllm

モデルを指定してサーバー起動

vllm serve Qwen/Qwen2.5-14B-Instruct \
–tensor-parallel-size 1 \
–gpu-memory-utilization 0.9 \
–port 8000
“`

#### OpenAI互換APIでアクセス

“`bash
curl http://localhost:8000/v1/chat/completions \
-H “Content-Type: application/json” \
-d ‘{
“model”: “Qwen/Qwen2.5-14B-Instruct”,
“messages”: [
{“role”: “user”, “content”: “ローカルLLMのメリットは？”}
]
}’
“`

4-4. モデルのダウンロード

#### Hugging Faceから直接ダウンロード

“`bash

huggingface-hubをインストール

pip install huggingface-hub

モデルをダウンロード

huggingface-cli download Qwen/Qwen2.5-14B-Instruct \
–local-dir ./models/Qwen2.5-14B-Instruct

GGUF形式（量子化済み）をダウンロード

huggingface-cli download Qwen/Qwen2.5-14B-Instruct-GGUF \
qwen2.5-14b-instruct-q4_k_m.gguf \
–local-dir ./models/
“`

#### おすすめモデル一覧

| モデル | サイズ | 特徴 | 用途 |
|——–|——–|——|——|
| Llama 3.1 8B | 8B | 高速・軽量 | 汎用チャット |
| Qwen2.5 14B | 14B | 日本語得意 | 日本語タスク |
| DeepSeek V3 8B | 8B | コーディング強 | プログラミング |
| Mistral 7B | 7B | バランス良好 | 汎用 |
| Gemma 2 27B | 27B | 高性能 | 高品質生成 |

—

5. DeepSeek / Qwen等の主要モデル実行方法

5-1. DeepSeek（コーディング特化）

DeepSeek V4は2026年のコーディング特化モデルとして注目されています。

“`bash

Ollamaで実行

ollama run deepseek-v3:8b

vLLMで実行（大規模モデル）

vllm serve deepseek-ai/DeepSeek-V3-Base \
–tensor-parallel-size 1 \
–gpu-memory-utilization 0.95
“`

5-2. Qwen（日本語得意）

アリババのQwenシリーズは日本語処理に優れています。

“`bash

Qwen2.5 14B（日本語バランス型）

ollama run qwen2.5:14b

Qwen3-Omni（マルチモーダル：画像・音声対応）

※RTX 5090の32GB VRAMが必要

vllm serve Qwen/Qwen3-Omni-32B \
–tensor-parallel-size 1 \
–trust-remote-code
“`

5-3. Llama 3.1（Metaのフラッグシップ）

“`bash

8B（軽量版）

ollama run llama3.1:8b

70B（RTX 5090では4bit量子化で実行可能）

ollama run llama3.1:70b
“`

5-4. 量子化モデルの活用

VRAMを節約するため、4bit量子化（Q4_K_M）を使うのが一般的です：

“`bash

GGUF形式の量子化モデルを使用

ollama run llama3.1:70b-q4_K_M

またはLM StudioでGUI操作

https://lmstudio.ai/ からダウンロード

“`

—

6. パフォーマンス測定結果（推定値）

RTX 5090での推定パフォーマンスを示します（実測値は環境により変動）。

トークン生成速度（tokens/second）

| モデル | RTX 5090 | RTX 4090 | 向上率 |
|——–|———-|———-|——–|
| Llama 3.1 8B | 150+ t/s | 85 t/s | 1.8x |
| Qwen2.5 14B | 80+ t/s | 45 t/s | 1.8x |
| Llama 3.1 70B (4bit) | 18+ t/s | 10 t/s | 1.8x |
| DeepSeek V3 67B (4bit) | 15+ t/s | 8 t/s | 1.9x |

レイテンシー（初回応答までの時間）

| モデル | RTX 5090 |
|——–|———-|
| Llama 3.1 8B | < 0.1秒 | | Qwen2.5 14B | < 0.2秒 | | Llama 3.1 70B (4bit) | < 1秒 |

電力効率

“`
RTX 5090の実消費電力: 450〜575W（負荷依存）
トークンあたりの消費電力: 約3.8W/token（70Bモデル）
“`

> 💡 ヒント: 電力コストを気にする場合、小さめのモデルを選ぶと効率が良いです。

—

7. トラブルシューティング

よくある問題と解決策

#### 「CUDA out of memory」エラー

“`
原因: VRAM不足
解決策:
1. より小さいモデルを使用
2. 4bit量子化モデルを使用（Q4_K_M等）
3. –gpu-memory-utilization を下げる
“`

“`bash

vLLMでメモリ使用率を調整

vllm serve Qwen/Qwen2.5-14B-Instruct \
–gpu-memory-utilization 0.8
“`

#### モデルのダウンロードが遅い

“`
原因: Hugging Faceサーバーへのアクセス
解決策: ミラーサイトを使用
“`

“`bash

HF_ENDPOINT環境変数を設定

export HF_ENDPOINT=https://hf-mirror.com
“`

#### 生成速度が遅い

“`
原因: 複数の要因が考えられる
確認事項:
1. GPUが正しく認識されているか（nvidia-smi）
2. CPUボトルネックでないか
3. ストレージがNVMe SSDか
“`

#### 電源が落ちる / ブレーカーが落ちる

“`
原因: 電力不足
解決策:
1. 電源ユニットの容量を確認（1200W以上推奨）
2. 延長コードを使わず壁のコンセントに直接接続
3. 他の家電と回路を分ける
“`

#### 日本語の出力が不自然

“`
原因: モデルが日本語に最適化されていない
解決策: Qwen2.5や日本語ファインチューニングモデルを使用
“`

“`bash

日本語得意なモデル

ollama run qwen2.5:14b
ollama run elyza:7b # 日本語特化
“`

—

8. まとめ：RTX 5090で開くローカルLLMの世界

RTX 5090は、個人開発者にとってかつてないほど強力なローカルLLM環境を提供します。

得られるもの

プライバシー: すべてのデータをローカルに保持
コスト削減: API課金を気にせず使い放題
柔軟性: あらゆるモデルを自由に試せる
学習機会: LLMの仕組みを深く理解できる

注意点

初期投資: GPU、電源、冷却で20万円以上かかる可能性
電力消費: 575Wという消費電力への配慮が必要
知識要求: ある程度の技術的知識が必要

次のステップ

1. [RTX 5090で始めるAI開発入門](){: .internal-link placeholder=”rtx5090-ai-development-beginner”} – より深い開発環境の構築
2. [ローカルLLMでRAGを構築する](){: .internal-link placeholder=”local-llm-rag-guide”} – 自分のドキュメントを検索できるAI
3. [ファインチューニング入門](){: .internal-link placeholder=”finetuning-guide”} – モデルを自分好みにカスタマイズ

—