Dify GPU ホスティングガイド 2026 — Dify でローカル LLM を実行
GPU サーバーで Dify をホストし、Ollama または LocalAI に接続して Llama 3、Mistral などのオープンソースモデルをローカルで実行。トークンごとの API コストはゼロ、完全なデータプライバシーを実現します。
なぜ GPU サーバーで Dify を実行するのか?
Ollama または LocalAI 経由でローカルホストの LLM に Dify を接続することで、クラウド AI プロバイダーへの依存を完全に排除できます。得られるメリット:
API コスト不要
GPU サーバーの料金のみ — トークン課金なし。大量利用時に劇的にコストを削減できます。
データプライバシー
プロンプトと応答は自社インフラ外に出ません — 規制業界に不可欠です。
カスタムモデル
公開 API では利用できないファインチューニング済みモデルやドメイン特化モデルを実行可能。
レート制限なし
GPU が処理できる限りリクエストを送れます — スロットリングもクォータエラーもありません。
GPU クラウドプロバイダー比較
価格は 2026年初頭のオンデマンド概算料金です。リザーブドインスタンスやスポットインスタンスは通常より安くなります。
| プロバイダー | GPU | VRAM | 料金/時 | 用途 |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0.75/時 | 開発向け |
| Vast.ai | RTX 4090 | 24 GB | ~$0.35/時 | 低コスト |
| RunPod | A100 | 80 GB | $1.99/時 | 本番環境 |
| CoreWeave | H100 | 80 GB | $2.50/時 | エンタープライズ |
| Hetzner GPU | A100 | 80 GB | 2.49 EUR/時 | EU コンプライアンス |
CUDA と NVIDIA Container Toolkit のインストール
Dify や Ollama をインストールする前に、Docker コンテナが GPU にアクセスできるよう NVIDIA CUDA ドライバーと Container Toolkit が必要です。
CUDA Toolkit 12.3 のインストール
# NVIDIA ドライバーがインストール済みか確認
nvidia-smi
# 未インストールの場合、NVIDIA リポジトリを追加
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# CUDA ツールキットをインストール(ドライバー含む)
sudo apt install -y cuda-toolkit-12-3
# ドライバーインストール後に再起動が必要
sudo reboot GPU の確認と Docker の設定
# 再起動後、GPU が検出されているか確認
nvidia-smi
# NVIDIA Container Toolkit をインストール(Docker から GPU にアクセスするため)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker nvidia-smi を実行すると、GPU がドライバーバージョンと VRAM とともに表示されます。Docker で --gpus all が使えるようになれば、次のステップに進む準備完了です。
Ollama のインストールと LLM モデルのダウンロード
Ollama は GPU でオープンソース LLM を提供する最も簡単な方法です。CUDA を自動検出し、推論に GPU を使用します。
Ollama のインストールとモデルのダウンロード
# Ollama をインストール(ワンライナー)
curl -fsSL https://ollama.com/install.sh | sh
# Ollama が動作しているか確認
ollama list
# LLM モデルをダウンロード
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# モデルをテスト
ollama run llama3.1:8b "こんにちは、何ができますか?" Ollama を全ネットワークインターフェースにバインド
デフォルトでは Ollama は localhost のみでリッスンします。Dify の Docker コンテナから到達できるようにするため、0.0.0.0 にバインドする必要があります:
# Ollama の systemd サービスを編集して全インターフェースにバインド
sudo systemctl edit ollama --force --full
# [Service] セクションを見つけて以下を追加:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# 変更を適用
sudo systemctl daemon-reload
sudo systemctl restart ollama docker-compose.override.yaml の設定
Linux 上でコンテナが host.docker.internal をホストマシンに解決できるよう、Dify ディレクトリで docker-compose.override.yaml を作成または編集します:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" 注意: macOS と Windows では host.docker.internal が自動的に解決されます。Linux では上記の extra_hosts エントリが必要です。
Dify を Ollama に接続
Ollama が起動して到達可能になったら、Dify のモデルプロバイダーとして追加します:
- Dify インスタンスを開き、右上のアバターをクリックします。
- 設定からモデルプロバイダーに移動します。
- スクロールして Ollama を見つけ、モデルを追加をクリックします。
- ベース URL を
http://host.docker.internal:11434に設定します。 - モデル名を
ollama listの表示通りに入力します(例:llama3.1:8b)。 - 保存をクリック — Dify が接続をテストします。緑のチェックマークで成功を確認できます。
- モデルはすべての Dify アプリとワークフローで利用可能になります。
ヒント: ダウンロードした各モデルにステップ 5 を繰り返します。Ollama モデルはいくつでも追加でき、それぞれが Dify 内で個別の選択可能なモデルとして表示されます。
LocalAI — OpenAI 互換の代替手段
OpenAI 互換の API インターフェースを好む場合、LocalAI は Ollama の優れた代替手段です。/v1/chat/completions などのエンドポイントを公開しているため、追加設定なしに Dify の既存 OpenAI 統合を使用できます。
Docker で LocalAI を実行(GPU 有効)
# LocalAI を Docker で実行(GPU 有効)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 起動後、Dify で モデルプロバイダー:OpenAI-API-compatible を設定し、ベース URL を http://host.docker.internal:8080/v1 に設定し、LocalAI にロード済みの任意のモデル名を使用します。ローカルデプロイに API キーは不要です。
用途別モデル推奨
利用可能な VRAM と、アプリケーションに必要な品質・速度のトレードオフに基づいてモデルを選択してください。
| モデル | 必要 VRAM | 速度 | 用途 |
|---|---|---|---|
llama3.1:8b | ~6 GB | 高速 | 汎用・チャット |
mistral:7b | ~5 GB | 非常に高速 | 速度重視アプリ |
codellama:13b | ~10 GB | 中速 | コード生成 |
llama3.1:70b | ~40 GB | 低速 | 高品質な出力 |
mixtral:8x7b | ~26 GB | 中速 | 品質・速度のバランス |
VRAM クイックリファレンス
これはフル精度(fp16)推論の概算要件です。量子化モデル(Q4/Q5)は VRAM 使用量を 30〜50% 削減でき、小さな GPU でより大きなモデルを実行できます。