2026年3月更新 API 费用 $0

Dify GPU 托管指南 2026 — 使用 Dify 运行本地 LLM

在 GPU 服务器上托管 Dify,并连接 Ollama 或 LocalAI,在本地运行 Llama 3、Mistral 等开源模型——零 API 调用费用,数据完全私密。

为什么要在 GPU 服务器上运行 Dify?

通过 Ollama 或 LocalAI 将 Dify 连接到本地托管的 LLM,可以完全消除对云端 AI 提供商的依赖。以下是您的收益:

💰

无 API 费用

只需支付 GPU 服务器费用——无需按 token 计费。大规模使用时成本大幅降低。

🔒

数据隐私

提示词和响应不会离开您的基础设施——对受监管行业至关重要。

🧩

自定义模型

运行任何公共 API 无法提供的微调或领域专用模型。

🚀

无速率限制

GPU 能处理多少请求就发多少——无节流,无配额错误。

GPU 云服务商对比

价格为 2026年初按需使用的大致费率,预留实例和竞价实例通常更便宜。

服务商 GPU 显存 价格/小时 适用场景
Lambda Labs A10 24 GB $0.75/小时 开发测试
Vast.ai RTX 4090 24 GB ~$0.35/小时 经济实惠
RunPod A100 80 GB $1.99/小时 生产环境
CoreWeave H100 80 GB $2.50/小时 企业级
Hetzner GPU A100 80 GB 2.49 EUR/小时 欧盟合规
1

安装 CUDA 和 NVIDIA Container Toolkit

在安装 Dify 或 Ollama 之前,您需要 NVIDIA CUDA 驱动和 Container Toolkit,以便 Docker 容器能够访问 GPU。

安装 CUDA Toolkit 12.3

# 检查 NVIDIA 驱动是否已安装
nvidia-smi

# 如未安装,添加 NVIDIA 软件源
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# 安装 CUDA 工具包(含驱动)
sudo apt install -y cuda-toolkit-12-3

# 安装驱动后需要重启
sudo reboot

验证 GPU 并配置 Docker

# 重启后,验证 GPU 是否被识别
nvidia-smi

# 安装 NVIDIA Container Toolkit(让 Docker 容器访问 GPU)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

运行 nvidia-smi 后,您应该能看到 GPU 及其驱动版本和显存信息。如果 Docker 现在可以使用 --gpus all,则可以进入下一步。

2

安装 Ollama 并拉取 LLM 模型

Ollama 是在 GPU 上运行开源 LLM 最简便的方式,它会自动检测 CUDA 并使用 GPU 进行推理。

安装 Ollama 并拉取模型

# 安装 Ollama(一键安装)
curl -fsSL https://ollama.com/install.sh | sh

# 验证 Ollama 是否运行
ollama list

# 拉取 LLM 模型
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# 测试模型
ollama run llama3.1:8b "你好,你能做什么?"

将 Ollama 绑定到所有网络接口

默认情况下,Ollama 仅监听 localhost。要使其能被 Dify 的 Docker 容器访问,需将其绑定到 0.0.0.0

# 编辑 Ollama systemd 服务,绑定到所有网络接口
sudo systemctl edit ollama --force --full

# 找到 [Service] 部分并添加:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# 应用更改
sudo systemctl daemon-reload
sudo systemctl restart ollama

配置 docker-compose.override.yaml

在 Dify 目录中创建或编辑 docker-compose.override.yaml,以便 Linux 上的容器能将 host.docker.internal 解析为宿主机:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

注意: 在 macOS 和 Windows 上,host.docker.internal 会自动解析。在 Linux 上,上述 extra_hosts 条目是必需的。

3

将 Dify 连接到 Ollama

Ollama 运行并可访问后,将其添加为 Dify 的模型提供商:

  1. 打开您的 Dify 实例,点击右上角的头像。
  2. 进入设置,然后选择模型提供商
  3. 向下滚动找到 Ollama,点击添加模型
  4. 基础 URL 设置为 http://host.docker.internal:11434
  5. 按照 ollama list 显示的名称,准确填写模型名称(例如 llama3.1:8b)。
  6. 点击保存——Dify 将测试连接,绿色对勾表示成功。
  7. 该模型现已在您所有的 Dify 应用和工作流中可用。

提示: 对每个拉取的模型重复第 5 步。您可以添加任意数量的 Ollama 模型——每个都会作为独立的可选模型出现在 Dify 中。

4

LocalAI — 兼容 OpenAI 的替代方案

如果您偏好兼容 OpenAI 的 API 接口,LocalAI 是 Ollama 的出色替代方案。它暴露了 /v1/chat/completions 等端点,无需额外配置即可使用 Dify 现有的 OpenAI 集成。

使用 Docker 运行 LocalAI(GPU)

# 使用 Docker 运行 LocalAI(启用 GPU)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

启动后,在 Dify 中配置模型提供商:OpenAI-API-compatible,将基础 URL 设为 http://host.docker.internal:8080/v1,并使用在 LocalAI 中加载的任意模型名称。本地部署无需 API 密钥。

按使用场景的模型推荐

根据可用显存以及应用对质量与速度的权衡来选择模型。

模型 所需显存 速度 适用场景
llama3.1:8b ~6 GB 快速 通用对话
mistral:7b ~5 GB 非常快 速度优先应用
codellama:13b ~10 GB 中等 代码生成
llama3.1:70b ~40 GB 较慢 高质量输出
mixtral:8x7b ~26 GB 中等 质量与速度均衡

显存快速参考

~6 GB
7B 模型
如 Llama 3.1 8B、Mistral 7B
~10 GB
13B 模型
如 CodeLlama 13B
~20 GB
34B 模型
如 CodeLlama 34B
~40 GB
70B 模型
如 Llama 3.1 70B

以上为全精度(fp16)推理的大致需求。量化模型(Q4/Q5)可将显存占用降低 30–50%,使更大的模型能在较小的 GPU 上运行。

相关指南

Dify 自托管指南
在自己的服务器或 VPS 上自托管 Dify 的完整教程。
Dify Docker 部署
在生产环境中运行 Dify 的 Docker Compose 配置分步指南。
最佳 Dify 托管服务商
2026年 Dify 托管和云服务选项对比。