模型训练·微调·部署 · AI大模型全景

🎯 核心概念：什么时候需要微调？

场景

RAG（检索增强）

微调（Fine-tuning）

成本

¥0-500/月

¥5000-数百万

更新速度

上传文档即时生效

重新训练数天-数周

什么时候选

需要引用特定文档、答案需查证来源

需要固定输出格式、领域术语表述风格迁移

💡 实践经验：80%的场景RAG就够了，剩下20%才需要微调。先用RAG验证需求，有明确ROI再考虑微调。

🔧 模型微调技术全览

🧩 LoRA（低秩适配）

冻结原模型参数，插入可训练的小矩阵（通常仅占原参数0.1-1%）。训练速度和显存需求降低90%以上。

显存需求：7B模型≈16GB | 13B≈24GB | 70B≈140GB
框架：PEFT / Unsloth
适合：大多数人首选——效果好、成本低、速度快

🧩 QLoRA（量化LoRA）

在LoRA基础上把原模型量化为4-bit，进一步降低显存。7B模型只需10GB显存（一张RTX 3090即可）。

显存需求：7B≈10GB | 13B≈16GB | 70B≈72GB
框架：PEFT + bitsandbytes
适合：消费级显卡微调大模型的最佳方案

🎯 全参微调（Full Fine-tuning）

更新模型所有参数，效果最好但成本最高。通常只有企业级场景才做。

框架：Transformers / Megatron-LM
显存需求：7B≈140GB | 70B≈1.4TB
适合：需要最高质量、有足够算力预算的场景

💡 RLHF/DPO（对齐训练）

让模型的输出更符合人类偏好。ChatGPT/Claude的"好用"主要靠这个。

RLHF：需训练奖励模型+PPO，训练复杂
DPO：直接优化偏好，简化流程，2024年后成为主流
工具：TRL / Distilabel

🚀 模型本地部署方案

从Ollama到vLLM——把模型跑在你自己电脑上

工具	定位	技术栈	显存要求	QPS	推荐场景
Ollama	个人本地运行	Go+llama.cpp	4-32GB	低	个人学习/实验
llama.cpp	本地推理核心	C++	4-48GB	中	CPU/混合推理
vLLM	生产级推理	Python+CUDA	24-80GB	高	API服务/高并发
TensorRT-LLM	NVIDIA优化	C+++CUDA	24-80GB	最高	企业生产部署
TGI	HuggingFace推理	Rust+Python	24-80GB	高	HF生态集成
LocalAI	OpenAI兼容	Go	4-32GB	低-中	本地替代API
OpenAI API	云端托管	—	—	极高	快速上线/无运维

📦 模型量化：降本增效的利器

FP16（半精度）

原始精度，质量100%。7B模型≈14GB显存。推理质量最高。

INT8（8-bit）

质量损失约1-2%，显存减半。7B≈7GB。性价比最佳。

INT4（4-bit）

质量损失约3-5%，显存仅1/4。7B≈4GB。消费级显卡运行大模型的关键。

GGUF格式

llama.cpp的标准量化格式。CPU可达1-3 tok/s，GPU可达10-30 tok/s。

GPTQ格式

GPU专用量化格式，推理速度优于GGUF。适合GPU部署场景。

AWQ格式

激活感知量化，质量优于GPTQ。2025年后成为GPU量化的新标准。

⚡ 3分钟部署方案

🅰️ 个人学习：Ollama（最简单）

# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 下载并运行模型（自动下载Qwen3-7B）
ollama run qwen3:7b
# REST API调用
curl http://localhost:11434/api/generate -d '{"model":"qwen3:7b","prompt":"你好"}'

💡 Ollama支持OpenAI兼容API模式：运行后可在Cursor/Continue中配置使用本地模型！

🅱️ 生产级API服务：vLLM（推荐）

# 安装
pip install vllm
# 启动服务（搭载DeepSeek-V3）
python -m vllm.entrypoints.openai.api_server --model deepseek-ai/DeepSeek-V3 --port 8000
# 调用（兼容OpenAI格式）
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="sk-xxx")

vLLM特点：PagedAttention高效显存管理、Continuous Batching提高吞吐量、量化支持AWQ/GPTQ、OpenAI兼容接口。

📌 开发者部署决策树

个人电脑跑小模型(7B以下)

Ollama + GGUF量化（无需GPU，CPU可跑）

企业API推理服务

vLLM + AWQ量化 + NVIDIA GPU

高吞吐生产系统

TensorRT-LLM + 多GPU负载均衡

国内私有化部署

华为昇腾 + CANN + 华为云ModelArts

边缘/端侧AI

llama.cpp + INT4量化 + 手机/树莓派

不想运维

直接调用API（OpenAI/DeepSeek/Qwen）最省心

⚙️ 模型训练·微调·部署实战

🎯 核心概念：什么时候需要微调？

🧩 LoRA（低秩适配）

🧩 QLoRA（量化LoRA）

🎯 全参微调（Full Fine-tuning）

💡 RLHF/DPO（对齐训练）

⚡ 3分钟部署方案

🅰️ 个人学习：Ollama（最简单）

🅱️ 生产级API服务：vLLM（推荐）

📌 开发者部署决策树