🎯 核心概念:什么时候需要微调?
场景
RAG(检索增强)
微调(Fine-tuning)
什么时候选
需要引用特定文档、答案需查证来源
需要固定输出格式、领域术语表述风格迁移
💡 实践经验:80%的场景RAG就够了,剩下20%才需要微调。先用RAG验证需求,有明确ROI再考虑微调。
🔧 模型微调技术全览
🧩 LoRA(低秩适配)
冻结原模型参数,插入可训练的小矩阵(通常仅占原参数0.1-1%)。训练速度和显存需求降低90%以上。
- 显存需求:7B模型≈16GB | 13B≈24GB | 70B≈140GB
- 框架:PEFT / Unsloth
- 适合:大多数人首选——效果好、成本低、速度快
🧩 QLoRA(量化LoRA)
在LoRA基础上把原模型量化为4-bit,进一步降低显存。7B模型只需10GB显存(一张RTX 3090即可)。
🎯 全参微调(Full Fine-tuning)
更新模型所有参数,效果最好但成本最高。通常只有企业级场景才做。
💡 RLHF/DPO(对齐训练)
让模型的输出更符合人类偏好。ChatGPT/Claude的"好用"主要靠这个。
- RLHF:需训练奖励模型+PPO,训练复杂
- DPO:直接优化偏好,简化流程,2024年后成为主流
- 工具:TRL / Distilabel
🚀 模型本地部署方案
从Ollama到vLLM——把模型跑在你自己电脑上
| 工具 | 定位 | 技术栈 | 显存要求 | QPS | 推荐场景 |
| Ollama | 个人本地运行 | Go+llama.cpp | 4-32GB | 低 | 个人学习/实验 |
| llama.cpp | 本地推理核心 | C++ | 4-48GB | 中 | CPU/混合推理 |
| vLLM | 生产级推理 | Python+CUDA | 24-80GB | 高 | API服务/高并发 |
| TensorRT-LLM | NVIDIA优化 | C+++CUDA | 24-80GB | 最高 | 企业生产部署 |
| TGI | HuggingFace推理 | Rust+Python | 24-80GB | 高 | HF生态集成 |
| LocalAI | OpenAI兼容 | Go | 4-32GB | 低-中 | 本地替代API |
| OpenAI API | 云端托管 | — | — | 极高 | 快速上线/无运维 |
📦 模型量化:降本增效的利器
FP16(半精度)
原始精度,质量100%。7B模型≈14GB显存。推理质量最高。
INT8(8-bit)
质量损失约1-2%,显存减半。7B≈7GB。性价比最佳。
INT4(4-bit)
质量损失约3-5%,显存仅1/4。7B≈4GB。消费级显卡运行大模型的关键。
GGUF格式
llama.cpp的标准量化格式。CPU可达1-3 tok/s,GPU可达10-30 tok/s。
GPTQ格式
GPU专用量化格式,推理速度优于GGUF。适合GPU部署场景。
AWQ格式
激活感知量化,质量优于GPTQ。2025年后成为GPU量化的新标准。
⚡ 3分钟部署方案
🅰️ 个人学习:Ollama(最简单)
# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 下载并运行模型(自动下载Qwen3-7B)
ollama run qwen3:7b
# REST API调用
curl http://localhost:11434/api/generate -d '{"model":"qwen3:7b","prompt":"你好"}'
💡 Ollama支持OpenAI兼容API模式:运行后可在Cursor/Continue中配置使用本地模型!
🅱️ 生产级API服务:vLLM(推荐)
# 安装
pip install vllm
# 启动服务(搭载DeepSeek-V3)
python -m vllm.entrypoints.openai.api_server --model deepseek-ai/DeepSeek-V3 --port 8000
# 调用(兼容OpenAI格式)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="sk-xxx")
vLLM特点:PagedAttention高效显存管理、Continuous Batching提高吞吐量、量化支持AWQ/GPTQ、OpenAI兼容接口。
📌 开发者部署决策树
个人电脑跑小模型(7B以下)
Ollama + GGUF量化(无需GPU,CPU可跑)
企业API推理服务
vLLM + AWQ量化 + NVIDIA GPU
高吞吐生产系统
TensorRT-LLM + 多GPU负载均衡
国内私有化部署
华为昇腾 + CANN + 华为云ModelArts
边缘/端侧AI
llama.cpp + INT4量化 + 手机/树莓派
不想运维
直接调用API(OpenAI/DeepSeek/Qwen)最省心