AI硬件基础设施 · AI大模型全景

大模型是"软件"，但驱动它的"物理引擎"是AI芯片和算力基础设施。不懂硬件，就无法真正理解模型成本、训练时间、部署策略。

92%

NVIDIA GPU市占率

$30000+

H100单价

10万+

H100训练集群规模

¥3-50

云GPU时租价格(小时)

🔌 主流AI芯片对比

训练芯片 vs 推理芯片——各有所长

芯片型号	厂商	算力(FP16)	显存	功耗	适合场景	价格(参考)
NVIDIA H100	NVIDIA	1979 TFLOPS	80GB HBM3	700W	训练+推理	$25,000-30,000
NVIDIA H200	NVIDIA	1979 TFLOPS	141GB HBM3e	700W	大模型训练	$30,000-40,000
NVIDIA B200	NVIDIA	4500 TFLOPS	192GB HBM3e	1000W	旗舰训练	$50,000-70,000
NVIDIA A100	NVIDIA	312 TFLOPS	40/80GB HBM2e	400W	推理/中小训练	$10,000-15,000
AMD MI300X	AMD	1307 TFLOPS	192GB HBM3	750W	训练+推理	$15,000-20,000
Google TPU v5p	Google	459 TFLOPS	95GB HBM2e	—	训练(Google生态)	仅云服务
华为昇腾910B	华为	~600 TFLOPS	64GB HBM2e	310W	国产替代训练	¥10-15万
华为昇腾310P	华为	~16 TFLOPS	—	70W	推理/边缘	¥1-2万
Intel Gaudi 3	Intel	~1835 TFLOPS	128GB HBM2e	600W	训练+推理	$13,000-18,000
Cerebras WSE-3	Cerebras	125 PFLOPS	44GB(片上)	—	超大单芯片	数百万
寒武纪思元590	寒武纪	~512 TFLOPS	32GB HBM2e	250W	国产训练	¥6-10万

💡 关键结论：NVIDIA以CUDA生态优势保持92%市占率，但华为昇腾在中国市场快速增长（约5%全球份额）。AMD MI300X以性价比挑战NVIDIA，国产芯片主要受制于生态成熟度。

☁️ 云GPU租用成本对比

从入门到训练——算力成本全解析

GPU型号	阿里云	腾讯云	AWS	AutoDL（个人）	适合任务
A100 80G ×1	¥26-35/时	¥22-30/时	$4-5/时	¥5-8/时	模型微调/推理
H100 80G ×1	¥40-55/时	¥38-50/时	$5-7/时	¥10-15/时	全量训练
H200 141G ×1	¥50-70/时	—	$7-10/时	—	大模型训练
B200 192G ×1	—	—	$15-20/时	—	旗舰训练
RTX 4090 24G ×1	¥8-12/时	¥6-10/时	—	¥2-3/时	LoRA微调/推理
RTX 3090 24G ×1	¥5-8/时	¥4-6/时	—	¥1-2/时	入门学习
华为昇腾910B	¥15-25/时	¥12-20/时	—	—	国产化部署

💡 省钱技巧：个人学习/微调用AutoDL（¥2-8/时）最划算；企业生产推荐腾讯云（国内性价比最优）或AWS（海外覆盖最全）。AutoDL官网 →

🔬 模型训练算力需求速查

训练一个模型到底需要多少钱？

模型规模	参数量	训练GPU集群	训练时间	训练成本(云)
小模型(7B)	70亿	8×A100	5-7天	¥3-5万
中型模型(13-30B)	130-300亿	32×A100	10-14天	¥15-30万
大型模型(70B+)	700亿+	128×A100	2-4周	¥80-200万
旗舰模型(235-405B)	2350-4050亿	1024×H100	数周-数月	¥500万-2000万
超大规模(GPT-5级)	数万亿	万卡H100集群	数月	¥数亿

📊 DeepSeek效应：DeepSeek-V3仅用2048×H100训练2个月（约¥3亿），达到GPT-4级别性能，成本仅为OpenAI的1/10。高效架构+工程优化比单纯堆算力更关键。

个人用户首选。RTX 4090 ¥2-3/时，A100 ¥5-8/时。自动关机、镜像管理、Jupyter集成。适合个人开发者和学生。

国内云GPU性价比最优。H100 ¥38-50/时，昇腾910B ¥12-20/时。企业级SLA，适合中小型企业。

全球覆盖最广。H100 $5-7/时，B200 $15-20/时。Spot实例可节省60-70%。适合出海企业/全球部署。

海外个人用户最佳。Serverless GPU按秒计费。RTX 4090 $0.3/时，H100 $3-5/时。

华为昇腾：国产AI芯片绝对龙头（~85%国内市场），昇腾910B算力接近A100水平，但CANN生态相比CUDA仍有差距。目前主要支撑华为云和政务市场。
寒武纪：思元590系列性能约H100的1/4-1/3，主要供货国内运营商和科研院所。2025年开始在AI推理场景规模落地。
海光/景嘉微：追赶中，以推理和边缘场景切入。生态适配问题仍是最大瓶颈。
国产HBM：2025年长鑫存储/武汉新芯开始量产HBM2e，但HBM3仍落后三星/海力士2-3代。AI芯片的"存储墙"是最难突破的瓶颈。

⚠️ 受美国出口管制影响（2022年10月、2023年10月两次升级），H100/B200对华禁售。2026年国产替代需求迫切，华为昇腾910C预计2026年下半年发布，目标对标H200。

🖥️ AI硬件基础设施全景