从1950年图灵测试到2026年Agent元年——人工智能76年进化全景
提出"图灵测试":如果机器在对话中无法被人类区分,则认为它具有智能。奠定AI的哲学与技术基础,这个问题至今仍是AI研究的核心命题。
📄 Stanford哲学院 · 图灵测试详解 →
John McCarthy、Marvin Minsky等人在达特茅斯学院召开研讨会,正式提出"人工智能"(Artificial Intelligence)这一术语。这一年被视为AI元年。
Frank Rosenblatt发明感知机(Perceptron),这是最早可以通过数据"学习"的神经网络模型。尽管功能有限,却开创了神经网络研究先河。
过于乐观的预测未能兑现,NLP和计算机视觉进展缓慢,美国国防部削减AI研究经费。AI研究陷入低谷,持续约6年。教训:计算能力和数据规模是硬约束。
基于规则的专家系统(Expert Systems)在医疗诊断、化学分析等领域商业化,代表MYCIN系统诊断血液感染准确率超过专科医生。全球专家系统市场达数十亿美元。
专家系统维护成本高昂且无法泛化,AI专用硬件(Lisp机)被通用PC取代,日本第五代计算机项目失败。资金再次大幅削减。
Rumelhart、Hinton等人推广反向传播(Backpropagation)算法,使多层神经网络的训练成为可能。这是深度学习的理论基础,但受限于算力,实用化仍需等待20年。
IBM深蓝以3.5:2.5击败当时的世界棋王,引发全球轰动。虽然深蓝本质是暴力搜索而非"智能",但标志着AI在特定领域超越人类顶尖水平成为可能。
Geoffrey Hinton在Science发表深度信念网络(DBN)论文,证明深层神经网络可以高效训练。这一年被称为"深度学习元年",正式引发了第三次AI浪潮。
Hinton团队的AlexNet将ImageNet图像识别Top-5错误率从25%降至16%,领先第二名超10个百分点。GPU并行计算+深度卷积网络的组合宣告深度学习时代正式到来。全球AI竞赛重燃。
生成对抗网络(GAN)提出"生成器vs判别器"的对抗训练框架,开创了AI生成图像/视频的技术路线,是Midjourney、Stable Diffusion等图像生成工具的技术祖先。
Google DeepMind AlphaGo以4:1击败围棋世界冠军李世石。围棋棋盘状态数超过宇宙原子总数,此前认为AI无法攻克。强化学习+深度学习的组合开创了新范式。
📄 论文原文 arxiv.org/abs/1706.03762 →
Google Brain的Vaswani等8人发表论文,提出Transformer架构和自注意力(Self-Attention)机制,彻底取代了RNN/LSTM序列处理瓶颈。这是近十年最重要的AI技术突破——目前所有知名大模型(GPT/Claude/Gemini/LLaMA等)全部基于Transformer架构。
何恺明团队提出ResNet残差网络,通过152层深度将ImageNet错误率降至3.57%,超过人类水平(5%)。ResNet论文发表于2015年12月,后获2016 CVPR最佳论文奖,成为深度学习的奠基之作。DeepMind AlphaFold首次证明AI可解决重大科学问题。
Google发布BERT(双向编码器),OpenAI发布GPT-1(生成式预训练)。两种模型分别代表"理解"和"生成"两条路线,共同确立了"大规模无标注数据预训练→下游任务微调"的现代NLP范式。NLP进入工业化阶段。
GPT-2生成的文章质量让OpenAI担忧被滥用,选择分阶段发布。这次事件让公众首次认识到大语言模型的潜力与风险,也引发了AI安全与伦理的广泛讨论。
OpenAI发布GPT-3(1750亿参数,是GPT-2的116倍),首次展现出"涌现能力"(Emergent Abilities)——无需微调,仅靠几个示例就能完成翻译、写代码、数学推理等从未专门训练的任务。"Prompt工程"概念诞生。研究者意识到:规模(Scale)本身会带来质的飞跃。
OpenAI Codex(GPT-3的代码版)成为GitHub Copilot的基础,AI辅助编程从概念变为产品。CLIP实现图文跨模态理解,为后来的DALL-E等图像生成铺路,多模态AI时代曙光初现。
2022年11月30日,OpenAI基于GPT-3.5+RLHF(人类反馈强化学习)推出ChatGPT。5天用户破百万,2个月突破1亿,成为史上用户增长最快的消费级应用。RLHF让AI学会对齐人类价值观——能够拒绝有害请求、给出礼貌恰当的回答。AI从"科研工具"走向"大众消费品",全球AI创业热潮正式点燃。
GPT-4支持图片输入,通过律师资格、医师执照等职业考试;Anthropic发布Claude 2,长文档处理能力更强;Google Bard入局;Meta开源LLaMA/LLaMA2,推动开源生态爆发。全球AI竞赛格局形成。
国内掀起大模型热潮:百度文心一言、阿里通义千问、腾讯混元、华为盘古、科大讯飞星火密集发布;字节豆包、月之暗面Kimi、零一万物Yi等新势力入场;国产模型从"追赶"进入"并跑"阶段。
Claude 3 Haiku/Sonnet/Opus建立速度-性能梯度模型体系;Gemini 1.5 Pro突破100万Token超长上下文;DeepSeek-V2以MoE架构将推理成本压缩至竞品的1/6,震惊业界。多模型共存时代正式到来。
GPT-4o实现端到端多模态(文/图/音/视),实时语音对话延迟<300ms;o1引入"思维链推理",在竞赛数学上超越99.5%人类;Sora发布引发视频生成革命;Meta开源Llama 3系列,开源生态进入高峰。
DeepSeek-R1以开源+超低成本(GPT-4o的1/30)达到同级性能,引发全球AI成本革命,美股科技股单日蒸发数千亿美元;Claude 3.7在多项编程评测中表现领先;AI Agent从实验室走向商业产品;具身智能(机器人)产业化加速;多模态技术全面成熟。
GPT-4o/Claude 3.7/Gemini 2.0三足鼎立;DeepSeek/Llama 4/Qwen3引领开源;AI Agent从产品功能变为独立服务类别;本地端侧AI(手机/PC)规模落地;具身智能进入量产阶段;OpenAI o3在ARC-AGI-1达到87%(接近人类88%),AGI争议成为科技界核心话题。
微软亚洲研究院何恺明团队提出ResNet残差网络,解决深度网络退化问题,152层网络将ImageNet错误率降至3.57%(首超人类)。获CVPR 2016最佳论文奖。何恺明成为全球AI领域最具影响力的中国学者之一。
2017年国务院发布《新一代人工智能发展规划》,提出2025年AI产业规模超4000亿元。各大高校/企业设立AI研究院,中国AI论文数量在2019年超越美国成为全球第一。百度率先发布文心ERNIE 1.0。
2022末ChatGPT爆发后,中国AI界产生巨大的"紧迫感"。2023年起百度文心、阿里通义、腾讯混元、华为盘古、讯飞星火等密集发布。字节豆包、月之暗面Kimi、零一万物Yi等创业公司跟进。
DeepSeek-V2以MoE架构极致降低推理成本;月之暗面Kimi以200万字超长上下文出圈;阿里Qwen系列全面开源,从0.5B到72B全覆盖,成为全球最活跃开源中文模型体系。
DeepSeek-R1以GPT-4o 1/30成本达到同级性能,开源后引发美股科技股单日蒸发数千亿美元("DeepSeek Shock")。美国开始反思AI芯片出口管制效果。中国AI从"跟随者"变为"规则改变者"。
2026年国产模型全面进入全球第一梯队:Qwen3.6-397B在SWE-bench达76.4%超越部分GPT版本;GLM-5编程能力大幅提升;Kimi K2.6 AA综合指数54分紧追国际旗舰;DeepSeek-V4 Pro SWE-bench达80.6%。AI Agent/具身智能成为中美国际AI竞争的新焦点。
一句话理解:让模型同时"看到"整段文字的所有位置,不再逐词顺序处理。
传统RNN处理"我昨天去了北京"时,需要顺序读完才能理解"北京"与"我"的关系;Transformer的自注意力可以直接建立任意词之间的关联,并且可以并行计算,大幅加速训练。
一句话理解:模型参数越多+训练数据越多+计算量越大,性能就越好——而且这种提升是可预测的。
OpenAI在2020年发现,语言模型的性能随参数量、数据量、计算量的增加呈幂律提升。这意味着"堆规模"是一条可靠的路,推动了从GPT-3的1750亿到更大模型的军备竞赛。
一句话理解:用人类的好恶来"训练"AI变得更有用、更安全、更符合人类价值观。
三步走:①收集人类标注员对AI输出的偏好排序;②训练一个奖励模型来预测人类评分;③用PPO强化学习优化语言模型,最大化奖励分数。ChatGPT之所以比GPT-3.5"好用得多",核心就是RLHF。
一句话理解:随着模型规模增大,突然出现的、小模型完全没有的能力。
GPT-3之前,没有人预料到大语言模型会"自然而然"学会算术、翻译、写代码。这些能力不是专门训练出来的,而是在规模达到某个临界点后"涌现"的。这也是为什么每次大模型发布都会有惊喜。
一句话理解:一个模型里放多个"专家",每次只激活其中几个,大幅降低推理成本。
GPT-4、DeepSeek、Qwen3等顶尖模型都使用MoE架构。以DeepSeek-V3为例:总参数671B,但每次推理只激活约37B,实际计算量远低于Dense模型,使其在高性能的同时保持极低成本。
一句话理解:让AI先"想一想"再给答案,大幅提升复杂推理准确率。
普通模式:问题→答案。CoT模式:问题→一步步分析→答案。在数学竞赛、逻辑推理、代码调试等任务中,CoT能将准确率提升30-50%。OpenAI o1/o3就是将"长思考"作为核心能力推向极致的产品。