艾伦·图灵发表《计算机器与智能》,提出了著名的「图灵测试」——一种判断机器能否表现出与人类无法区分的智能行为的方法。这篇论文为整个人工智能领域奠定了哲学基础。
约翰·麦卡锡、马文·明斯基、纳撒尼尔·罗切斯特和克劳德·香农在达特茅斯学院组织了一次夏季研讨会。「人工智能」这一术语在此正式诞生,标志着 AI 作为一门学科的起点。
弗兰克·罗森布拉特发明了感知机——一种能够学习分类模式的简单神经网络。它在专用硬件(Mark I 感知机)上实现,是第一台能从经验中「学习」的机器,启发了数十年的神经网络研究。
MIT 的约瑟夫·维岑鲍姆创建了 ELIZA——一个通过模式匹配进行对话的程序。它最著名的脚本 DOCTOR 模拟了一位心理治疗师,效果逼真到有些用户相信自己在跟真人交谈。
斯坦福研究院开始开发 Shakey——第一个能对自身行为进行推理的机器人。它结合了计算机视觉、自然语言理解和规划能力,是机器人技术和 AI 融合的里程碑。
马文·明斯基和西摩尔·佩伯特出版《感知机》,用数学证明了单层神经网络的局限性。这本书的影响力巨大,导致神经网络研究的资金枯竭,促成了第一次「AI 寒冬」。
在多年的过度承诺和交付不足之后,AI 研究面临严重的资金危机。英国的莱特希尔报告批评 AI 缺乏进展,DARPA 削减资金。许多研究人员离开了这个领域,第一次「AI 寒冬」来临。
斯坦福大学开发的 MYCIN 证明,编码人类专家知识的 AI 系统可以像医生一样诊断血液感染。专家系统成为 AI 的第一种商业成功形式,重新激发了人们对该领域的兴趣。
大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表关于反向传播的里程碑论文,展示了如何有效训练多层神经网络。这一突破重新激发了人们对神经网络的兴趣,为现代深度学习奠定了基础。
专家系统市场崩溃——企业发现它们维护成本高昂且脆弱不堪。Lisp 机器市场崩盘,AI 研究资金再次枯竭。该领域进入第二次重大寒冬。
IBM 的深蓝在六局对弈中击败国际象棋世界冠军加里·卡斯帕罗夫。这是计算机首次在标准锦标赛条件下击败在任世界冠军,让全球关注到 AI 的潜力。
赛普·霍赫赖特和尤尔根·施密德胡伯提出了长短期记忆网络,解决了阻止神经网络学习长序列的梯度消失问题。LSTM 后来驱动了语音识别、机器翻译等应用。
杨立昆及其团队开发了 LeNet-5——一种能读取支票上手写数字的卷积神经网络。它成为深度学习最早的实际应用之一,确立了至今仍在使用的 CNN 架构。
支持向量机和其他统计方法开始主导 AI 研究。研究重心从手工编写规则转向从数据中学习。核方法、随机森林和提升算法成为实际 AI 应用的主力。
李飞飞及其团队发布 ImageNet——一个包含超过 1400 万张标注图像的大规模视觉数据库。与之相关的 ImageNet 大规模视觉识别挑战赛(ILSVRC)成为引发深度学习革命的标杆。
亚历克斯·克里热夫斯基、伊利亚·苏茨凯弗和杰弗里·辛顿的深度神经网络以巨大优势赢得 ImageNet 竞赛,将错误率几乎减半。这一刻被广泛认为是现代 AI 时代的起点,证明了深度学习在规模化应用中的有效性。
谷歌的托马斯·米科洛夫及团队开发了 Word2Vec,将单词转化为能捕捉语义的数值向量。经典例子:「国王 - 男人 + 女人 = 女王」。这项技术变革了机器理解语言的方式。
伊恩·古德费洛提出生成对抗网络:两个神经网络相互竞争——一个生成假数据,另一个试图识别假数据。这种「对抗」方法革新了 AI 创造逼真图像、视频等内容的能力。
巴赫达瑙、赵和本吉奥为机器翻译引入注意力机制,让神经网络在生成输出时能「聚焦」输入的相关部分。这个概念后来成为 Transformer 架构的基础。
微软的何恺明及团队提出了带有「跳跃连接」的残差网络,使得训练 152 层以上的网络成为可能。ResNet 赢得了 ImageNet 挑战赛,证明更深的网络可以持续提升性能——这是扩展 AI 的关键洞察。
谷歌 DeepMind 的 AlphaGo 以 4:1 击败世界顶级围棋棋手李世石。围棋被认为对 AI 来说过于复杂——其可能的棋局数超过宇宙中的原子总数。这场胜利震惊了全世界。
谷歌研究者提出 Transformer 架构,用纯注意力机制取代循环网络。这篇论文可以说是现代 AI 最具影响力的论文——它是 GPT、BERT 以及今天几乎所有大语言模型的基础。
谷歌发布 BERT(基于 Transformer 的双向编码器表示),它双向阅读文本以更好地理解上下文。BERT 显著改善了谷歌搜索,并在几乎所有 NLP 基准测试上创下了新纪录。
OpenAI 训练了拥有 15 亿参数的语言模型 GPT-2,能生成非常连贯的文本。起初,OpenAI 以担忧被滥用为由拒绝公开完整模型——这引发了关于 AI 安全和负责任发布的首次重大辩论。
OpenAI 发布了拥有 1750 亿参数的 GPT-3——比 GPT-2 大 100 倍。它能撰写文章、编程、写诗,甚至仅通过简单提示就能进行对话。GPT-3 证明了扩大模型规模可以显著提升能力。
DeepMind 的 AlphaFold 2 解决了困扰科学界 50 年的蛋白质折叠问题,以接近实验精度预测蛋白质的三维结构。这一突破对药物研发、疾病理解和整个生物学领域意义重大。
OpenAI 推出 DALL-E,能根据文字描述生成图像。输入「一把鳄梨形状的扶手椅」,AI 就能创造出来。这标志着生成式 AI 在视觉艺术领域革命的开始。
GitHub 推出 Copilot——由 OpenAI Codex 驱动的 AI 编程助手。它能自动补全代码、根据注释生成函数、帮助开发者提高效率。这是专业软件开发中最早被广泛采用的 AI 工具之一。
Stability AI 将 Stable Diffusion 以开源形式发布,让 AI 图像生成走向大众化。与 DALL-E 不同,任何人都可以在自己的电脑上运行它。这引发了全球 AI 艺术工具、插件和社区的爆发式增长。
OpenAI 推出 ChatGPT,一个对话式 AI,仅两个月就达到 1 亿用户——成为史上增长最快的消费级应用。它让 AI 触手可及,并在全球引发了关于 AI 在社会中角色的广泛讨论。
Meta 发布 LLaMA——一系列开源大语言模型。这使强大的 AI 民主化,让全球的研究者和公司可以基于最先进的模型进行构建,而无需依赖专有 API。
OpenAI 发布 GPT-4,它能同时理解文字和图像。它通过了律师资格考试,在 SAT 中取得顶尖成绩,展现出远超前代的推理能力。多模态 AI 时代正式开启。
Anthropic 推出 Claude——基于 Constitutional AI 方法构建的 AI 助手,该方法训练模型做到有益、无害、诚实。由前 OpenAI 研究人员创立的 Anthropic 代表了行业对 AI 安全日益增长的重视。
Midjourney V5 实现了接近照片级别的图像生成,使得区分 AI 艺术和真实照片变得越来越困难。这引发了关于版权、真实性和创意职业未来的激烈辩论。
Google DeepMind 推出 Gemini——一个原生多模态模型,能理解和生成文本、代码、图像、音频和视频。它代表了谷歌最宏大的 AI 项目,也是对 GPT-4 的回应。
OpenAI 展示 Sora——一个文本生成视频模型,能根据文字提示生成令人惊叹的逼真分钟级视频。这代表了生成式 AI 的重大飞跃,同时也引发了对 AI 生成媒体的兴奋与担忧。
Anthropic 发布 Claude 3 Opus,在许多基准测试中达到或超过 GPT-4。该模型系列(Haiku、Sonnet、Opus)提供不同的能力-成本权衡,展示了行业向分层 AI 产品迈进的趋势。
OpenAI 发布 o1——一个训练为在回答前「逐步思考」问题的模型。它在数学、编程和科学推理方面表现卓越,证明了教 AI 显式推理是超越单纯扩大模型规模的强大新范式。
随着 2024 年的推进,一场重大辩论浮现:规模定律是否正在遭遇收益递减?虽然模型不断变大,一些研究者认为单纯增大模型规模已不够。行业开始探索测试时计算和推理模型等新方向。
中国 AI 实验室 DeepSeek 发布开源推理模型 R1,以远低于训练成本的代价媲美西方顶尖模型。它证明了前沿 AI 能力正在全球范围内扩散,而高效的训练方法可以缩小差距。
2025 年见证了 AI 智能体的崛起——能自主浏览网页、编写执行代码、管理文件、完成复杂多步骤任务的系统。从 Claude 的计算机使用能力到 OpenAI 的 Operator,AI 从回答问题迈向采取行动。