大模型推理能力集体突破,Anthropic 3800亿美元创融资纪录

要点速览
  • Gemini 3 Deep Think 在 Codeforces 编程平台达到 3455 Elo,全球仅 7 人能击败它,在数学、物理、化学奥赛均达到金牌水平
  • Anthropic 完成 300 亿美元 G 轮融资,估值达 3800 亿美元,年化收入 140 亿美元
  • OpenAI 发布 GPT-5.3-Codex-Spark,推理速度超 1000 tokens/s,专为实时编程优化
  • 智谱 GLM-5 发布,开源模型编程能力 SOTA,股价较发行价涨超 300%
  • 联合国任命 AI 问题独立科学小组,两位中国科学家当选
  • 蚂蚁开源万亿参数思考模型 Ring-2.5-1T,数学竞赛达金牌水平
  • 英伟达 Blackwell 架构将 AI 推理成本降低 90%
  • 微软 AI CEO 警告:大多数白领工作将在 18 个月内被 AI 自动化执行

大模型推理能力集体突破,Anthropic 3800亿美元创融资纪录

大模型推理能力迎来集体突破

Gemini 3 Deep Think 升级:编程能力全球第8,仅剩7人能击败它

谷歌 2 月 12 日宣布对 Gemini 3 Deep Think 进行重大升级,在多项 AI 推理基准测试中刷新纪录:

  • Codeforces 编程平台:3455 Elo 分数,排名全球第 8 位,意味着目前仅 7 名人类选手编程能力在它之上
  • ARC-AGI-2:84.6% 准确率,由 ARC Prize Foundation 验证
  • 人类最后考试(HLE):48.4% 成绩,在不使用工具的情况下取得
  • 奥赛金牌水平:在 2025 年国际数学、物理、化学奥林匹克竞赛笔试部分均达到金牌级结果
  • 理论物理:在 CMT-Benchmark 测试中获得 50.5% 分数

深度解读 & 洞察:

这次升级标志着大模型在"深度推理"领域迈入新阶段。此前,大模型擅长的是模式匹配和知识检索,但在需要多步推导、逻辑链条严密的科研任务上表现有限。Gemini 3 Deep Think 的突破在于:它开始能够像人类专家一样,在复杂问题中识别关键变量、构建推理路径、验证中间结论。

特别值得关注的是成本下降。初代 Deep Think 执行每项任务成本 77.16 美元,新版降至 13.62 美元,降幅 82%。这意味着高智能推理不再是昂贵的奢侈品,而是可以规模化应用的基础设施。

该模型已进入实际科研验证阶段。罗格斯大学数学家 Lisa Carbone 利用其审阅专业论文,成功识别出人工同行评审未发现的逻辑缺陷;杜克大学实验室用它优化晶体生长工艺,成功制备出厚度超过 100 微米的薄膜。


OpenAI 发布 GPT-5.3-Codex-Spark:每秒超千 Token 的即时编程反馈

OpenAI 与芯片公司 Cerebras 联合推出 GPT-5.3-Codex-Spark 模型,主打实时编程场景:

  • 推理速度:超 1000 tokens/s,实现近乎即时响应
  • 定位:“具备高度能力的小模型”,针对快速推理场景优化
  • 擅长领域:精确代码修改、代码库上下文问答、快速可视化布局调整
  • 硬件支持:基于 Cerebras 的 Wafer-Scale Engine,具备业内最大 SoC 片上内存
  • 开放范围:ChatGPT Pro 用户可用,覆盖 Codex 应用、CLI 和 VS Code 扩展

深度解读 & 洞察:

这个模型的发布揭示了一个重要趋势:AI 编程正在从"生成完整代码"转向"实时协作迭代"。传统 AI 编程工具的痛点在于,开发者往往感觉失去了掌控——AI 生成大段代码后,人需要花时间理解和调试。Codex-Spark 的设计理念是"让人保持主导位置",它不是替代开发者,而是像一位反应敏捷的助手,在你输入的同时就给出反馈。

1000 tokens/s 的速度意味着什么?普通模型的推理速度通常在 50-100 tokens/s,Codex-Spark 快了 10-20 倍。这种速度差异带来的体验变化是质的飞跃——你不需要等待,AI 的反馈几乎与你的思考同步。


智谱 GLM-5 发布:开源模型编程能力 SOTA,股价一个月涨超 300%

智谱昨日官宣 GLM-5 上线,平台流量呈爆发式增长。核心亮点:

  • 能力跨越:从"代码生成"进化为"具备系统性思维的 Agentic Engineering"(智能体工程)
  • 基准成绩:SWE-bench-Verified 77.8%、Terminal Bench 2.0 获得 56.2%,均为开源模型 SOTA
  • 多维能力:在 BrowseComp(联网检索)、MCP-Atlas(工具调用)、τ²-Bench(多工具规划)、Vending Bench 2(模拟经营)均取得开源最佳
  • 国产算力适配:与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等深度适配

股价方面,智谱今日盘中最高涨超 22%,达到 492 港元,总市值超 2100 亿港元。距离 1 月 8 日上市仅一个月,股价较发行价 116.20 港元涨幅超 300%。

深度解读 & 洞察:

GLM-5 的发布标志着国产大模型在"编程+智能体"这个关键赛道上已经进入全球第一梯队。更重要的是,它实现了对国产算力平台的全面适配——这意味着中国 AI 产业链正在形成"芯片-框架-模型-应用"的完整闭环。

从股价表现看,资本市场对国产大模型的信心显著提升。一个月 300% 的涨幅反映出市场对中国 AI 企业商业化前景的乐观预期。


蚂蚁开源 Ring-2.5-1T:全球首个混合线性架构万亿参数思考模型

蚂蚁集团百灵大模型今日开源 Ring-2.5-1T,核心突破:

  • 架构创新:首个混合线性架构(1:7 MLA + Lightning Linear Attention)的万亿参数模型
  • 生成效率:在超过 32K 生成长度下,访存规模降低 10 倍以上,吞吐提升 3 倍
  • 数学能力:IMO 2025 获得 35 分(金牌水平),CMO 2025 取得 105 分(远超金牌线)
  • 长程执行:支持多步规划与工具调用,适配 Claude Code 等智能体框架

模型权重已在 Hugging Face 和 ModelScope 开源。

深度解读 & 洞察:

这个模型的技术亮点在于"混合线性架构"。传统 Transformer 的注意力机制在处理长文本时,计算量会随长度平方级增长,导致成本极高。线性注意力机制通过数学变换,将计算复杂度从平方级降到线性,大幅降低了长文本处理的成本。

蚂蚁的创新在于将线性注意力与传统注意力混合使用——线性注意力负责长程依赖,传统注意力负责精细理解。这种"混合策略"既保证了效率,又没有牺牲能力。


AI 资本市场:创纪录融资与估值飙升

Anthropic 完成 300 亿美元融资,估值达 3800 亿美元

Anthropic 于 2 月 12 日宣布完成 300 亿美元 G 轮融资,创造 AI 公司单轮股权融资历史纪录:

  • 投后估值:3800 亿美元(约合 2.63 万亿元人民币)
  • 领投方:新加坡主权基金 GIC、科技产业对冲基金 Coatue
  • 参投方:DE Shaw、Dragoneer、Founders Fund、ICONIQ、MGX
  • 款项构成:包含微软和英伟达 150 亿美元投资承诺的一部分

业务表现:

  • 年化收入 140 亿美元,连续三年实现翻倍
  • 客户包含《财富》世界十强企业中的 8 家
  • 年消费超 10 万美元的客户增长 7 倍,过百万美元客户突破 500 家
  • Claude Code 年化收入达 25 亿美元,企业收入占比超 50%

深度解读 & 洞察:

这笔融资的规模和速度反映了资本市场对 AI "基础设施"公司的狂热追逐。Anthropic 的估值从 2025 年 9 月的 1830 亿美元跃升至 3800 亿美元,半年翻倍,说明市场认为 AI 公司的估值天花板远未到来。

值得注意的是,Anthropic 的收入结构呈现明显的 B 端特征——企业收入占比超 50%,年消费百万美元客户超过 500 家。这意味着 AI 正在从"消费级玩具"转变为"企业级生产力工具"。

马斯克在融资后发文抨击 Anthropic 存在偏见,称其行为"反人类"。这反映出 AI 行业竞争已从技术层面延伸到意识形态和价值观层面。

影响:

  • 对 AI 概念股:利好。创纪录融资将提振市场对 AI 企业的信心,可能带动 AI 相关股票走强
  • 投资启示:AI 行业马太效应加剧,资金和人才向头部企业集中。投资者应关注有明确商业化路径和技术护城河的企业,警惕估值泡沫风险

全球 AI 治理:联合国组建顶级专家组

联合国任命 AI 问题独立科学小组,两位中国科学家当选

当地时间 2 月 12 日,联合国秘书长古特雷斯宣布任命"人工智能问题独立国际科学小组"40 名成员,任期三年。两位中国科学家当选:

  • 宋海涛:上海交通大学、上海人工智能研究院院长,长期聚焦 AI 与机器人领域前沿技术攻关
  • 王坚:中国工程院院士、阿里云创始人,云计算技术专家

该小组从全球 2600 多名候选人中遴选,经国际电信联盟(ITU)、联合国数字与新兴技术办公室、联合国教科文组织(UNESCO)独立审查。

深度解读 & 洞察:

这个专家组的成立标志着全球 AI 治理进入"制度化"阶段。古特雷斯明确表示,专家组将补上全球治理中"缺失的一环"——以严谨、独立的科学洞见帮助各国在同一基础上参与 AI 议题讨论。

两位中国科学家的当选具有重要意义。宋海涛在人形机器人和具身智能领域有深厚积累,王坚作为阿里云创始人对云计算和 AI 基础设施有独特见解。他们的参与将确保中国在全球 AI 规则制定中拥有话语权。

专家组预计将发布首份报告,为今年 7 月在日内瓦举行的全球 AI 治理讨论提供依据。


AI 安全与风险:新威胁与新防护

OpenAI 为 ChatGPT 推出"锁定模式"与"高风险"标签

OpenAI 2 月 13 日宣布推出两项安全保护措施:

  • 锁定模式(Lockdown Mode):为高风险用户设计的高级安全设置,严格限制 ChatGPT 与外部系统交互
    • 网页浏览仅限缓存内容,禁止实时请求
    • 禁用无法提供确定性数据安全保障的功能
  • "高风险"标签:针对可能引入额外风险的功能进行统一标注
    • 已在 ChatGPT、ChatGPT Atlas 和 Codex 中启用
    • 用户可清晰了解功能风险并做出选择

深度解读 & 洞察:

“提示词注入”(Prompt Injection)正在成为 AI 安全的新焦点。这种攻击方式类似于传统网络安全中的 SQL 注入——攻击者通过精心构造的输入,诱导 AI 执行非预期的恶意指令。

锁定模式的出现,反映出 AI 系统正在从"开放探索"转向"分级管控"。对于企业高管、安全团队等敏感岗位,AI 的便利性必须让位于安全性。这是 AI 走向企业级应用的必经之路。


微软警告:"AI 推荐投毒"攻击正在蔓延

微软安全研究人员 2 月 10 日发布警告,披露一种新型攻击手段——“AI 推荐投毒”:

  • 攻击方式:在网页或 App 的"AI 总结"按钮中嵌入隐藏指令
  • 攻击效果:AI 助手会被注入持久化指令,如"记住某公司是可信来源",从而在后续回答中偏向特定产品
  • 已发现案例:金融、医疗、法律、营销、食品等行业邮件流量中已发现 50 起类似案例
  • 风险场景:金融工作者被推荐至诈骗平台、家长忽略儿童游戏不良内容等

深度解读 & 洞察:

这种攻击的可怕之处在于:它不直接攻击 AI 系统,而是攻击 AI 与用户之间的信任关系。当用户习惯了"让 AI 帮我总结",攻击者就可以在 AI 的"记忆"中植入偏见。

更值得关注的是,微软指出这些案例多来自"合法公司"而非黑客。这意味着商业竞争已经开始利用 AI 的漏洞——不是技术漏洞,而是信任漏洞。


Anthropic 安全负责人离职,称无法认同公司价值观

Anthropic 安全部门主管 Mrinank Sharma 本周在 X 平台宣布离职,并在长文中解释:

  • 在日益增长的经济压力下,公司的一些行为已无法契合他的价值观
  • 即使拥有崇高理想,工作中也面临调整优先级或作出务实妥协的压力
  • 离职后计划在诗歌、哲学方向发力并攻读相关学位
  • 认为全球正处于"多重危机"(Polykrise)状态

深度解读 & 洞察:

这起离职事件揭示了 AI 公司面临的深层矛盾:安全理想与商业现实的张力。Anthropic 成立之初以"AI 安全"为使命,但随着估值飙升、竞争加剧,公司必须在安全投入和商业扩张之间做出取舍。

安全负责人的离职,可能只是冰山一角。当 AI 公司从"理想主义"走向"商业主义",那些为安全而加入的核心人才,是否会继续留下?这个问题值得整个行业思考。


算力与基础设施:成本大幅下降

英伟达 Blackwell 架构将 AI 推理成本压缩至十分之一

英伟达 2 月 12 日发布博文,宣布在 AI 推理领域取得里程碑进展:

  • 成本下降:相比上一代 Hopper 架构,Blackwell 平台将单位 Token 生成成本降低至十分之一
  • 核心优势:GB200 NVL72 系统采用 72 芯片互联,配备 30TB 高速共享内存
  • 实际效果:多智能体工作流成本效率提升 25%-50%,游戏领域延迟更低、响应更可靠
  • 下一代 Rubin:计划引入针对预填充阶段的 CPX 等专用机制,进一步推高效率天花板

深度解读 & 洞察:

推理成本下降 90%,意味着什么?这不仅是技术突破,更是商业模式的重构。当 AI 推理成本降到足够低,"AI 即服务"才能从概念变为现实。

对于开发者而言,更低的推理成本意味着更自由的创新空间——你可以尝试更多实验,部署更复杂的智能体,而不用担心账单爆炸。对于用户而言,这意味着 AI 应用将更便宜、更普及。

影响:

  • 对 AI 应用股:利好。推理成本下降将加速 AI 应用落地,利好有成熟 AI 应用的企业
  • 投资启示:关注那些能够利用低成本推理构建商业壁垒的企业,警惕过度依赖算力溢价的企业

AI 与就业:结构性变革加速

微软 AI CEO:大多数白领工作将在 18 个月内被 AI 自动化执行

微软 AI CEO 穆斯塔法·苏莱曼近日接受《金融时报》采访,发表对 AI 影响就业的看法:

  • 未来 12-18 个月内,大部分白领工作将被 AI 完全自动化执行
  • 无论律师、会计、项目经理还是市场营销人员,AI 都将在几乎所有专业任务上达到人类水平
  • AI 可能帮助员工获得更高 KPI,但工作强度更大,导致更严重身心疲惫
  • OpenAI CEO 奥尔特曼持相对乐观态度,认为 AGI 带来的社会冲击可能比预期小

深度解读 & 洞察:

苏莱曼的警告并非空穴来风。过去一年,我们已经看到 AI 在编程、写作、数据分析等领域的快速渗透。但他的预测——18 个月内"大部分"白领工作被自动化——仍然激进。

更值得关注的是他的第二个观点:AI 可能让员工更累而非更轻松。这揭示了一个悖论——工具本应解放人类,但在竞争压力下,它反而成了加速内卷的催化剂。


IBM 逆势扩招入门级员工,AI 挤压下的人才战略

在"AI 取代初级岗位"浪潮中,IBM 宣布 2026 年美国入门级招聘规模将增加两倍:

  • 岗位转型:初级软件开发者将更多参与客户合作与实际业务场景
  • 人力资源岗:主要负责聊天机器人无法解决时的人工干预
  • 战略考量:减少初级招聘虽能短期降本,但长期会导致中层管理断层
  • 行业呼应:Dropbox 也将实习与应届生招聘规模扩大 25%

深度解读 & 洞察:

IBM 的逆势扩招提供了一个重要视角:AI 时代的初级岗位不是在消失,而是在转型。两三年前的入门级工作,AI 基本能够胜任,但新的入门级工作正在诞生——需要年轻人掌握 AI 工具,完成更高价值的任务。

这种转型对年轻人的启示是:不要只学习可以被 AI 替代的技能,而要学习如何与 AI 协作、如何定义问题、如何与人类沟通。


Spotify:顶尖开发者过去一个多月没写过一行代码

Spotify 在第四季度财报会议上透露,公司顶尖开发者自去年 12 月以来"没有写过一行代码":

  • 使用内部系统"Honk"结合 Claude Code,实现远程实时代码生成与部署
  • 工程师在通勤途中通过手机 Slack 指示 AI 修复漏洞或添加功能
  • 完成后新版本应用直接推送到 Slack,抵达办公室前完成上线
  • 正在积累独特的音乐行为数据集

深度解读 & 洞察:

这个案例展示了 AI 编程工具的极致应用。“顶尖开发者不写代码"听起来夸张,但背后的逻辑是:当 AI 能够承担大部分编码工作,人类开发者的角色就从"执行者"转变为"指挥者"和"审核者”。

但这是否意味着编程技能不重要了?恰恰相反。只有深刻理解代码逻辑的人,才能准确地向 AI 下达指令、判断 AI 输出的质量、在 AI 出错时及时纠偏。


更多动态

大模型发布与开源:

具身智能与机器人:

AI 应用与商业化:

行业动态:


想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码