SpaceX合并xAI打造1.25万亿美元巨兽；Anthropic新品以下犯上

要点速览

SpaceX收购xAI，打造1.25万亿美元火箭AI巨兽，马斯克计划在太空部署百万级卫星数据中心
Anthropic Claude Sonnet 5性能超越旗舰Opus 4.5，编程测试得分80.9%，定价对半砍
智谱开源0.9B参数GLM-OCR，OCR性能SOTA，价格仅为传统方案1/10
微软AI战略大调整，从激进的"AI无处不在"转向关注系统稳定性和基础体验
腾讯姚顺雨发布研究揭示AI缺陷：Context学习能力平均仅17.2%，最高23.7%

SpaceX收购xAI，打造1.25万亿美元火箭AI巨兽

马斯克完成了其商业帝国内部的一次重大整合：SpaceX已收购xAI，合并后新公司估值达到1.25万亿美元。这是AI与航天领域迄今为止最大规模的并购交易。

核心背景

xAI在1月份刚完成一轮200亿美元融资，估值2300亿美元。SpaceX目前正全力冲刺IPO，每股发行价预计为526.59美元。马斯克在内部备忘录中明确表示，这次合并旨在打造一个垂直整合的创新引擎，涵盖AI、火箭技术、太空互联网和移动通信。

太空超算计划

马斯克提出了一个极具野心的构想：利用太空环境的天然优势（无限太阳能和天然散热条件）部署轨道数据中心。具体规划包括：

向地球轨道发射约100万颗卫星构建星座
每吨卫星提供100kW算力，每年新增AI算力可达100GW
长期目标实现每年1TW的算力新增
预计两到三年内从构想变为现实

战略协同效应

对xAI而言，被收购意味着获得稳定的资金支持。Grok模型每月烧钱约10亿美元，SpaceX作为马斯克旗下财务表现最稳健的企业，能够为xAI提供可靠的算力保障。长期来看，xAI将优先享受太空超算带来的算力红利。

Anthropic新品Claude Sonnet 5：以下犯上的编程模型

根据泄露信息和多方验证，Anthropic即将发布下一代编程模型Claude Sonnet 5（代号Fennec），其性能已经超越了自家旗舰Claude Opus 4.5。

性能突破

在SWE-Bench编程基准测试中，Claude Sonnet 5得分突破80.9%，大幅超越此前所有编程模型的最高纪录74.4%。这一测试考察模型独立完成bug修复、代码重构、测试用例编写等真实开发任务的能力。

成本优势

受益于直接基于Google TPU进行训练和优化，Claude Sonnet 5的API调用成本降低约50%，同时提供100万token的上下文窗口，推理速度和响应延迟都有所优化。

蜂群架构：Dev Team模式

Claude Sonnet 5最具创新性的特性是多智能体协作模式。在Dev Team模式下，单个模型实例可自动生成多个专业化子智能体（后端工程师、前端工程师、测试员等），这些子智能体能够并行工作、互相通信，甚至根据任务复杂度动态扩展数量——比如从最初的5个Agent自动扩展到12个。

Anthropic将这一模式形象地比作"一个不请假的开发团队"，旨在实现真正的智能体化软件开发。

智谱开源GLM-OCR：0.9B参数刷新OCR性能基准

智谱AI于2月3日正式发布并开源GLM-OCR，这是一款专为复杂文档解析设计的轻量级OCR模型。

性能表现

94.6分登顶OmniDocBench V1.5榜单
在公式识别、表格识别、信息抽取等多项主流基准中取得SOTA表现
参数量仅0.9B，性能接近Gemini-3-Pro

场景优化

GLM-OCR针对六大核心场景进行了专门优化：

复杂表格解析：支持合并单元格、多层表头，直接输出HTML代码
手写体识别：精准识别各种手写文字
多语言混排：支持竖排、多语言混合文档
印章识别：有效识别各类印章干扰
代码文档：准确提取代码相关内容
票据提取：智能提取卡证、票据关键字段

成本优势

速度：处理PDF吞吐量达1.86页/秒，图片达0.67张/秒
价格：API仅需0.2元/百万Tokens，约为传统方案的1/10

微软AI战略大调整：从"AI无处不在"回归基础体验

微软正在重新评估其在Windows 11上的AI整合策略，从激进的全面AI植入转向关注系统核心功能的稳定性和基础体验。

战略转向动因

微软内部承认，此前将Copilot、Recall、代理式任务等AI功能强行植入系统各处，并未获得预期的用户认可。遥测数据显示，仅有极少数Windows 11用户愿意让AI介入每一层应用操作。

具体调整内容

重新评估对记事本、画图等基础应用的AI整合计划，增强功能可能被撤回
暂停在几乎所有应用界面加入Copilot按钮的推进
明确取消"代理式操作系统"方向

资源重新分配

Windows 11团队已将工程资源大幅转向可靠性建设，当前优先级最高的是：

减少频繁出现的蓝屏死机（BSOD）
修复各种系统级Bug
解决核心应用行为异常问题

腾讯姚顺雨发布Context学习研究：AI能力被高估？

腾讯首席AI科学家姚顺雨入职后首发研究成果，系统性揭示了当前大语言模型在Context学习能力方面的根本性缺陷。

核心发现

研究团队构建了CL-bench评测基准，评估模型能否从Context中学习预训练中不存在的新知识。结果令人担忧：

全行业平均分仅为17.2%
表现最好的GPT-5.1 (High) 也仅达到23.7%
相比之下，HLE"人类终极考试"中GPT-4o仅获2.7分

研究设计

CL-bench包含500个复杂Context、1,899个任务和31,607个验证标准，覆盖四大场景：

领域知识推理（如虚构法律、金融工具）
规则系统应用（如新游戏机制、新编程语法）
程序性任务执行（如复杂产品手册）
经验发现与模拟（归纳推理，最具挑战性）

深层含义

姚顺雨团队指出，尽管Context中已包含解决每个任务所需的全部信息，模型在绝大多数任务上仍然失败。这揭示了一个关键问题：当前模型擅长调用"过去"的记忆，而非实时从当前上下文中学习。

SpaceX合并xAI打造1.25万亿美元巨兽；Anthropic新品以下犯上

SpaceX收购xAI，打造1.25万亿美元火箭AI巨兽

核心背景

太空超算计划

战略协同效应

Anthropic新品Claude Sonnet 5：以下犯上的编程模型

性能突破

成本优势

蜂群架构：Dev Team模式

智谱开源GLM-OCR：0.9B参数刷新OCR性能基准

性能表现

场景优化

成本优势

微软AI战略大调整：从"AI无处不在"回归基础体验

战略转向动因

具体调整内容

资源重新分配

腾讯姚顺雨发布Context学习研究：AI能力被高估？

核心发现

研究设计

深层含义

更多动态