- 谷歌发布 Gemini 3.1 Pro,推理性能翻倍,定价持平
- OpenAI 融资超 1000 亿美元,估值突破 8500 亿美元
- 英伟达拟 300 亿美元投资 OpenAI,取代千亿美元合作计划
- Meta 为 AI 军备竞赛连续两年削减员工股权
- 清华团队用 AI 模型将韦伯望远镜探测深度提升 1 个星等
- 微软研究证实 AI 聊天机器人多轮对话成功率降至 65%
- 港股 AI 企业智谱、MINIMAX 逆势大涨
- OpenAI 奥尔特曼称中国企业 AI 发展速度惊人

AI 模型升级与技术突破
谷歌 Gemini 3.1 Pro 发布:推理能力翻倍
谷歌正式推出 Gemini 3.1 Pro,这是其核心模型的重大迭代版本。该模型专为科学、研究与工程领域的复杂任务设计,在核心推理能力上实现了显著提升。
性能突破:
- 在 ARC-AGI-2 基准测试中,3.1 Pro 取得 77.1% 的得分,推理性能达到上一代 3 Pro 的两倍以上
- 在 Arena 对比评测中,整体排名分数比 3 Pro 高出 13 分,文本与代码维度进步尤为明显
- 支持 1M 上下文窗口,知识截止日期为 2025 年 1 月
多模态能力提升: 3.1 Pro 能够根据提示词生成可交互的 3D 场景、数据可视化仪表盘、模拟游戏环境等内容。例如,用户可通过单次提示生成可手势交互的 3D 椋鸟群飞场景,并自动生成配套音乐。
定价持平: 输入价格为 2-4 美元/百万 tokens,输出价格为 4-18 美元/百万 tokens,与 3 Pro 保持一致。以 ARC-AGI-2 任务计算,单次任务成本约 0.96 美元。
深度解读: Gemini 3.1 Pro 首次采用「.1」版本号,表明谷歌正在加速模型迭代节奏。该模型采用了上周发布的 Gemini 3 Deep Think 背后的技术,但成本仅为后者的十分之一。这印证了大模型正持续向「帕累托前沿」推进——性能提升的同时,成本呈数量级下降。
印度 Sarvam 发布两款 MoE 架构大模型
印度 AI 实验室 Sarvam 在印度人工智能影响力峰会上发布了两款「从 0 构建」的 MoE(混合专家)架构大语言模型。
模型规格:
- 小型型号:30B-A1B 设计,预训练数据规模达 16T,支持 32K 上下文窗口
- 大型型号:105B-A9B 设计,支持 128K 上下文窗口
性能声称: Sarvam 宣称其 105B-A9B 模型在印度语言基准测试中优于谷歌 Gemini 2.5 Flash,对于更广泛的工作负载,在大多数基准测试中优于 DeepSeek R1。
深度解读: 这是印度本土 AI 力量的一次重要发声。Sarvam 选择开源权重的方式发布,有助于在开发者社区中建立影响力。随着全球 AI 竞争加剧,印度正在寻求在基础模型领域建立自主可控的能力。
AI 资本战:千亿美元融资与战略布局
OpenAI 融资突破 8500 亿美元估值
OpenAI 正在完成一轮超 1000 亿美元的融资,这将使其投后估值突破 8500 亿美元(约 5.88 万亿元人民币),成为 AI 领域估值最高的企业。
投资方阵容:
- 亚马逊:计划投资 500 亿美元
- 软银:投资 300 亿美元(累计已投入 346 亿美元,占股 11%)
- 英伟达:投入约 200 亿美元
- 微软:参与投资
资金用途: 这些资金不会一次性到位,而是计划在今年内分多笔分期到账,用来支撑 OpenAI 未来数万亿美元的基础设施建设。作为融资协议的一部分,OpenAI 将进一步深化与亚马逊的合作。
商业化探索: OpenAI 正在积极探索多元化的收入来源,其中「在 ChatGPT 中植入广告」已成为确定的探索方向。奥尔特曼倾向于采用类似 Instagram 的「发现式」广告风格,计划首先在美国市场进行测试。
英伟达 300 亿美元投资 OpenAI
英伟达正接近与 OpenAI 达成一项约 300 亿美元的股权投资协议,谈判已进入最后阶段,最早可能于本周末敲定。
合作背景: 去年 9 月,两家公司曾签署谅解备忘录,原计划由英伟达为 OpenAI 建设至少 10GW 算力,并承诺投入最高 1000 亿美元协助支付成本。当时,黄仁勋称其为「史上最大的算力项目」。
投资调整: 黄仁勋在上个月曾表示英伟达会参与 OpenAI 当前的融资轮,且这很可能是公司有史以来最大的一次投资,但他也明确指出投资金额将「远不及」此前报道的 1000 亿美元。此次 300 亿美元的投资,意味着两家公司放弃了去年的千亿美元合作计划。
深度解读: 英伟达从「千亿合作」调整为「三百亿投资」,反映了其在 AI 产业链中角色的微妙变化。英伟达正在从单纯的算力供应商,向更深入的产业投资者转型。通过股权投资而非项目合作的方式参与,既能分享 OpenAI 增长红利,又保持了更大的灵活性。
Meta 砍员工股权为 AI 军备竞赛输血
Meta 为筹集资金应对昂贵的 AI 军备竞赛,已连续第二年削减员工股权奖励。据知情人士透露,公司将年度股票期权分配额度下调了约 5%,波及数万名员工。
资金压力: 扎克伯格为争夺 AI 霸主地位开启了「烧钱模式」,预计 2026 年资本支出可能高达 1300 亿美元。资金主要用于建设庞大的数据中心集群,以及从竞争对手处挖角顶尖 AI 人才。
效率改革: 除了削减元宇宙部门岗位外,Meta 今年还改革了绩效评估系统,新制度将奖励天平大幅向「高绩效者」倾斜。这意味着 Meta 实际上在集中资源留住对 AI 战略至关重要的核心骨干。
深度解读: Meta 的做法反映了 AI 行业的一个普遍困境:基础模型训练需要海量资金投入,而投资者对回报的期待越来越高。通过削减普通员工福利来集中资源,反映出 AI 人才竞争的残酷性——核心人才的薪酬包往往高达数百万甚至上亿美元。
AI 应用落地与行业动态
清华团队用 AI 模型将韦伯望远镜探测深度提升 1 个星等
清华大学戴琼海院士团队与蔡峥副教授团队联合开发了「星衍」(ASTERIS)时空自监督计算成像模型,成功将詹姆斯·韦伯空间望远镜的深空探测深度提升 1 个星等。
技术突破:
- 等效口径从 6.4 米提升至近 10 米量级
- 探测准确度提升达 1.6 个星等
- 应用该模型后,新发现超过 160 个宇宙大爆炸后 2 至 5 亿年的高红移候选星系,数量达此前同类研究的三倍
技术原理: 该技术针对天文观测中天光背景噪声与望远镜热辐射噪声叠加的行业难题,通过建立噪声涨落与星体光度联合模型,实现对极低信噪比环境下的光子重构。
深度解读: 这是 AI 在基础科学研究中的典型应用案例。该模型无需人工标注训练数据,直接利用真实观测数据完成训练,建立了以探测能力、形态保真为核心的天文专用 AI 评价体系。《科学》杂志审稿人评价该技术为「天文领域的强大工具」。
港股 AI 企业逆势上涨
今天港股迎来农历马年的首个交易日,整个大盘走势不佳,但 AI 大模型企业却逆势上涨。
市场表现:
- 智谱股价尾盘大幅上涨,涨幅达 42.72%,股价收于 725 港元,总市值突破 3232 亿港元
- MINIMAX 股价上涨 12%至 957 港元,市值突破 3000 亿港元
上涨动因: 2 月 12 日,智谱推出了新一代旗舰模型 GLM-5,参数规模从 355B 扩展到 744B,编程性能比上一代提升超过 20%,在三项 Agent 评测中获得了开源领域的最佳成绩。智谱还同步上调了编程套餐的价格,涨幅从 30% 起,新套餐上线后很快售罄。
电影《镖人》使用 Seedance 2.0 辅助创作
电影《镖人》官方账号与豆包发布共创视频,豆包客串记者「采访」导演袁和平。在采访中,袁和平特别介绍了使用豆包设计 AI 角色并作为片尾彩蛋,该彩蛋由字节跳动旗下的 Seedance 2.0 制作。
Seedance 2.0 特点:
- 多模态架构:支持文字、图片、音频、视频四种模态输入
- 能力集成:集成了多模态内容参考和编辑能力
- 质量提升:相比 1.5 版本,在复杂交互、运动场景下的可用率、物理准确度和可控性上均有显著增强
目前影片《镖人:风起大漠》票房已突破 3 亿。
英特尔上线 AI 客服 Ask Intel
英特尔基于微软 Copilot Studio 平台推出了虚拟助手「Ask Intel」,旨在利用生成式 AI 重塑售后服务体系。
核心职责:
- 代用户开立售后工单
- 即时核查保修覆盖范围
- 在必要时将对话转接给人工坐席
实际表现: 媒体测试显示结果喜忧参半。系统虽然能给出更新 BIOS、检查散热等标准建议,但对于已经出现过热或不稳定症状的处理器建议「运行 CPU 压力测试」,显得缺乏逻辑,暴露了 AI 在理解具体场景时的局限性。
深度解读: Ask Intel 目前高度依赖英特尔内部的客户支持文档库,其工作原理主要是检索官方文件并向用户重述相关内容。这意味着一旦用户遇到的问题超出文档覆盖范围,AI 便无能为力。
AI 技术局限与挑战
微软研究:AI 聊天机器人多轮对话可靠性骤降
微软研究院与赛富时联合发表的研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。
核心发现:
- 模型在单次提示任务中的成功率可达 90%
- 当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%
- 模型的「智力」本身并未显著下降(核心能力仅降低约 15%),但「不可靠性」却飙升 112%
行为机制分析:
- 「过早生成」:模型往往在用户尚未完整说明需求前就尝试给出最终答案,一旦形成错误假设,后续便会在错误基础上继续推理
- 「答案膨胀」:在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%,更长的回答包含更多假设与「幻觉」
意外发现: 配备额外「思考词元」的新一代推理模型(如 OpenAI o3 和 DeepSeek R1),也未能显著改善多轮对话中的表现。将模型温度参数设置为 0 对此类对话衰减几乎没有防护作用。
深度解读: 这一发现对当前 AI 行业的评估方式提出了质疑。现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。目前最有效的应对方式是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供。
OpenAI 奥尔特曼:中国 AI 发展速度「快得惊人」
OpenAI 首席执行官山姆·奥尔特曼在接受 CNBC 采访时表示,中国科技企业在全栈技术领域的进步「令人瞩目」,且发展速度惊人,部分领域已逼近甚至达到前沿水平。
奥尔特曼表示,包括 AI 在内的多个领域,中国的技术迭代速度「快得惊人」。虽然在某些细分领域,中国企业仍处于追赶状态,但在另一些领域,已经非常接近甚至达到世界前沿水平。
更多动态
DuckDuckGo 上线 AI 修图功能:可免费使用(有限额),且无需注册账户即可直接使用。该功能调用 OpenAI 的底层模型处理指令,同时采取严格的隐私隔离措施,在将提示词发送给 OpenAI 之前强制剥离所有图像元数据及用户 IP 地址。
YouTube 扩展对话式 AI 工具:用户可通过这一工具与 AI 互动,详细了解视频内容。目前已支持电脑、Android、iPhone 和 iPad 平台,未来将扩展到电视、游戏主机、流媒体设备,电视端测试已在进行中。
