Anthropic「囚禁」史上最强安全模型，智谱GLM-5.1开源登顶

要点速览

Anthropic发布Claude Mythos模型，能自主发现数千个零日漏洞，因安全风险太高暂不对公众开放，联合苹果、谷歌、微软等12家巨头启动网络安全联防
智谱发布GLM-5.1，全球最强开源模型，能独立连续工作8小时交付完整工程，SWE-bench Pro超越GPT-5.4和Claude Opus 4.6
李飞飞正式出任阿里云CTO，阿里成立通义大模型事业部，AI架构全面升级
DeepSeek上线专家模式，V4模型灰度测试曝光，完整版发布进入倒计时
工信部等十部门联合发布AI科技伦理审查办法，明确三类需专家复核的高风险AI活动
马斯克起诉OpenAI要求罢免奥尔特曼并索赔1340亿美元，OpenAI核心高管再度离职
京东全面拦截员工使用外部AI工具，美团内部限制阿里Qwen模型

一、前沿模型竞赛：安全能力与工程能力同时跃升

Claude Mythos：Anthropic史上最强模型因「太危险」被「囚禁」

Anthropic 发布了最新模型 Claude Mythos Preview，在多项基准测试中全面碾压前代旗舰 Opus 4.6：

SWE-bench Pro（代码Bug修复）：较 Opus 4.6 提升 24%
SWE-bench Verified（严格验证版）：得分 78.5%，提升 13%
Terminal-Bench 2.0（终端操作与Agent能力）：得分 92.1%，提升 17%

然而，这款模型最引人注目的不是性能，而是其安全能力的失控风险。在封闭测试中，Mythos 已自主发现数千个高危零日漏洞，典型案例包括：

发现 OpenBSD 中存在 27 年的远程崩溃漏洞
定位 FFmpeg 中经 500 万次自动化测试仍未检出的 16 年陈旧漏洞
自主串联 Linux 内核多个漏洞实现权限提升

Anthropic 评估认为，Mythos 的漏洞发现与利用能力已远超绝大多数人类工程师。一旦被恶意使用，发现漏洞的速度将远超防御者修复的速度。因此，Anthropic 做出罕见决定：暂不对公众开放，转而启动联合安全防御项目。

定价方面：输入每百万 token 25 美元，输出每百万 token 125 美元，为 Opus 4.6 的五倍。

深度解读 & 洞察：

这次事件传递的核心信号是：AI 的攻防能力已经到了需要产业界集体应对的阶段。 找漏洞和利用漏洞本质上是同一能力的两面——模型越擅长修Bug，就越擅长发现和利用Bug。Anthropic 选择押上1亿美元资源和几乎所有头部科技公司，在正式发布前先做一轮大规模安全演练，这在行业内几乎没有先例。
值得关注的是，美国国防部因 Anthropic 拒绝将技术用于对美国公民的自主打击或监控，已将其列为「供应链风险实体」。这反映了 AI 安全治理中一个深层次矛盾：同一技术既是最强盾牌，也可能是最强武器。
从商业角度看，这也解释了 Anthropic 近期在产品线上的异常动作（Token消耗激增、部分项目节奏放缓），团队资源很可能已集中向安全方向倾斜。

影响：

对网络安全行业利多——AI驱动的漏洞发现将催生新的安全服务市场
对操作系统和基础软件厂商形成压力——大量历史漏洞将被集中曝光，修复成本陡增
投资者需关注：网络安全概念股、AI安全检测工具提供商可能受益

智谱发布GLM-5.1：全球最强开源模型，可独立工作8小时

智谱正式发布新一代开源模型 GLM-5.1，核心突破在于长程任务能力——可在单次任务中连续自主工作超过8小时，完成完整的工程级交付。

关键成绩：

基准测试	表现
SWE-bench Pro	刷新全球最佳，超越 GPT-5.4、Claude Opus 4.6
METR 榜单	唯一达到 8 小时级持续工作的开源模型
KernelBench Level 3	24小时自主迭代，3.6倍几何平均加速比

典型能力演示：

8小时从零构建 Linux 桌面：执行1200多步，产出功能完善的桌面系统，相当于4人团队一周工作量
655轮迭代优化向量数据库：查询吞吐提升至初始版本的6.9倍
自主编写定制 CUDA Kernel：超越 torch.compile 的1.49倍，达到3.6倍加速

技术核心：当现有策略收益停滞时，模型能主动分析日志并跳转到结构性不同的方案，突破了传统模型在复杂优化中的「瓶颈期」问题。

同时，智谱对GLM全线模型提价10%，在核心编程场景实现与Anthropic Claude 3.5 Sonnet的价格对齐——这是国内大模型首次在主流应用场景与全球顶尖厂商价格对齐。

GLM-5.1 已在 GitHub、Hugging Face、ModelScope 同步开源，并「Day0」上线华为云。

深度解读 & 洞察：

模型竞争的衡量标准正在从「单轮对话有多聪明」转向「能连续工作多久」。GLM-5.1 的8小时持续工作能力，标志着AI的交付单位从「单行代码」演变为「完整项目」。这对软件工程的生产模式有深远影响——资深工程师数月完成的CUDA优化任务，AI可在十几小时内自主完成。
从一年前降价90%争夺市场份额，到如今凭借技术优势提价对标国际水平，智谱的战略转变反映了国产头部厂商正在重新掌握定价权。港股开盘涨近15%也验证了市场对这一路线的认可。
开源模型的工程能力达到顶尖水平，意味着中小团队也能获得接近头部厂商的AI编程能力，这将加速AI编程工具的普及。

影响：

港股AI板块集体上涨，智谱开盘涨近15%，MiniMax高开超8%，恒生科技指数涨2.95%
对IT服务外包行业可能产生冲击——当AI能独立完成8小时工程任务，传统人力外包的定价逻辑需要重新评估

DeepSeek上线专家模式，V4模型灰度测试曝光

DeepSeek 在网页端上线快速模式和专家模式双模式设计，这是该产品首次引入分层架构：

快速模式：主打即时响应，支持图片与文件上传（最多50个文件），适合日常对话
专家模式：面向复杂任务，支持深度思考和智能搜索，token吞吐速度极快，但暂不支持文件上传
视觉模式：已进入灰度测试，界面出现图片入口，尚未全量开放

关于V4的线索：部分用户询问模型版本时，专家模式曾「自曝」为V4，但也有测试显示其上下文长度限制约133K token，与传闻中完整版V4的百万级上下文相去甚远。因此推测当前专家模式更可能基于V4 Lite或V3.x的中间版本。

另有消息称，DeepSeek 正在开发至少2款完全基于国产AI芯片的大模型，并已优先将V4开放给国内芯片厂商进行协同优化。

深度解读 & 洞察：

双模式设计本质上是在模型能力与服务成本之间做精细化管理——简单任务走轻量链路，复杂任务调用更强推理资源。这种分层策略将成为大模型产品的标配。
DeepSeek 优先适配国产芯片的信号值得重视。在中美科技博弈背景下，这意味着国产大模型正在构建不依赖海外顶级芯片的完整技术栈。

二、AI安全与治理：产业联防启动，政策落地加速

中国十部门联合发布AI科技伦理审查办法

工信部等十部门联合印发《人工智能科技伦理审查与服务办法（试行）》，这是我国AI治理领域又一项重要政策文件。

核心内容：

审查程序：申请→受理→开展审查→专家复核→审查决定→申诉→跟踪审查（间隔不超过12个月）
审查重点：人类福祉、公平公正、可控可信、透明可解释、责任可追溯、隐私保护
三类需专家复核的高风险活动：
1. 对人类心理情绪和生命健康有较强影响的人机融合系统
2. 具有舆论引导和社会动员能力的算法模型
3. 面向安全风险场景的高度自主决策系统
合规减负：已在深度合成、生成式AI等方面完成监管审批的，可不再开展专家复核

深度解读 & 洞察：

这份文件与《科技伦理审查办法》紧密衔接，但针对AI技术特点做了细化。三类需专家复核的活动直接指向当前AI应用中最敏感的领域——脑机接口/人机融合、推荐算法/信息操纵、自动驾驶/自主武器。政策的落地将直接影响这些赛道的研发节奏和合规成本。
对企业而言，好消息是已完成相关监管审批的可以免于重复审查，这体现了政策协同的思路，减轻了企业负担。

Anthropic切断第三方框架调用通道，Token定价模式引热议

Anthropic 切断了包括 OpenClaw 在内的第三方框架通过 Claude 订阅服务的调用通道。原因：部分重度用户每月仅支付200美元订阅费，却消耗了价值5000美元的算力资源。

小米 MiMo 大模型负责人罗福莉对此发表看法：第三方框架上下文管理效率极低，Token消耗往往是原生框架的数十倍。她警告大模型厂商不要盲目参与「Token价格战」，在没有理清订阅定价策略前开放第三方接入是「陷阱」。小米近期推出的 Token Plan 采用按量计费模式，罗福莉认为短期成本阵痛会倒逼第三方优化技术。

深度解读 & 洞察：

这件事揭示了AI行业一个被忽视的结构性问题：Agent框架的Token效率极度低下。 当AI Agent执行复杂任务时，往往需要携带完整的系统提示词和对话历史，导致单次请求消耗数万token。随着Agent应用的爆发，这个问题只会越来越严重。
从商业模式角度看，大模型行业正从「流量至上」回归「效率优先」。按量计费将取代固定订阅成为主流，这将改变整个AI应用生态的成本结构。

360披露OpenClaw三个高价值安全漏洞

360漏洞挖掘智能体发现 AI 智能体框架 OpenClaw 的 3 个高价值漏洞：

高危：脚本审批绕过——攻击者可在审批通过后替换脚本代码，实现本地命令执行
中危：OAuth回调参数复用——可导致Google账号被接管
中危：WebSocket大数据包处理缺陷——可引发设备崩溃（DoS攻击）

三个漏洞均已被官方修复。值得注意的是，这些漏洞直接触及AI智能体的核心运行机制（脚本执行、认证授权、实时通信），而非边缘功能。

三、行业格局：巨头组织重构，竞争白热化

李飞飞出任阿里云CTO，阿里AI架构全面升级

阿里巴巴宣布重大组织架构调整：

李飞飞正式出任阿里云CTO，负责阿里云技术和AI云基础设施建设，同时加入新成立的集团技术委员会
原有通义实验室升级为通义大模型事业部，由周靖人负责
周靖人同时出任技术委员会首席AI架构师
吴泽明专注集团CTO工作，负责AI推理平台建设

此次调整的背景：阿里最新推出的 Qwen 3.6 Plus 模型获得了 OpenRouter 全球大模型周调用量冠军；近期成立的 ATH 事业群目标是创造、输送和应用 Token。

深度解读 & 洞察：

李飞飞的加入是阿里AI战略的标志性事件。作为ImageNet的创建者、斯坦福AI实验室前主任，她在计算机视觉和AI基础研究领域的声望无人能及。这次加盟意味着阿里在AI人才争夺战中拿下了顶级棋子。
通义实验室升级为事业部，表明阿里将大模型从「研究项目」提升为「核心业务」。配合ATH事业群的Token战略，阿里正在构建从底层基础设施到上层应用的全链路AI能力。

影响：

对阿里云及阿里系AI概念股利多
加剧国内大模型厂商的人才与资源竞争

马斯克起诉OpenAI要求罢免奥尔特曼，索赔1340亿美元

埃隆·马斯克向 OpenAI CEO 奥尔特曼和总裁布罗克曼提起诉讼，核心诉求：

要求法院罢免奥尔特曼和布罗克曼的职务
要求 OpenAI 恢复为非营利组织
索赔 1340亿美元，称这是 OpenAI 和微软通过马斯克早期支持获得的「非法收益」
案件预计 4 月27日在加州联邦法院开庭

与此同时，被称为「GPT-4o之母」的 OpenAI 核心产品负责人 Joanne Jang 宣布离职，结束四年半职业生涯。传言 CEO 和 CFO 在公司上市时间表上存在重大分歧。

深度解读 & 洞察：

OpenAI 当前的估值高达 852 亿美元，正在为上市做准备。核心高管的频繁离职叠加马斯克的诉讼，对投资者信心构成双重打击。如果管理层不稳定的问题持续发酵，可能影响上市进程和估值水平。
马斯克索赔1340亿美元的数字看似夸张，但其法律策略的真正目标可能是迫使OpenAI在非营利/营利身份转换上做出让步，从而影响其商业化路径。

京东全面拦截外部AI，美团限制阿里Qwen

京东：3月底正式限制外部AI，员工打开豆包、千问、Gemini、DeepSeek、ChatGPT等外部网站均被拦截，拦截页面提供自研大模型 JoyAI 入口和外部AI申请通道
美团：不再推荐业务使用阿里云Qwen模型，使用需提交审批至x3级别老板；豆包等模型无需审批；公司推荐使用自研的 LongCat（龙猫）模型

深度解读 & 洞察：

这一趋势反映了两个动机：数据安全（防止企业敏感信息通过AI对话泄露）和降本增效（推动内部模型替代外部付费服务）。随着大模型能力日趋同质化，大型科技公司倾向于构建自研AI能力并限制外部依赖。

港股AI板块集体上涨

受全球AI技术突破和应用落地加速推动，港股AI板块4月8日开盘表现强劲：

智谱开盘涨近15%，领涨全场
MiniMax高开超8%
金山云、金山软件、腾讯控股同步上涨
恒生指数上涨2.61%，恒生科技指数涨2.95%

国际局势缓和也是利好因素之一：伊朗接受临时停火提议，霍尔木兹海峡预计两周内开放，缓解了供应链中断担忧。

四、AI编程工具链：跨模型协作与效率优化

GitHub推出跨模型AI审查功能Rubber Duck

微软 GitHub 为 Copilot CLI 推出实验性功能 Rubber Duck，核心思路是用不同厂商的模型互相审查代码：

用户选择 Claude 系列模型作为主控后，Rubber Duck 调用 GPT-5.4 进行审查
Claude Sonnet 4.6 搭配 Rubber Duck 后，弥补了与 Opus 4.6 之间 74.7% 的性能差距
困难任务（3个以上文件或超过70步）中，得分比基准高 3.8%
支持三种触发模式：主动、被动、用户触发

深度解读 & 洞察：

这一功能的底层逻辑是：单一模型的自我审查受限于训练偏差。 用不同架构的模型做交叉验证，就像让两位背景不同的工程师互相 code review，能发现单一视角容易忽略的问题。这可能是AI编程工具从「单模型」走向「多模型协作」的开端。

caveman：让AI少说话，输出Token最高省87%

19岁荷兰开发者 Julius Brussee 的开源项目 caveman 在GitHub上3天收获4.1k星。核心思路：让AI像「山顶洞人」一样说话，只说关键信息，砍掉冗余表达。

10个典型编程任务的输出Token节省 22%–87%，平均约65%
压缩策略：只压缩自然语言，代码块、URL、文件路径等技术内容原样保留
提供Lite/Full/Ultra三个压缩等级

争议：节省主要在输出端而非成本更高的输入端；强制精简可能影响复杂推理场景的表现。

BitTorrent创始人公开批评Vibe Coding

BitTorrent 协议创始人 Bram Cohen 发表署名文章，批评 Anthropic Claude 团队的 Vibe Coding（氛围编程）模式。起因是 Claude Code 源代码泄露后，开发者发现代码中存在大量重复逻辑和冗余结构。

Cohen 核心观点：

Vibe Coding 让开发者不检查AI输出的底层代码，这是根本性错误
AI的真正价值在于高效处理技术债务，而非替代思考
「坏软件是一种决定。你需要为此负责。」

五、具身智能：融资加速与「具身原生」路线之争

地瓜机器人完成1.5亿美元B2轮融资

具身智能机器人平台公司地瓜机器人完成1.5亿美元B2轮融资，B轮累计2.7亿美元。投资方包括沙特阿美旗下Prosperity7、远景科技、高瓴创投、滴滴、淡马锡等。

2025年关键数据：出货量同比增长180%，开发者突破10万，累计推出超100款机器人产品。技术路线与地平线协同——地瓜提供硬件算力平台（RDK S600），地平线提供开源模型（HoloMotion + HoloBrain）。

具身原生大模型：抛弃预训练路线的新范式

Generalist AI 发布 GEN-1 模型，多项任务成功率超99%，速度比此前最优模型快约3倍。核心路线：完全基于真机数据从零训练，约99%参数为冷启动，不依赖任何现有基础模型。

与此同时，中国公司原力灵机早在2月便发布了具身原生大模型 DM0（仅2.4B参数），在 RoboChallenge 真机评测中拿下双项全球第一。DM0从数据、训练、架构三个层面实现「原生」，覆盖8种构型迥异的机器人硬件。

深度解读 & 洞察：

行业正在从「先训大模型再接动作头」的路线转向「具身原生」。后者认为预训练模型的知识边界和底层缺陷从第一行代码就已注定，当机器人数据日益丰富时，这种「拐杖」终将失去价值。2.4B参数的DM0击败参数量更大的明星模型，也印证了「无脑堆参数在机器人领域非常荒诞」的判断。

智元升级Genie Sim 3.0仿真平台

智元发布 Genie Sim 3.0 一站式仿真开发平台，核心升级：

图文生境：文本/图片直接生成仿真场景，生成时间从小时级压缩到分钟级
虚实一致：仿真数据与真实世界感知差异控制在10%以内，支持零样本真机迁移
开源 RLinf 强化学习工具链，支持1000Hz高精度物理模拟

六、更多动态

AI视频生成

神秘模型 Happy Horse 登顶AI Video Arena榜首，超越Seedance 2.0，原生支持音频生成，开发方身份成谜，业内猜测与中国团队有关
PixVerse C1 发布：全球首个影视行业大模型，支持15秒1080P视频、自动分镜、音画同步
Seedance 2.0 开放视频生成 API 接口

AI应用产品

Adobe推出免费AI学习平台 Acrobat Student Spaces，支持学习指南、思维导图、抽认卡生成和音频摘要，已在哈佛、伯克利等高校测试
腾讯发布AI浏览器「龙虾」QBotClaw，国内首个支持用户自配大模型API的浏览器，集成微信远程控制
微盟发布零售AI技能并接入OpenClaw生态，中国SaaS行业首个零售领域AI技能
谷歌Gemini增加心理健康支持功能，识别自残/自杀倾向后一键引导至危机热线，承诺三年投入3000万美元
谷歌承诺Gmail中Gemini不使用用户邮件训练模型，所有处理在隔离环境中完成
谷歌搜索AI概览准确率约90%，但每年仍可能产生数千万条错误答案
上汽通用别克至境E7搭载豆包大模型，识别20多种情绪，高通骁龙8775芯片AI算力提升7-14倍
Perplexity AI三月ARR暴增50%至4.5亿美元，由智能体业务驱动
360推出虾书APP，用户观看AI智能体互动的社区产品

开源与技术

微软必应开源27B嵌入模型Harrier，支持100+语言，多语言MTEB v2排名第一，MIT许可证
面壁智能发布VoxCPM 2开源语音模型，仅2B参数，支持9种方言+30种外语，48000Hz采样率，不到1秒完成合成
阿里通义发布FIPO算法，32B模型推理性能超过OpenAI o1-mini
LongCat-Flash-Prover刷新AI定理证明开源SOTA，MiniF2F-Test通过率97.1%
SentiPulse联合人大高瓴开源SentiAvatar，3D数字人动作生成框架

算力与资本

英特尔加入马斯克Terafab AI芯片项目，目标年产1太瓦算力，园区选址德州奥斯汀
迈克尔·戴尔预测2028年AI加速器内存需求是2023年的625倍
西班牙Xoople完成1.3亿美元融资，建造卫星星座为AI绘制地球地图
播客应用Overcast开发者自建48台Mac mini集群替代云AI服务，解决转录成本问题

政策与监管

日本拟放宽个人信息使用准则，取消部分数据共享的事先同意要求，目标是成为「全球最容易开发AI应用的国家」
Suno与环球音乐谈判陷入停滞，核心分歧在于AI生成音乐是否可外部分享

行业观察

中国发布全球首个碳核算大模型「磐石·禹衡」，320亿参数，重新核算显示中国排放量较传统方法下调17.7%
Roblox产品负责人谈AI时代育儿：希望孩子跳过大学直接创业
开源中国联合亦庄发起「模数开源主理人学院」，帮助个体创业者用开源AI对接产业订单
武汉大学发布AI图表智能体「爱图表」，解决AI生成图表准确性低、不可编辑的痛点

想第一时间获取最新内容？

欢迎加入我们的 Telegram 群组 @ai_news_plus，抢先获取每日更新。

立即加入群组