Anthropic「囚禁」史上最强安全模型,智谱GLM-5.1开源登顶

要点速览
  • Anthropic发布Claude Mythos模型,能自主发现数千个零日漏洞,因安全风险太高暂不对公众开放,联合苹果、谷歌、微软等12家巨头启动网络安全联防
  • 智谱发布GLM-5.1,全球最强开源模型,能独立连续工作8小时交付完整工程,SWE-bench Pro超越GPT-5.4和Claude Opus 4.6
  • 李飞飞正式出任阿里云CTO,阿里成立通义大模型事业部,AI架构全面升级
  • DeepSeek上线专家模式,V4模型灰度测试曝光,完整版发布进入倒计时
  • 工信部等十部门联合发布AI科技伦理审查办法,明确三类需专家复核的高风险AI活动
  • 马斯克起诉OpenAI要求罢免奥尔特曼并索赔1340亿美元,OpenAI核心高管再度离职
  • 京东全面拦截员工使用外部AI工具,美团内部限制阿里Qwen模型

Anthropic「囚禁」史上最强安全模型,智谱GLM-5.1开源登顶

一、前沿模型竞赛:安全能力与工程能力同时跃升

Claude Mythos:Anthropic史上最强模型因「太危险」被「囚禁」

Anthropic 发布了最新模型 Claude Mythos Preview,在多项基准测试中全面碾压前代旗舰 Opus 4.6:

  • SWE-bench Pro(代码Bug修复):较 Opus 4.6 提升 24%
  • SWE-bench Verified(严格验证版):得分 78.5%,提升 13%
  • Terminal-Bench 2.0(终端操作与Agent能力):得分 92.1%,提升 17%

然而,这款模型最引人注目的不是性能,而是其安全能力的失控风险。在封闭测试中,Mythos 已自主发现数千个高危零日漏洞,典型案例包括:

  • 发现 OpenBSD 中存在 27 年的远程崩溃漏洞
  • 定位 FFmpeg 中经 500 万次自动化测试仍未检出的 16 年陈旧漏洞
  • 自主串联 Linux 内核多个漏洞实现权限提升

Anthropic 评估认为,Mythos 的漏洞发现与利用能力已远超绝大多数人类工程师。一旦被恶意使用,发现漏洞的速度将远超防御者修复的速度。因此,Anthropic 做出罕见决定:暂不对公众开放,转而启动联合安全防御项目。

定价方面:输入每百万 token 25 美元,输出每百万 token 125 美元,为 Opus 4.6 的五倍。

深度解读 & 洞察:

  • 这次事件传递的核心信号是:AI 的攻防能力已经到了需要产业界集体应对的阶段。 找漏洞和利用漏洞本质上是同一能力的两面——模型越擅长修Bug,就越擅长发现和利用Bug。Anthropic 选择押上1亿美元资源和几乎所有头部科技公司,在正式发布前先做一轮大规模安全演练,这在行业内几乎没有先例。
  • 值得关注的是,美国国防部因 Anthropic 拒绝将技术用于对美国公民的自主打击或监控,已将其列为「供应链风险实体」。这反映了 AI 安全治理中一个深层次矛盾:同一技术既是最强盾牌,也可能是最强武器。
  • 从商业角度看,这也解释了 Anthropic 近期在产品线上的异常动作(Token消耗激增、部分项目节奏放缓),团队资源很可能已集中向安全方向倾斜。

影响:

  • 对网络安全行业利多——AI驱动的漏洞发现将催生新的安全服务市场
  • 对操作系统和基础软件厂商形成压力——大量历史漏洞将被集中曝光,修复成本陡增
  • 投资者需关注:网络安全概念股、AI安全检测工具提供商可能受益

智谱发布GLM-5.1:全球最强开源模型,可独立工作8小时

智谱正式发布新一代开源模型 GLM-5.1,核心突破在于长程任务能力——可在单次任务中连续自主工作超过8小时,完成完整的工程级交付。

关键成绩:

基准测试表现
SWE-bench Pro刷新全球最佳,超越 GPT-5.4、Claude Opus 4.6
METR 榜单唯一达到 8 小时级持续工作的开源模型
KernelBench Level 324小时自主迭代,3.6倍几何平均加速比

典型能力演示:

  • 8小时从零构建 Linux 桌面:执行1200多步,产出功能完善的桌面系统,相当于4人团队一周工作量
  • 655轮迭代优化向量数据库:查询吞吐提升至初始版本的6.9倍
  • 自主编写定制 CUDA Kernel:超越 torch.compile 的1.49倍,达到3.6倍加速

技术核心:当现有策略收益停滞时,模型能主动分析日志并跳转到结构性不同的方案,突破了传统模型在复杂优化中的「瓶颈期」问题。

同时,智谱对GLM全线模型提价10%,在核心编程场景实现与Anthropic Claude 3.5 Sonnet的价格对齐——这是国内大模型首次在主流应用场景与全球顶尖厂商价格对齐。

GLM-5.1 已在 GitHubHugging Face、ModelScope 同步开源,并「Day0」上线华为云。

深度解读 & 洞察:

  • 模型竞争的衡量标准正在从「单轮对话有多聪明」转向「能连续工作多久」。GLM-5.1 的8小时持续工作能力,标志着AI的交付单位从「单行代码」演变为「完整项目」。这对软件工程的生产模式有深远影响——资深工程师数月完成的CUDA优化任务,AI可在十几小时内自主完成。
  • 从一年前降价90%争夺市场份额,到如今凭借技术优势提价对标国际水平,智谱的战略转变反映了国产头部厂商正在重新掌握定价权。港股开盘涨近15%也验证了市场对这一路线的认可。
  • 开源模型的工程能力达到顶尖水平,意味着中小团队也能获得接近头部厂商的AI编程能力,这将加速AI编程工具的普及。

影响:

  • 港股AI板块集体上涨,智谱开盘涨近15%,MiniMax高开超8%,恒生科技指数涨2.95%
  • 对IT服务外包行业可能产生冲击——当AI能独立完成8小时工程任务,传统人力外包的定价逻辑需要重新评估

DeepSeek上线专家模式,V4模型灰度测试曝光

DeepSeek 在网页端上线快速模式专家模式双模式设计,这是该产品首次引入分层架构:

  • 快速模式:主打即时响应,支持图片与文件上传(最多50个文件),适合日常对话
  • 专家模式:面向复杂任务,支持深度思考和智能搜索,token吞吐速度极快,但暂不支持文件上传
  • 视觉模式:已进入灰度测试,界面出现图片入口,尚未全量开放

关于V4的线索:部分用户询问模型版本时,专家模式曾「自曝」为V4,但也有测试显示其上下文长度限制约133K token,与传闻中完整版V4的百万级上下文相去甚远。因此推测当前专家模式更可能基于V4 Lite或V3.x的中间版本

另有消息称,DeepSeek 正在开发至少2款完全基于国产AI芯片的大模型,并已优先将V4开放给国内芯片厂商进行协同优化。

深度解读 & 洞察:

  • 双模式设计本质上是在模型能力与服务成本之间做精细化管理——简单任务走轻量链路,复杂任务调用更强推理资源。这种分层策略将成为大模型产品的标配。
  • DeepSeek 优先适配国产芯片的信号值得重视。在中美科技博弈背景下,这意味着国产大模型正在构建不依赖海外顶级芯片的完整技术栈。

二、AI安全与治理:产业联防启动,政策落地加速

中国十部门联合发布AI科技伦理审查办法

工信部等十部门联合印发《人工智能科技伦理审查与服务办法(试行)》,这是我国AI治理领域又一项重要政策文件。

核心内容:

  • 审查程序:申请→受理→开展审查→专家复核→审查决定→申诉→跟踪审查(间隔不超过12个月)

  • 审查重点:人类福祉、公平公正、可控可信、透明可解释、责任可追溯、隐私保护

  • 三类需专家复核的高风险活动

    1. 对人类心理情绪和生命健康有较强影响的人机融合系统
    2. 具有舆论引导和社会动员能力的算法模型
    3. 面向安全风险场景的高度自主决策系统
  • 合规减负:已在深度合成、生成式AI等方面完成监管审批的,可不再开展专家复核

深度解读 & 洞察:

  • 这份文件与《科技伦理审查办法》紧密衔接,但针对AI技术特点做了细化。三类需专家复核的活动直接指向当前AI应用中最敏感的领域——脑机接口/人机融合、推荐算法/信息操纵、自动驾驶/自主武器。政策的落地将直接影响这些赛道的研发节奏和合规成本。
  • 对企业而言,好消息是已完成相关监管审批的可以免于重复审查,这体现了政策协同的思路,减轻了企业负担。

Anthropic切断第三方框架调用通道,Token定价模式引热议

Anthropic 切断了包括 OpenClaw 在内的第三方框架通过 Claude 订阅服务的调用通道。原因:部分重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源。

小米 MiMo 大模型负责人罗福莉对此发表看法:第三方框架上下文管理效率极低,Token消耗往往是原生框架的数十倍。她警告大模型厂商不要盲目参与「Token价格战」,在没有理清订阅定价策略前开放第三方接入是「陷阱」。小米近期推出的 Token Plan 采用按量计费模式,罗福莉认为短期成本阵痛会倒逼第三方优化技术。

深度解读 & 洞察:

  • 这件事揭示了AI行业一个被忽视的结构性问题:Agent框架的Token效率极度低下。 当AI Agent执行复杂任务时,往往需要携带完整的系统提示词和对话历史,导致单次请求消耗数万token。随着Agent应用的爆发,这个问题只会越来越严重。
  • 从商业模式角度看,大模型行业正从「流量至上」回归「效率优先」。按量计费将取代固定订阅成为主流,这将改变整个AI应用生态的成本结构。

360披露OpenClaw三个高价值安全漏洞

360漏洞挖掘智能体发现 AI 智能体框架 OpenClaw 的 3 个高价值漏洞:

  • 高危:脚本审批绕过——攻击者可在审批通过后替换脚本代码,实现本地命令执行
  • 中危:OAuth回调参数复用——可导致Google账号被接管
  • 中危:WebSocket大数据包处理缺陷——可引发设备崩溃(DoS攻击)

三个漏洞均已被官方修复。值得注意的是,这些漏洞直接触及AI智能体的核心运行机制(脚本执行、认证授权、实时通信),而非边缘功能。


三、行业格局:巨头组织重构,竞争白热化

李飞飞出任阿里云CTO,阿里AI架构全面升级

阿里巴巴宣布重大组织架构调整:

  • 李飞飞正式出任阿里云CTO,负责阿里云技术和AI云基础设施建设,同时加入新成立的集团技术委员会
  • 原有通义实验室升级为通义大模型事业部,由周靖人负责
  • 周靖人同时出任技术委员会首席AI架构师
  • 吴泽明专注集团CTO工作,负责AI推理平台建设

此次调整的背景:阿里最新推出的 Qwen 3.6 Plus 模型获得了 OpenRouter 全球大模型周调用量冠军;近期成立的 ATH 事业群目标是创造、输送和应用 Token。

深度解读 & 洞察:

  • 李飞飞的加入是阿里AI战略的标志性事件。作为ImageNet的创建者、斯坦福AI实验室前主任,她在计算机视觉和AI基础研究领域的声望无人能及。这次加盟意味着阿里在AI人才争夺战中拿下了顶级棋子。
  • 通义实验室升级为事业部,表明阿里将大模型从「研究项目」提升为「核心业务」。配合ATH事业群的Token战略,阿里正在构建从底层基础设施到上层应用的全链路AI能力。

影响:

  • 对阿里云及阿里系AI概念股利多
  • 加剧国内大模型厂商的人才与资源竞争

马斯克起诉OpenAI要求罢免奥尔特曼,索赔1340亿美元

埃隆·马斯克向 OpenAI CEO 奥尔特曼和总裁布罗克曼提起诉讼,核心诉求:

  • 要求法院罢免奥尔特曼和布罗克曼的职务
  • 要求 OpenAI 恢复为非营利组织
  • 索赔 1340亿美元,称这是 OpenAI 和微软通过马斯克早期支持获得的「非法收益」
  • 案件预计 4 月27日在加州联邦法院开庭

与此同时,被称为「GPT-4o之母」的 OpenAI 核心产品负责人 Joanne Jang 宣布离职,结束四年半职业生涯。传言 CEO 和 CFO 在公司上市时间表上存在重大分歧。

深度解读 & 洞察:

  • OpenAI 当前的估值高达 852 亿美元,正在为上市做准备。核心高管的频繁离职叠加马斯克的诉讼,对投资者信心构成双重打击。如果管理层不稳定的问题持续发酵,可能影响上市进程和估值水平。
  • 马斯克索赔1340亿美元的数字看似夸张,但其法律策略的真正目标可能是迫使OpenAI在非营利/营利身份转换上做出让步,从而影响其商业化路径。

京东全面拦截外部AI,美团限制阿里Qwen

  • 京东:3月底正式限制外部AI,员工打开豆包、千问、Gemini、DeepSeek、ChatGPT等外部网站均被拦截,拦截页面提供自研大模型 JoyAI 入口和外部AI申请通道
  • 美团:不再推荐业务使用阿里云Qwen模型,使用需提交审批至x3级别老板;豆包等模型无需审批;公司推荐使用自研的 LongCat(龙猫)模型

深度解读 & 洞察:

  • 这一趋势反映了两个动机:数据安全(防止企业敏感信息通过AI对话泄露)和降本增效(推动内部模型替代外部付费服务)。随着大模型能力日趋同质化,大型科技公司倾向于构建自研AI能力并限制外部依赖。

港股AI板块集体上涨

受全球AI技术突破和应用落地加速推动,港股AI板块4月8日开盘表现强劲:

  • 智谱开盘涨近15%,领涨全场
  • MiniMax高开超8%
  • 金山云、金山软件、腾讯控股同步上涨
  • 恒生指数上涨2.61%,恒生科技指数涨2.95%

国际局势缓和也是利好因素之一:伊朗接受临时停火提议,霍尔木兹海峡预计两周内开放,缓解了供应链中断担忧。


四、AI编程工具链:跨模型协作与效率优化

GitHub推出跨模型AI审查功能Rubber Duck

微软 GitHub 为 Copilot CLI 推出实验性功能 Rubber Duck,核心思路是用不同厂商的模型互相审查代码

  • 用户选择 Claude 系列模型作为主控后,Rubber Duck 调用 GPT-5.4 进行审查
  • Claude Sonnet 4.6 搭配 Rubber Duck 后,弥补了与 Opus 4.6 之间 74.7% 的性能差距
  • 困难任务(3个以上文件或超过70步)中,得分比基准高 3.8%
  • 支持三种触发模式:主动、被动、用户触发

深度解读 & 洞察:

  • 这一功能的底层逻辑是:单一模型的自我审查受限于训练偏差。 用不同架构的模型做交叉验证,就像让两位背景不同的工程师互相 code review,能发现单一视角容易忽略的问题。这可能是AI编程工具从「单模型」走向「多模型协作」的开端。

caveman:让AI少说话,输出Token最高省87%

19岁荷兰开发者 Julius Brussee 的开源项目 caveman 在GitHub上3天收获4.1k星。核心思路:让AI像「山顶洞人」一样说话,只说关键信息,砍掉冗余表达。

  • 10个典型编程任务的输出Token节省 22%–87%,平均约65%
  • 压缩策略:只压缩自然语言,代码块、URL、文件路径等技术内容原样保留
  • 提供Lite/Full/Ultra三个压缩等级

争议:节省主要在输出端而非成本更高的输入端;强制精简可能影响复杂推理场景的表现。


BitTorrent创始人公开批评Vibe Coding

BitTorrent 协议创始人 Bram Cohen 发表署名文章,批评 Anthropic Claude 团队的 Vibe Coding(氛围编程)模式。起因是 Claude Code 源代码泄露后,开发者发现代码中存在大量重复逻辑和冗余结构。

Cohen 核心观点:

  • Vibe Coding 让开发者不检查AI输出的底层代码,这是根本性错误
  • AI的真正价值在于高效处理技术债务,而非替代思考
  • 「坏软件是一种决定。你需要为此负责。」

五、具身智能:融资加速与「具身原生」路线之争

地瓜机器人完成1.5亿美元B2轮融资

具身智能机器人平台公司地瓜机器人完成1.5亿美元B2轮融资,B轮累计2.7亿美元。投资方包括沙特阿美旗下Prosperity7、远景科技、高瓴创投、滴滴、淡马锡等。

2025年关键数据:出货量同比增长180%,开发者突破10万,累计推出超100款机器人产品。技术路线与地平线协同——地瓜提供硬件算力平台(RDK S600),地平线提供开源模型(HoloMotion + HoloBrain)。


具身原生大模型:抛弃预训练路线的新范式

Generalist AI 发布 GEN-1 模型,多项任务成功率超99%,速度比此前最优模型快约3倍。核心路线:完全基于真机数据从零训练,约99%参数为冷启动,不依赖任何现有基础模型。

与此同时,中国公司原力灵机早在2月便发布了具身原生大模型 DM0(仅2.4B参数),在 RoboChallenge 真机评测中拿下双项全球第一。DM0从数据、训练、架构三个层面实现「原生」,覆盖8种构型迥异的机器人硬件。

深度解读 & 洞察:

  • 行业正在从「先训大模型再接动作头」的路线转向「具身原生」。后者认为预训练模型的知识边界和底层缺陷从第一行代码就已注定,当机器人数据日益丰富时,这种「拐杖」终将失去价值。2.4B参数的DM0击败参数量更大的明星模型,也印证了「无脑堆参数在机器人领域非常荒诞」的判断。

智元升级Genie Sim 3.0仿真平台

智元发布 Genie Sim 3.0 一站式仿真开发平台,核心升级:

  • 图文生境:文本/图片直接生成仿真场景,生成时间从小时级压缩到分钟级
  • 虚实一致:仿真数据与真实世界感知差异控制在10%以内,支持零样本真机迁移
  • 开源 RLinf 强化学习工具链,支持1000Hz高精度物理模拟

六、更多动态

AI视频生成

AI应用产品

开源与技术

算力与资本

政策与监管

行业观察

  • 中国发布全球首个碳核算大模型「磐石·禹衡」,320亿参数,重新核算显示中国排放量较传统方法下调17.7%
  • Roblox产品负责人谈AI时代育儿:希望孩子跳过大学直接创业
  • 开源中国联合亦庄发起「模数开源主理人学院」,帮助个体创业者用开源AI对接产业订单
  • 武汉大学发布AI图表智能体「爱图表」,解决AI生成图表准确性低、不可编辑的痛点

想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码