- Anthropic发布Claude Mythos模型,能自主发现数千个零日漏洞,因安全风险太高暂不对公众开放,联合苹果、谷歌、微软等12家巨头启动网络安全联防
- 智谱发布GLM-5.1,全球最强开源模型,能独立连续工作8小时交付完整工程,SWE-bench Pro超越GPT-5.4和Claude Opus 4.6
- 李飞飞正式出任阿里云CTO,阿里成立通义大模型事业部,AI架构全面升级
- DeepSeek上线专家模式,V4模型灰度测试曝光,完整版发布进入倒计时
- 工信部等十部门联合发布AI科技伦理审查办法,明确三类需专家复核的高风险AI活动
- 马斯克起诉OpenAI要求罢免奥尔特曼并索赔1340亿美元,OpenAI核心高管再度离职
- 京东全面拦截员工使用外部AI工具,美团内部限制阿里Qwen模型

一、前沿模型竞赛:安全能力与工程能力同时跃升
Claude Mythos:Anthropic史上最强模型因「太危险」被「囚禁」
Anthropic 发布了最新模型 Claude Mythos Preview,在多项基准测试中全面碾压前代旗舰 Opus 4.6:
- SWE-bench Pro(代码Bug修复):较 Opus 4.6 提升 24%
- SWE-bench Verified(严格验证版):得分 78.5%,提升 13%
- Terminal-Bench 2.0(终端操作与Agent能力):得分 92.1%,提升 17%
然而,这款模型最引人注目的不是性能,而是其安全能力的失控风险。在封闭测试中,Mythos 已自主发现数千个高危零日漏洞,典型案例包括:
- 发现 OpenBSD 中存在 27 年的远程崩溃漏洞
- 定位 FFmpeg 中经 500 万次自动化测试仍未检出的 16 年陈旧漏洞
- 自主串联 Linux 内核多个漏洞实现权限提升
Anthropic 评估认为,Mythos 的漏洞发现与利用能力已远超绝大多数人类工程师。一旦被恶意使用,发现漏洞的速度将远超防御者修复的速度。因此,Anthropic 做出罕见决定:暂不对公众开放,转而启动联合安全防御项目。
定价方面:输入每百万 token 25 美元,输出每百万 token 125 美元,为 Opus 4.6 的五倍。
深度解读 & 洞察:
- 这次事件传递的核心信号是:AI 的攻防能力已经到了需要产业界集体应对的阶段。 找漏洞和利用漏洞本质上是同一能力的两面——模型越擅长修Bug,就越擅长发现和利用Bug。Anthropic 选择押上1亿美元资源和几乎所有头部科技公司,在正式发布前先做一轮大规模安全演练,这在行业内几乎没有先例。
- 值得关注的是,美国国防部因 Anthropic 拒绝将技术用于对美国公民的自主打击或监控,已将其列为「供应链风险实体」。这反映了 AI 安全治理中一个深层次矛盾:同一技术既是最强盾牌,也可能是最强武器。
- 从商业角度看,这也解释了 Anthropic 近期在产品线上的异常动作(Token消耗激增、部分项目节奏放缓),团队资源很可能已集中向安全方向倾斜。
影响:
- 对网络安全行业利多——AI驱动的漏洞发现将催生新的安全服务市场
- 对操作系统和基础软件厂商形成压力——大量历史漏洞将被集中曝光,修复成本陡增
- 投资者需关注:网络安全概念股、AI安全检测工具提供商可能受益
智谱发布GLM-5.1:全球最强开源模型,可独立工作8小时
智谱正式发布新一代开源模型 GLM-5.1,核心突破在于长程任务能力——可在单次任务中连续自主工作超过8小时,完成完整的工程级交付。
关键成绩:
| 基准测试 | 表现 |
|---|---|
| SWE-bench Pro | 刷新全球最佳,超越 GPT-5.4、Claude Opus 4.6 |
| METR 榜单 | 唯一达到 8 小时级持续工作的开源模型 |
| KernelBench Level 3 | 24小时自主迭代,3.6倍几何平均加速比 |
典型能力演示:
- 8小时从零构建 Linux 桌面:执行1200多步,产出功能完善的桌面系统,相当于4人团队一周工作量
- 655轮迭代优化向量数据库:查询吞吐提升至初始版本的6.9倍
- 自主编写定制 CUDA Kernel:超越 torch.compile 的1.49倍,达到3.6倍加速
技术核心:当现有策略收益停滞时,模型能主动分析日志并跳转到结构性不同的方案,突破了传统模型在复杂优化中的「瓶颈期」问题。
同时,智谱对GLM全线模型提价10%,在核心编程场景实现与Anthropic Claude 3.5 Sonnet的价格对齐——这是国内大模型首次在主流应用场景与全球顶尖厂商价格对齐。
GLM-5.1 已在 GitHub、Hugging Face、ModelScope 同步开源,并「Day0」上线华为云。
深度解读 & 洞察:
- 模型竞争的衡量标准正在从「单轮对话有多聪明」转向「能连续工作多久」。GLM-5.1 的8小时持续工作能力,标志着AI的交付单位从「单行代码」演变为「完整项目」。这对软件工程的生产模式有深远影响——资深工程师数月完成的CUDA优化任务,AI可在十几小时内自主完成。
- 从一年前降价90%争夺市场份额,到如今凭借技术优势提价对标国际水平,智谱的战略转变反映了国产头部厂商正在重新掌握定价权。港股开盘涨近15%也验证了市场对这一路线的认可。
- 开源模型的工程能力达到顶尖水平,意味着中小团队也能获得接近头部厂商的AI编程能力,这将加速AI编程工具的普及。
影响:
- 港股AI板块集体上涨,智谱开盘涨近15%,MiniMax高开超8%,恒生科技指数涨2.95%
- 对IT服务外包行业可能产生冲击——当AI能独立完成8小时工程任务,传统人力外包的定价逻辑需要重新评估
DeepSeek上线专家模式,V4模型灰度测试曝光
DeepSeek 在网页端上线快速模式和专家模式双模式设计,这是该产品首次引入分层架构:
- 快速模式:主打即时响应,支持图片与文件上传(最多50个文件),适合日常对话
- 专家模式:面向复杂任务,支持深度思考和智能搜索,token吞吐速度极快,但暂不支持文件上传
- 视觉模式:已进入灰度测试,界面出现图片入口,尚未全量开放
关于V4的线索:部分用户询问模型版本时,专家模式曾「自曝」为V4,但也有测试显示其上下文长度限制约133K token,与传闻中完整版V4的百万级上下文相去甚远。因此推测当前专家模式更可能基于V4 Lite或V3.x的中间版本。
另有消息称,DeepSeek 正在开发至少2款完全基于国产AI芯片的大模型,并已优先将V4开放给国内芯片厂商进行协同优化。
深度解读 & 洞察:
- 双模式设计本质上是在模型能力与服务成本之间做精细化管理——简单任务走轻量链路,复杂任务调用更强推理资源。这种分层策略将成为大模型产品的标配。
- DeepSeek 优先适配国产芯片的信号值得重视。在中美科技博弈背景下,这意味着国产大模型正在构建不依赖海外顶级芯片的完整技术栈。
二、AI安全与治理:产业联防启动,政策落地加速
中国十部门联合发布AI科技伦理审查办法
工信部等十部门联合印发《人工智能科技伦理审查与服务办法(试行)》,这是我国AI治理领域又一项重要政策文件。
核心内容:
审查程序:申请→受理→开展审查→专家复核→审查决定→申诉→跟踪审查(间隔不超过12个月)
审查重点:人类福祉、公平公正、可控可信、透明可解释、责任可追溯、隐私保护
三类需专家复核的高风险活动:
- 对人类心理情绪和生命健康有较强影响的人机融合系统
- 具有舆论引导和社会动员能力的算法模型
- 面向安全风险场景的高度自主决策系统
合规减负:已在深度合成、生成式AI等方面完成监管审批的,可不再开展专家复核
深度解读 & 洞察:
- 这份文件与《科技伦理审查办法》紧密衔接,但针对AI技术特点做了细化。三类需专家复核的活动直接指向当前AI应用中最敏感的领域——脑机接口/人机融合、推荐算法/信息操纵、自动驾驶/自主武器。政策的落地将直接影响这些赛道的研发节奏和合规成本。
- 对企业而言,好消息是已完成相关监管审批的可以免于重复审查,这体现了政策协同的思路,减轻了企业负担。
Anthropic切断第三方框架调用通道,Token定价模式引热议
Anthropic 切断了包括 OpenClaw 在内的第三方框架通过 Claude 订阅服务的调用通道。原因:部分重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源。
小米 MiMo 大模型负责人罗福莉对此发表看法:第三方框架上下文管理效率极低,Token消耗往往是原生框架的数十倍。她警告大模型厂商不要盲目参与「Token价格战」,在没有理清订阅定价策略前开放第三方接入是「陷阱」。小米近期推出的 Token Plan 采用按量计费模式,罗福莉认为短期成本阵痛会倒逼第三方优化技术。
深度解读 & 洞察:
- 这件事揭示了AI行业一个被忽视的结构性问题:Agent框架的Token效率极度低下。 当AI Agent执行复杂任务时,往往需要携带完整的系统提示词和对话历史,导致单次请求消耗数万token。随着Agent应用的爆发,这个问题只会越来越严重。
- 从商业模式角度看,大模型行业正从「流量至上」回归「效率优先」。按量计费将取代固定订阅成为主流,这将改变整个AI应用生态的成本结构。
360披露OpenClaw三个高价值安全漏洞
360漏洞挖掘智能体发现 AI 智能体框架 OpenClaw 的 3 个高价值漏洞:
- 高危:脚本审批绕过——攻击者可在审批通过后替换脚本代码,实现本地命令执行
- 中危:OAuth回调参数复用——可导致Google账号被接管
- 中危:WebSocket大数据包处理缺陷——可引发设备崩溃(DoS攻击)
三个漏洞均已被官方修复。值得注意的是,这些漏洞直接触及AI智能体的核心运行机制(脚本执行、认证授权、实时通信),而非边缘功能。
三、行业格局:巨头组织重构,竞争白热化
李飞飞出任阿里云CTO,阿里AI架构全面升级
阿里巴巴宣布重大组织架构调整:
- 李飞飞正式出任阿里云CTO,负责阿里云技术和AI云基础设施建设,同时加入新成立的集团技术委员会
- 原有通义实验室升级为通义大模型事业部,由周靖人负责
- 周靖人同时出任技术委员会首席AI架构师
- 吴泽明专注集团CTO工作,负责AI推理平台建设
此次调整的背景:阿里最新推出的 Qwen 3.6 Plus 模型获得了 OpenRouter 全球大模型周调用量冠军;近期成立的 ATH 事业群目标是创造、输送和应用 Token。
深度解读 & 洞察:
- 李飞飞的加入是阿里AI战略的标志性事件。作为ImageNet的创建者、斯坦福AI实验室前主任,她在计算机视觉和AI基础研究领域的声望无人能及。这次加盟意味着阿里在AI人才争夺战中拿下了顶级棋子。
- 通义实验室升级为事业部,表明阿里将大模型从「研究项目」提升为「核心业务」。配合ATH事业群的Token战略,阿里正在构建从底层基础设施到上层应用的全链路AI能力。
影响:
- 对阿里云及阿里系AI概念股利多
- 加剧国内大模型厂商的人才与资源竞争
马斯克起诉OpenAI要求罢免奥尔特曼,索赔1340亿美元
埃隆·马斯克向 OpenAI CEO 奥尔特曼和总裁布罗克曼提起诉讼,核心诉求:
- 要求法院罢免奥尔特曼和布罗克曼的职务
- 要求 OpenAI 恢复为非营利组织
- 索赔 1340亿美元,称这是 OpenAI 和微软通过马斯克早期支持获得的「非法收益」
- 案件预计 4 月27日在加州联邦法院开庭
与此同时,被称为「GPT-4o之母」的 OpenAI 核心产品负责人 Joanne Jang 宣布离职,结束四年半职业生涯。传言 CEO 和 CFO 在公司上市时间表上存在重大分歧。
深度解读 & 洞察:
- OpenAI 当前的估值高达 852 亿美元,正在为上市做准备。核心高管的频繁离职叠加马斯克的诉讼,对投资者信心构成双重打击。如果管理层不稳定的问题持续发酵,可能影响上市进程和估值水平。
- 马斯克索赔1340亿美元的数字看似夸张,但其法律策略的真正目标可能是迫使OpenAI在非营利/营利身份转换上做出让步,从而影响其商业化路径。
京东全面拦截外部AI,美团限制阿里Qwen
- 京东:3月底正式限制外部AI,员工打开豆包、千问、Gemini、DeepSeek、ChatGPT等外部网站均被拦截,拦截页面提供自研大模型 JoyAI 入口和外部AI申请通道
- 美团:不再推荐业务使用阿里云Qwen模型,使用需提交审批至x3级别老板;豆包等模型无需审批;公司推荐使用自研的 LongCat(龙猫)模型
深度解读 & 洞察:
- 这一趋势反映了两个动机:数据安全(防止企业敏感信息通过AI对话泄露)和降本增效(推动内部模型替代外部付费服务)。随着大模型能力日趋同质化,大型科技公司倾向于构建自研AI能力并限制外部依赖。
港股AI板块集体上涨
受全球AI技术突破和应用落地加速推动,港股AI板块4月8日开盘表现强劲:
- 智谱开盘涨近15%,领涨全场
- MiniMax高开超8%
- 金山云、金山软件、腾讯控股同步上涨
- 恒生指数上涨2.61%,恒生科技指数涨2.95%
国际局势缓和也是利好因素之一:伊朗接受临时停火提议,霍尔木兹海峡预计两周内开放,缓解了供应链中断担忧。
四、AI编程工具链:跨模型协作与效率优化
GitHub推出跨模型AI审查功能Rubber Duck
微软 GitHub 为 Copilot CLI 推出实验性功能 Rubber Duck,核心思路是用不同厂商的模型互相审查代码:
- 用户选择 Claude 系列模型作为主控后,Rubber Duck 调用 GPT-5.4 进行审查
- Claude Sonnet 4.6 搭配 Rubber Duck 后,弥补了与 Opus 4.6 之间 74.7% 的性能差距
- 困难任务(3个以上文件或超过70步)中,得分比基准高 3.8%
- 支持三种触发模式:主动、被动、用户触发
深度解读 & 洞察:
- 这一功能的底层逻辑是:单一模型的自我审查受限于训练偏差。 用不同架构的模型做交叉验证,就像让两位背景不同的工程师互相 code review,能发现单一视角容易忽略的问题。这可能是AI编程工具从「单模型」走向「多模型协作」的开端。
caveman:让AI少说话,输出Token最高省87%
19岁荷兰开发者 Julius Brussee 的开源项目 caveman 在GitHub上3天收获4.1k星。核心思路:让AI像「山顶洞人」一样说话,只说关键信息,砍掉冗余表达。
- 10个典型编程任务的输出Token节省 22%–87%,平均约65%
- 压缩策略:只压缩自然语言,代码块、URL、文件路径等技术内容原样保留
- 提供Lite/Full/Ultra三个压缩等级
争议:节省主要在输出端而非成本更高的输入端;强制精简可能影响复杂推理场景的表现。
BitTorrent创始人公开批评Vibe Coding
BitTorrent 协议创始人 Bram Cohen 发表署名文章,批评 Anthropic Claude 团队的 Vibe Coding(氛围编程)模式。起因是 Claude Code 源代码泄露后,开发者发现代码中存在大量重复逻辑和冗余结构。
Cohen 核心观点:
- Vibe Coding 让开发者不检查AI输出的底层代码,这是根本性错误
- AI的真正价值在于高效处理技术债务,而非替代思考
- 「坏软件是一种决定。你需要为此负责。」
五、具身智能:融资加速与「具身原生」路线之争
地瓜机器人完成1.5亿美元B2轮融资
具身智能机器人平台公司地瓜机器人完成1.5亿美元B2轮融资,B轮累计2.7亿美元。投资方包括沙特阿美旗下Prosperity7、远景科技、高瓴创投、滴滴、淡马锡等。
2025年关键数据:出货量同比增长180%,开发者突破10万,累计推出超100款机器人产品。技术路线与地平线协同——地瓜提供硬件算力平台(RDK S600),地平线提供开源模型(HoloMotion + HoloBrain)。
具身原生大模型:抛弃预训练路线的新范式
Generalist AI 发布 GEN-1 模型,多项任务成功率超99%,速度比此前最优模型快约3倍。核心路线:完全基于真机数据从零训练,约99%参数为冷启动,不依赖任何现有基础模型。
与此同时,中国公司原力灵机早在2月便发布了具身原生大模型 DM0(仅2.4B参数),在 RoboChallenge 真机评测中拿下双项全球第一。DM0从数据、训练、架构三个层面实现「原生」,覆盖8种构型迥异的机器人硬件。
深度解读 & 洞察:
- 行业正在从「先训大模型再接动作头」的路线转向「具身原生」。后者认为预训练模型的知识边界和底层缺陷从第一行代码就已注定,当机器人数据日益丰富时,这种「拐杖」终将失去价值。2.4B参数的DM0击败参数量更大的明星模型,也印证了「无脑堆参数在机器人领域非常荒诞」的判断。
智元升级Genie Sim 3.0仿真平台
智元发布 Genie Sim 3.0 一站式仿真开发平台,核心升级:
- 图文生境:文本/图片直接生成仿真场景,生成时间从小时级压缩到分钟级
- 虚实一致:仿真数据与真实世界感知差异控制在10%以内,支持零样本真机迁移
- 开源 RLinf 强化学习工具链,支持1000Hz高精度物理模拟
六、更多动态
AI视频生成
- 神秘模型 Happy Horse 登顶AI Video Arena榜首,超越Seedance 2.0,原生支持音频生成,开发方身份成谜,业内猜测与中国团队有关
- PixVerse C1 发布:全球首个影视行业大模型,支持15秒1080P视频、自动分镜、音画同步
- Seedance 2.0 开放视频生成 API 接口
AI应用产品
- Adobe推出免费AI学习平台 Acrobat Student Spaces,支持学习指南、思维导图、抽认卡生成和音频摘要,已在哈佛、伯克利等高校测试
- 腾讯发布AI浏览器「龙虾」QBotClaw,国内首个支持用户自配大模型API的浏览器,集成微信远程控制
- 微盟发布零售AI技能并接入OpenClaw生态,中国SaaS行业首个零售领域AI技能
- 谷歌Gemini增加心理健康支持功能,识别自残/自杀倾向后一键引导至危机热线,承诺三年投入3000万美元
- 谷歌承诺Gmail中Gemini不使用用户邮件训练模型,所有处理在隔离环境中完成
- 谷歌搜索AI概览准确率约90%,但每年仍可能产生数千万条错误答案
- 上汽通用别克至境E7搭载豆包大模型,识别20多种情绪,高通骁龙8775芯片AI算力提升7-14倍
- Perplexity AI三月ARR暴增50%至4.5亿美元,由智能体业务驱动
- 360推出虾书APP,用户观看AI智能体互动的社区产品
开源与技术
- 微软必应开源27B嵌入模型Harrier,支持100+语言,多语言MTEB v2排名第一,MIT许可证
- 面壁智能发布VoxCPM 2开源语音模型,仅2B参数,支持9种方言+30种外语,48000Hz采样率,不到1秒完成合成
- 阿里通义发布FIPO算法,32B模型推理性能超过OpenAI o1-mini
- LongCat-Flash-Prover刷新AI定理证明开源SOTA,MiniF2F-Test通过率97.1%
- SentiPulse联合人大高瓴开源SentiAvatar,3D数字人动作生成框架
算力与资本
- 英特尔加入马斯克Terafab AI芯片项目,目标年产1太瓦算力,园区选址德州奥斯汀
- 迈克尔·戴尔预测2028年AI加速器内存需求是2023年的625倍
- 西班牙Xoople完成1.3亿美元融资,建造卫星星座为AI绘制地球地图
- 播客应用Overcast开发者自建48台Mac mini集群替代云AI服务,解决转录成本问题
政策与监管
- 日本拟放宽个人信息使用准则,取消部分数据共享的事先同意要求,目标是成为「全球最容易开发AI应用的国家」
- Suno与环球音乐谈判陷入停滞,核心分歧在于AI生成音乐是否可外部分享
行业观察
- 中国发布全球首个碳核算大模型「磐石·禹衡」,320亿参数,重新核算显示中国排放量较传统方法下调17.7%
- Roblox产品负责人谈AI时代育儿:希望孩子跳过大学直接创业
- 开源中国联合亦庄发起「模数开源主理人学院」,帮助个体创业者用开源AI对接产业订单
- 武汉大学发布AI图表智能体「爱图表」,解决AI生成图表准确性低、不可编辑的痛点
