GPT-5.6 曝光、Claude Mythos 引发全球安全警报、华为发布芯片「韬定律」

要点速览
  • OpenAI GPT-5.6 被意外曝光,上下文窗口飙升至 150 万 token,预计 6 月发布
  • Anthropic 网络安全模型 Claude Mythos 即将公开,欧洲央行紧急开会应对潜在威胁
  • 阿里 Qwen3.7-Max 编程能力跃居全球第二,超越 Claude Opus 4.6
  • 华为发布半导体「韬定律」,预告秋季发布逻辑折叠麒麟芯片
  • 支付宝 AI 支付完成 3 亿笔交易,发布全球首个 Token Pay 服务
  • 黄仁勋公开批评 CEO 以 AI 为由裁员「只是为了显得自己很聪明」
  • 谷歌 AlphaProof Nexus 解开两道悬置 56 年的数学难题
  • 苹果用谷歌定制的 1.2 万亿参数模型升级 Siri
  • 99% 企业高管预计 AI 两年内引发裁员,OpenAI 奥尔特曼称不会出现「就业末日」
  • 加文·贝克深度拆解 AI 产业:Anthropic 月增 110 亿美元 ARR 创商业史之最

GPT-5.6 曝光、Claude Mythos 引发全球安全警报、华为发布芯片「韬定律」

一、大模型六月大战:GPT-5.6 曝光、Mythos 将出、各家摩拳擦掌

OpenAI GPT-5.6 后端意外曝光,上下文窗口达 150 万 token

多名开发者在 OpenAI Codex 后端日志中发现未官宣模型 GPT-5.6,内部代号 iris-alpha,另有 ember-alpha 和 beacon-alpha 等版本。核心信息:

  • 上下文窗口 150 万 token:较 GPT-5.5 的 105 万提升 43%,测试中 90 万 token 输入仍流畅响应
  • 前端生成能力大幅增强:几乎无需详细提示词即可生成商用级 UI 界面
  • 预计 6 月发布,与 Anthropic Sonnet 4.8、Google Gemini 3.5 Pro、xAI Grok 5 同期竞争

深度解读 & 洞察:

  • 上下文窗口是模型「单次能消化多少信息」的核心指标。150 万 token 意味着模型可以一次读完一本超长小说、一个完整代码仓库或几十份法律合同——这直接冲击了 RAG(检索增强生成)等外部辅助方案的生存空间
  • 前端 UI 生成能力的提升意味着 AI 正从「写代码」跨越到「直接交付产品」,这对前端开发者市场将产生深远影响
  • 6 月将成为 2026 年大模型竞争的关键节点,各家集中发布将加速行业洗牌

Anthropic 酝酿公开最强模型 Claude Mythos,能力太强引发安全担忧

Claude Mythos 在 Claude Code 和 Claude Security 公开版本中短暂现身后被撤下,表明已进入上线前测试阶段:

  • 官方定位为面向计算机安全的前沿模型,相比旗舰 Opus 4.7,代码推理和自主执行能力显著提升
  • 安全隐忧:能自动开发专业水准的网络攻击手段,此前 Anthropic 警告公开发布可能带来严重风险
  • Project Glasswing:联合约 50 家组织合作伙伴,使用 Mythos Preview 主动扫描全球关键软件漏洞,首月发现超过 10000 个高危或严重漏洞

深度解读 & 洞察:

  • Mythos 的核心矛盾在于:攻击能力与防御能力是硬币的两面。Anthropic 选择「先防后攻」的发布策略,通过 Glasswing 项目验证防御价值后再开放,是负责任但缓慢的做法
  • 这标志着 AI 安全从「理论讨论」进入「实战工具」阶段——谁能先掌握 AI 挖漏洞的能力,谁就掌握防御主动权

欧洲央行召开紧急会议应对 Claude Mythos 网络安全威胁

欧洲央行紧急会议讨论 Mythos 对全球金融系统的潜在风险:

  • 副主席埃尔德森对欧洲银行无法使用 Mythos 表示遗憾,呼吁美国银行分享经验
  • 要求银行加快软件补丁部署速度,不能以未获得模型访问权限为借口不作为
  • Anthropic 计划向金融委员会和欧盟委员会提供相关技术简报

深度解读 & 洞察:

  • 全球金融监管机构首次因单个 AI 模型召开紧急会议,这说明 AI 能力已经达到可能动摇关键基础设施安全的阈值
  • 欧洲银行的焦虑反映了更深层的地缘政治问题——顶级 AI 安全工具的获取权正在成为新的数字鸿沟

苹果用谷歌定制 1.2 万亿参数模型升级 Siri

苹果为下一代 Siri 采用谷歌定制的 1.2 万亿参数 LLM,远超 Gemini 3.5 Flash 的 3000 亿参数。核心挑战在于:让简单查询在本地 iPhone 上运行,需平衡延迟、能耗和准确率。苹果将在 WWDC 展示 Apple Intelligence 与 Gemini 的深度融合。


阿里 Qwen3.7-Max 编程能力全球第二,国产模型首破格局

全球权威编程榜单 Code Arena 放榜,阿里 Qwen3.7-Max 以 1541 分跃居全球第二,仅次于 Claude 系列:

  • 超越 claude-opus-4-6、GPT-5.5 等模型,是国产大模型在编程领域的最好成绩
  • 支持连续运行 35 小时、超 1000 次工具调用的长周期自主任务
  • 兼容多种 Agent 框架,可直接接入 Claude Code 等工具链

深度解读 & 洞察:

  • Code Arena 采用真实开发任务盲测机制,比传统学术基准测试更能反映实际编程能力。国产模型首次打破 Claude 和 GPT 的垄断,意味着在编程这一核心应用场景上,中国模型已具备全球竞争力
  • 长周期任务执行能力(35 小时/1000+ 工具调用)意味着模型已从「代码片段生成器」进化为「项目级开发者」

昆仑万维发布 SkyClaw-v1.0:百万上下文 Agent 模型

昆仑万维天工 AI 推出高性能 Agent 模型 SkyClaw-v1.0 及轻量版:

  • 支持百万 token 上下文,覆盖多步任务执行、代码生成、数据分析
  • 性能超越 Minimax 2.7、DeepSeek V4 Flash 等开源模型,接近 DeepSeek V4 Pro、Claude Opus 4.6
  • 定价比 Minimax 2.7 和 Qwen 3.6 系列便宜一半以上,开放 2-4 周免费试用

xAI Grok V9-Medium 完成训练,1.5 万亿参数进入微调阶段

马斯克透露 Grok V9-Medium 已完成训练,1.5 万亿参数,训练数据中引入了 Cursor 代码数据,预计 2-3 周内公开。


面壁智能开源 MiniCPM5-1B:1B 参数超越所有 2B 以下模型

MiniCPM5-1B 仅 1B 参数,在 AA-Index 上超越所有 2B 以下模型;INT4 量化后仅 0.5GB,能跑在手机和浏览器上。由全球首个完全 AI 编写的预训练框架 ForgeTrain 训练完成。


Kimi K2 系列模型 API 正式下线

月之暗面宣布 Kimi K2 系列模型 API 下线,用户需迁移至最新的 kimi-k2.6。


二、AI 产业洞察:贝克深度拆解、黄仁勋炮轰裁员论、奥尔特曼唱反调

加文·贝克深度对话:前沿模型、晶圆与巨头格局

Atreides Management 创始人加文·贝克在 Invest Like the Best 播客中的核心观点:

  • Anthropic 月新增 110 亿美元 ARR(年度经常性收入),堪称美国商业史之最
  • 判断泡沫的关键指标:台积电的产能决策,目前晶圆短缺实际上由台积电控制,反而可能阻止泡沫
  • 老旧 GPU 不会报废:Prefill/Decode 拆分使老旧 GPU 可重新分工,寿命延长至 10-15 年
  • 应用层价值被摧毁:AI 目前在应用层毁掉数万亿美元价值(传统 SaaS 被颠覆)
  • 算法突破是最大风险:如果让小模型超越大集群,「苦涩教训」被打破,基建投资逻辑将受冲击
  • 轨道算力:SpaceX 星舰将使太空部署算力成为可能,利用太阳能和太空真空解决散热和监管问题

深度解读 & 洞察:

  • 贝克的核心逻辑是:AI 产业的投资价值目前集中在算力基础设施层(英伟达、台积电),而应用层的价值被压缩。这一判断对投资者具有直接指导意义
  • 「算法突破风险」是被低估的黑天鹅——当前所有投资逻辑都建立在「算力即正义」的基础上,一旦算法效率出现革命性突破,大量算力基建投资将被套牢

黄仁勋批评 CEO 以 AI 为由裁员:太敷衍了

英伟达 CEO 黄仁勋接受新加坡亚洲新闻台采访时直言:

  • 「AI 在六个月前才变得高效有用,怎么可能两年前就有人因 AI 裁员了?」
  • 一些高管把裁员归因于 AI 只是「为了显得自己很聪明」
  • 同日黄仁勋还表示:孩子学什么专业没那么重要,关键是要学会用 AI

OpenAI 奥尔特曼:AI 普及不太可能引发「就业末日」

奥尔特曼在澳洲联邦银行会议上表示:

  • 2022 年 ChatGPT 发布时曾担心 AI 消灭大量入门白领岗位,「我很高兴自己判断错了」
  • 就业市场仍有机器无法取代的部分,如亲自回复 Slack 和邮件
  • 但他未援引任何具体就业数据

99% 企业高管预计 AI 两年内引发裁员

美世《全球人才趋势》报告调查 825 名高管:99% 预计 AI 两年内导致裁员。积极工作状态的员工比例从 66% 降至 44%。企业同时面临裁员与抢人才的双重矛盾。

深度解读 & 洞察:

  • 黄仁勋、奥尔特曼的乐观表态与 99% 高管的裁员预期形成了鲜明对比。两种声音的分歧在于:AI 公司 CEO 站在技术供给端(技术还在发展中),而企业高管站在应用端(已经在用 AI 替代人力)。真实情况可能介于两者之间

影响:

  • 劳动力市场结构性调整加速,短期利空传统白领岗位密集型行业(如初级编程、内容生产、客户服务),利多 AI 技能培训和教育赛道

Uber 四个月花光全年 AI 预算,总裁质疑投入合理性

Uber 总裁安德鲁·麦克唐纳表示公司前四个月耗尽全年 AI 预算,但 Claude Code 使用量激增与面向用户功能提升之间「看不出关联」。公司不得不权衡 token 使用量、成本与人员编制。


Anthropic 将 Karpathy 等高管统一为 MTS 头衔引发讨论

Anthropic 将所有技术人员统一为 MTS(Member of Technical Staff)头衔,包括 Karpathy、Instagram 联合创始人 Mike Krieger 等。年薪 30-40.5 万美元。此举被认为可降低被挖角风险、强化研究导向文化,但也被质疑将层级从显性转为隐性。


三、AI 安全监管与伦理:多国推行发布前安全评估、中国发布伦理指引

多国政府推行大模型发布前安全评估新机制

英国、美国、澳大利亚等相继要求前沿 AI 模型发布前必须通过政府安全测试:

  • 英国 AI 安全研究院的红队测试流程已被多国采纳,英澳签署合作协议共享研究成果
  • Google、Microsoft、OpenAI、xAI 等企业已同意在发布前提交材料并接受深度安全评估
  • 从依赖企业自愿承诺转向政府直接介入模型测试

中国网安标委发布《人工智能应用伦理安全指引 1.0》

国内首个系统性 AI 伦理安全行业指引,提出 36 条具体要求:

  • 核心原则:保留关键环节的人类判断与监督,避免 AI 过度替代人类决策
  • 分场景规范:生命健康、金融活动、信息传播、知识生产与科研各有差异化底线
  • 双向约束:对开发者、服务提供者和使用者均提出明确要求
  • 清华、阿里、华为、DeepSeek 等参与起草,目前为指引性质,不具备法律强制力

微软 Copilot Cowork 被曝存在严重提示词注入漏洞

安全机构 PromptArmor 发现 Copilot Cowork 存在间接提示词注入漏洞,攻击成功率 100%。攻击者可在用户不知情下通过恶意文档操纵 AI 窃取企业机密文件,且即使切换到 Claude Opus 4.7 漏洞同样存在。


医学论文虚假参考文献激增 12 倍,AI 难辞其咎

哥伦比亚大学团队核查 247 万篇论文发现:虚假参考文献从 2023 年的每万篇 4 条升至 2026 年初的每万篇 56.9 条,增长超 12 倍。98.4% 的问题论文出版商尚未处理。综述类论文受影响最严重,而综述往往是临床诊疗指南的制定依据。


Anthropic 被指控操纵监管以打压开源竞争

Anthropic 被指控利用安全监管框架打压开源模型竞争对手,引发行业对监管俘获的讨论。


四、AI 商业化与产品落地

支付宝 AI 支付完成 3 亿笔交易,发布全球首个 Token Pay 服务

支付宝在 AI 支付生态大会上发布重大更新:

  • 已完成 3 亿笔 AI 智能体支付,支持 95% 的通用智能体框架
  • 发布全球首个 Token Pay 服务(面向 AI Token 充值)和 AI 钱包产品
  • 支持 Qwen、Claude Code、理想汽车、Rokid 等多元场景
  • 为 AI 开发者推出激励计划:Token 专项补贴、个人开发者 0 支付费率

深度解读 & 洞察:

  • 支付主体从「人」变成「AI 智能体」是支付行业的历史性转变。支付宝正在构建 AI 时代的支付基础设施,正如快捷支付助力电商、扫码支付助力移动互联网
  • Token Pay 解决了大模型公司全球用户充值的支付痛点,MiniMax、阶跃星辰等已接入

美团推出「跑腿 Skill」,对接各大 AI 助手实现一句话点单

美团跑腿 Skill 支持 OpenClaw 等主流框架,用户用自然语言说清需求即可完成从下单到支付的全流程,代码已在 GitHub 开源。


抖音「AI 求真」大模型上线一年:谣言被处置时平均浏览量下降 62%

抖音引入大模型技术治理谣言,识别准确率提升至 95%,热点事件处置速度提升 50% 以上。通过「求真卡」功能展示权威辟谣信息。


百川智能发布医疗大模型 Baichuan-M4 和「百小医」家庭医生

Baichuan-M4 在 HealthBench 三大权威医疗榜单排名第一,幻觉率降至 3.3%。「百小医」通过企业微信融入家庭群,自动建立健康档案、识别健康风险并提醒复诊用药。已与北京儿童医院、上海瑞金医院等展开临床研究。


京东提出「AI World」愿景:让 AI 离开屏幕融入家庭生活

京东科技提出 AI 价值公式「AI 价值 = 模型 × 体验 × 产业厚度²」,目标 2026 年底在超千万台设备上植入大模型,让台灯、闹钟、床垫等成为「有思想的伙伴」。


三星电子下月起允许员工使用外部 AI 模型,半导体部门除外

三星将从 6 月起面向设备体验(DX)部门员工开放外部生成式 AI 服务,半导体部门仍受限制。


央视曝光直播带货乱象,市场监管总局部署半年整治计划

重点打击利用 AI 合成专家肖像和声音的虚假广告,要求所有 AI 广告必须明确标注。


五、芯片与算力:华为发布「韬定律」、国产算力多点突破

华为发布半导体「韬定律」,预告秋季逻辑折叠麒麟芯片

华为董事何庭波在国际电路与系统研讨会上发布「韬(τ)定律」:

  • 核心理念:通过「逻辑折叠」技术将芯片从「平面城市」升级为「立体城市」,不完全依赖几何尺度缩小即可提升性能
  • 莫邪工作小组:2019 年制裁后成立,数万人历经七年攻关
  • 成果:过去六年已量产 381 款芯片;今年秋季发布首款完整采用逻辑折叠技术的麒麟芯片,晶体管密度提升 53.5%,P 核能效提升 41%
  • 远期目标:2031 年主频达 5.0GHz,晶体管密度超 400 MTr/mm²,达到 1.4nm 制程同等水平

深度解读 & 洞察:

  • 韬定律的本质是绕过 EUV 光刻机限制的替代路线——通过 3D 堆叠和架构创新而非纯粹的制程缩小来提升性能。这在制裁背景下具有战略意义
  • 如果逻辑折叠技术路线被验证可行,将对全球半导体竞争格局产生深远影响——先进制程不再是唯一路径

影响:

  • 利好国产半导体产业链相关企业;对 ASML 等光刻机巨头在中长期可能形成潜在压力(如果 3D 堆叠路线被广泛采用)

摩尔线程 MTT S5000 成为首个通过国家安全可靠测评的 AI 训推芯片

摩尔线程 PH100 芯片首次将 AI 训练推理芯片纳入安全可靠测评,单卡 AI 算力 1000 TFLOPS,80GB 显存。


思特威与紫光展锐联手布局 MicroLED 高速光互连

双方联合研发 MicroLED CPO 光互连方案,将单位传输能耗降至铜缆方案的 5%,为 AI 数据中心算力集群提供国产化高速互连解决方案。


华为发布 AI DC 数据基础设施全栈方案

涵盖 AI 数据湖、知识与记忆平台、模型工程、Agent 框架和数据韧性平台五大方向,推出业界首个支持异构算力的上下文记忆存储 CMS,推理首 Token 时延降低 90%。


面壁智能开源 BitCPM-CANN:华为昇腾原生低比特训练方案

首次在华为昇腾平台上完成从量化算子到全链路框架的低比特训练,模型能力保留率 90.1%-97.2%,推理显存压缩约 6 倍,8B 模型可直接部署在旗舰手机上。


TetraMem 完成 22nm 存内计算 SoC 验证

硅谷存内计算初创企业 TetraMem 的 MLX200 采用模拟内存计算,直接在内存中完成向量矩阵乘法,瞄准可穿戴设备和边缘 IoT 的低功耗 AI 推理场景。


六、AI 科研与开源工具

谷歌 AlphaProof Nexus 解开两道悬置 56 年数学难题

谷歌 DeepMind 推出 AlphaProof Nexus,结合 Gemini 与 Lean 形式化验证:

  • 在 353 个开放 Erdős 问题中自主解决 9 个,其中 2 个已悬置 56 年
  • 另证明了 OEIS 中 44 个猜想、1 个 15 年的 Hilbert 函数问题
  • 每题推理成本仅数百美元
  • 最简单的 Agent A(纯 LLM + 编译器反馈循环)即可解出全部 9 题但成本更高

深度解读 & 洞察:

  • 菲尔兹奖得主陶哲轩曾估计 AI 解 Erdős 问题成功率约 1%-2%,DeepMind 的 9/353 恰好吻合。这标志着 AI 正以可预期节奏将人类数学家数十年未突破的问题转化为可批量处理的计算任务
  • 最简 Agent 即可解题的发现意义重大——说明「大模型 + 专业校验工具」的简单循环可能比复杂多工具系统更具普适性

微软开源 Webwright 框架:约 1000 行代码让 GPT-5.4 网页任务跑分提升 81%

微软研究院开源网页智能体框架,让 AI 在终端写 Playwright 代码而非模拟点击。Webwright + GPT-5.4 在 Odysseys 榜单达 60.1%,较基础 GPT-5.4 的 33.5% 提升 81%。


Redis 8.8 正式 GA:原生数组 + INCREX 限流命令

Redis 之父 antirez 亲自贡献 Array 数据结构;INCREX 命令将滑动窗口限流封装为单条原子命令,高并发吞吐量较 Lua 方案提升约 40%。


Perplexity 开源 Bumblebee:开发者终端供应链安全扫描工具

覆盖 8 种包管理器 + 编辑器/浏览器扩展 + MCP 配置的安全扫描,只读磁盘元数据不执行任何代码。首次将 AI 编程工具配置纳入安全监控范围。


AgentScope 2.0 发布:从透明开发到系统工程

阿里巴巴旗下智能体框架升级,新增权限与安全边界、结构化上下文管理、Workspace 环境抽象、Agent Service 从脚本到服务的跨越。支持 Python、TypeScript、Java 三语言。


小米汽车发布 World Model 全新框架:重建 + 生成一体化

首次将三维重建与视频生成深度耦合,Waymo、nuScenes 基准测试全面 SOTA。已交付超 10 万 clips 合成数据用于感知训练,并上线全车型辅助驾驶学堂。


OpenAI Codex 新增「锁屏运行」功能

Mac 版 Codex 桌面代理支持锁屏状态下远程操控应用程序,用户可通过手机发送任务指令。通过 Apple 授权插件实现,设有严格行为约束。


谷歌推出 Gemini 3.5 Flash (Low) 并重置配额

为缓解用户对 Antigravity 平台额度消耗过快的不满,新增 Low 版本,Token 消耗比 Medium 少约 45%,同时在软件工程任务上优于 Gemini 3 Flash。


七、更多动态


想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码