- Anthropic发布Claude Sonnet 5,Agent能力大幅提升,价格仅为Opus 4.8的60%,但新分词器导致实际Token消耗增加约40%
- Claude Code被曝暗藏环境检测代码,通过Unicode字符隐写标记中国用户时区和机构身份,Anthropic承诺7月2日删除
- 美国商务部正式解除Fable 5和Mythos 5出口管制,两模型恢复全球访问
- 谷歌发布Nano Banana 2 Lite图像模型,4秒出图,每千张仅0.034美元
- AI芯片公司Etched完成流片,获10亿美元订单和8亿美元融资,估值达50亿美元
- 软银向OpenAI追加100亿美元,10月将再投100亿完成300亿美元投资计划
- 微软Azure正式接入Claude Opus 4.8和Haiku 4.5模型
- 英伟达优化DeepSeek V4推理,单Token成本降至五分之一,吞吐量最高提升20倍
- 月之暗面启动新一轮融资,投前估值飙升至315亿美元,ARR突破3亿美元

一、Anthropic 发布 Claude Sonnet 5:Agent 能力下放中杯
Claude Sonnet 5 正式发布
Anthropic 于 7 月 1 日正式发布 Claude Sonnet 5,定位为「迄今最具智能体能力的 Sonnet 模型」。该模型能够自主制定计划、调用浏览器和终端等工具执行复杂任务,并在完成后主动检查输出结果——这套能力此前仅出现在旗舰 Opus 系列上。
核心性能:
- SWE-bench Pro(编码测试)得分 63.2%,比 Sonnet 4.6 高 5 个百分点,距 Opus 4.8 仅差 6 分
- OSWorld-Verified(桌面操作)达 81.2%,与 Opus 的差距缩至 2.2 个百分点
- GDPval-AA v2(知识工作)以 1618 分反超 Opus 4.8 的 1615 分
定价策略:
- 优惠期(至 8 月 31 日):输入 $2 / 输出 $10(每百万 Token)
- 标准价(9 月 1 日后):输入 $3 / 输出 $15
- 对比 Opus 4.8 的 $5/$25,输出成本仅为其 40%
深度解读 & 洞察:
Sonnet 5 的核心策略是「能力下沉」——把原本需要旗舰模型才能完成的 Agent 工作流,用中端价格交付。这对开发者意味着:构建自主 AI 代理的成本门槛大幅降低。
早期用户的反馈印证了这一点。Zapier 工程师描述了一个典型案例:让模型执行「先更新 Salesforce 账户等级、再发产品上线公告」的两段式任务,Sonnet 5 一气呵成,而此前其他模型常常只完成一半就停下。一位 Rust 工程师则发现,Sonnet 5 在调查 bug 时主动写了复现测试、实现修复、再将修复 stash 掉以确认 bug 回归——全程无需人工提示。
这种「不需要人在旁边盯着」的执行完整性,被认为是 Sonnet 5 与上一代最本质的区别。
标价不变,实际开销却涨了——Token 变相涨价
开发者 Simon Willison 实测发现,Sonnet 5 换用了新分词器(Tokenizer),同一段英文文本的 Token 数从 2356 涨到 3341,涨幅 42%。西班牙语涨 33%,Python 代码涨 27%。唯有简体中文几乎不受影响,仅涨 1%。
这意味着虽然单价没变,但同样的任务实际开销比 Sonnet 4.6 时代高出四成多。更尴尬的是,在 Artificial Analysis Intelligent Index 基准测试中,Sonnet 5 实际花费 2.29 美元,而 Opus 4.8 仅需 1.8 美元——因为 Sonnet 5 消耗的 Token 数量是 Opus 的两倍。「Opus 平替」的说法在真实账单面前难以成立。
深度解读 & 洞察:
这是大模型行业「变相涨价」的典型案例。OpenAI 今年 4 月给 GPT-5.5 调价走的是明路,数字摆在台面上;而 Sonnet 5 走的是暗路——标价一字未动,涨幅藏在分词器换代的技术细节里。对于计划迁移工作流的开发者,最务实的做法是拿自己的真实负载实测 Token 消耗,再预估实际成本。标价表只告诉你单价,账单才能告诉你真实花费。
Claude Science:面向科研的 AI 工作平台
Anthropic 同日以 beta 测试形式推出 Claude Science——一个专为科研人员设计的 AI 工作平台。平台集成超 60 种精选技能与连接器,覆盖 RNA 测序、CRISPR 选型、蛋白质结构预测、化学信息学等领域,整合了 NVIDIA BioNeMo Agent Toolkit,可直接调用 Evo2、Boltz-2 和 OpenFold3 等生命科学工具。所有输出附带可审计的生成历史记录,方便验证和复现。已面向 Claude Pro / Max / Team / Enterprise 用户开放。
深度解读 & 洞察:
从 Sonnet 5 到 Claude Science,Anthropic 的战略路径清晰:通用模型的下游不是「更好的聊天机器人」,而是深入科研、医疗等高价值付费场景。这与 Anthropic 秘密提交 IPO 招股书的背景相呼应——需要向市场证明其模型不仅能聊天写代码,更能支撑万亿美元估值所要求的营收增长。
二、信任危机:Claude Code 隐写检测引爆隐私争议
Claude Code 暗藏环境检测代码
隐私研究员 Alexander Hanff 与逆向工程师 LegitMichel777 各自独立披露了两项发现,指向同一个事实:Anthropic 在用户不知情的情况下,通过隐蔽手段收集设备环境信息并传回服务器。
Claude Desktop 浏览器扩展桥接:
Hanff 发现,Claude Desktop 在用户未操作的情况下,向 Chrome、Brave、Edge 等 7 款 Chromium 内核浏览器的配置目录写入了预授权扩展文件。这套机制能打开新标签页并共享用户已登录的会话状态、实时读取 DOM 内容、提取结构化数据、自动填表,甚至将整个浏览器会话录制为 GIF。用户手动删除配置文件后,下次启动 Claude Desktop 时文件会被自动重建——日志显示该操作被执行了至少 31 次。
Claude Code Unicode 隐写检测:
LegitMichel777 逆向 Claude Code 2.1.196 版本发现,自 2.1.91 版本(4 月 2 日发布)起,二进制中嵌入了一套经过 XOR 加密(密钥 91)的环境检测逻辑:
- 检查系统时区是否为
Asia/Shanghai或Asia/Urumqi - 检查代理 URL 是否匹配包含 147 个条目的中国域名清单(百度、阿里、字节跳动、月之暗面、MiniMax 等)
- 将检测结果编码进系统提示词中的 Unicode 字符——通过将单引号替换为视觉一致但编码不同的
’、ʼ、ʹ三种字符,配合日期格式的细微变化,实现 6 种身份状态的隐式标记
这种手法属于典型的隐写术(将信息隐藏在看似正常的内容中,让人类和常规工具都无法察觉),服务器只需扫描这几个字符的编码值,就能判断用户是否使用 VPN、是否位于中国、是否属于某家中国 AI 实验室。
Anthropic 回应:将在 7 月 2 日更新中删除
Claude Code 团队成员 Thariq Shihipar 在 X 上回应称,该机制是 3 月上线的「实验性」措施,目的是防止未经授权的账户转售和模型蒸馏攻击。团队表示已部署更强的缓解措施,相关 PR 已合并,将在 7 月 2 日新版本中完全回滚并删除检测代码。
深度解读 & 洞察:
这起事件折射出的不只是 Claude Code 的个案,而是整个编码智能体行业信任框架的缺失。当一个拥有文件系统权限和 Shell 执行权限的 Agent,其更新渠道是闭源且不受监督时,用户实际上只有「信任」或「不用」两个选项。
此次争议有两个关键事实值得注意:第一,隐写检测仅在用户设置自定义 ANTHROPIC_BASE_URL 时触发,直连 Anthropic 官方 API 的用户不受影响——这意味着叙事从「监控所有用户」收缩为「标记绕过官方服务的连接」;第二,安全相关代码使用 XOR 加密隐藏,且发布说明中完全未提及,这才是真正引发开发者愤怒的原因——用户完全不知情。
更广的视角下,几周前 Anthropic 刚因 Fable 5 的「秘密护栏」事件被曝光——该产品在检测到用户进行 AI 研发时会悄悄降级输出质量。同一公司在短时间内两次被曝「暗中执行检测但不告知用户」,信任成本的累积已成为无法回避的问题。
三、监管博弈:美国商务部解除 Fable 5 / Mythos 5 出口管制
出口管制正式撤销,两模型恢复全球访问
美国商务部长霍华德·卢特尼克已通知 Anthropic,撤销对 Fable 5 和 Mythos 5 模型的出口管制,出口这两款模型不再需要许可证。此前在 6 月 12 日,美国政府以「国家安全风险」为由下达出口管制指令,Anthropic 仅有 90 分钟反应时间,被迫完全下线这两个模型,所有外国公民包括外籍员工都被禁止使用。
经过数周谈判,Anthropic 与政府达成安全协议:承诺主动检测并处理模型安全风险、配合制定安全协议和标准、向政府报告恶意活动。通过这一协议,Anthropic 避免了申请出口许可证的繁琐程序。
深度解读 & 洞察:
此次解禁经历了分步走的过程——先向部分「受信任」机构定向开放,再全面放开。值得注意的是,Anthropic CEO Dario Amodei 因在 2024 年大选中公开支持 Kamala Harris,成为特朗普政府的施压对象,联合创始人 Tom Brown 接替主导了与政府的对话。政府信件的收件人从 Amodei 变为 Brown 这一细节,反映出在当前美国 AI 监管框架下,技术决策与政治博弈的边界正变得模糊。
同日 OpenAI 也发布了新模型并配合了政府的「自愿提交」流程。两家头部 AI 公司不约而同地与政府进行「前置协商」,可能意味着一种新的行业惯例正在形成。
四、谷歌多模态模型矩阵扩军
Nano Banana 2 Lite:4 秒出图,主打高频批量生产
谷歌发布 Nano Banana 2 Lite(模型名 gemini-3.1-flash-lite-image),核心卖点是速度与成本:
- 出图延迟约 4 秒,约为标准版 Nano Banana 2 的五分之一
- 1K 分辨率图像成本约 0.034 美元(约 0.23 元人民币),约为标准版的一半
- 文字渲染等关键能力未明显缩水,已全面超越初代 Nano Banana
模型已在 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 上线,初代 Nano Banana 被标记为旧版本。
Gemini Omni Flash:视频生成开放 API
Gemini Omni Flash 正式通过 API 向开发者开放,支持对话式视频编辑、多模态参考、世界知识辅助构建和文字动作同步。定价为每秒视频输出 0.10 美元。谷歌还展示了 Omni Product Studio 应用,可将静态图像转化为电商视频。
深度解读 & 洞察:
谷歌的真正意图在于将两款模型串联形成端到端工作流:先用 Nano Banana 2 Lite 高速出图,再将图像作为参考素材喂给 Gemini Omni Flash 生成视频。面向电商、装修、短视频等垂直场景,这是一条需求明确且商业化路径清晰的组合拳。
在多模态这张牌桌上,从轻量级图像生成到知识型视频创作,谷歌是少数能组齐一整套牌的玩家。但外界对 Gemini 3.5 Pro 文本旗舰模型的期待仍在持续累积——文本方向何时补齐,仍是悬而未决的问题。
五、芯片与算力:专用架构崛起,英伟达两面承压
Etched 完成流片:Transformer 专用芯片拿下 10 亿美元订单
AI 芯片初创公司 Etched 宣布其 Transformer 专用 ASIC 芯片完成 A0 步进流片(基于台积电 N4P 工艺),同步披露 8 亿美元融资和 10 亿美元客户订单,首批机柜产品计划 2026 年夏天出货。
技术核心是低电压推理(LVI)技术:芯片数学模块在不到大多数 AI 芯片一半的电压下运行,使万亿参数稀疏 MoE 模型能在 80% 以上峰值算力下稳定运行而不出现热降频。缓存侧采用片上 SRAM + 片外 HBM 混合设计。
投资方包括 Andrej Karpathy、李飞飞、Geoffrey Hinton 等知名 AI 研究者,投后估值约 50 亿美元。
深度解读 & 洞察:
Etched 的崛起标志着 AI 推理芯片市场正在打破英伟达 GPU 的长期垄断。从 Cerebras 上市到 Groq 融资 6.5 亿美元,再到谷歌、微软、OpenAI 纷纷定制芯片,整个行业已转向推理加速。Etched 从第一天起就只做 Transformer 专用芯片——这种「窄而深」的策略在通用 GPU 时代被视为异端,但在 Transformer 架构一统天下的今天,正在变成一种极具威胁的竞争路径。
英伟达优化 DeepSeek V4 推理:单 Token 成本降至五分之一
英伟达宣布在 Blackwell 平台上通过全栈推理优化,将 DeepSeek V4 模型的单 Token 成本降至上线初期的五分之一。技术手段包括分离式服务、大规模专家并行、NVFP4 精度以及多 Token 预测等,单 GPU 的 Token 吞吐量最高提升 20 倍。
消息称英伟达 Rubin Ultra 或放弃 4-Die 方案
据 SemiAnalysis 爆料,因先进封装、散热和成本等制造执行方面的挑战,英伟达原定 2027 年推出的 Rubin Ultra AI 加速器可能放弃 4-Die 方案,改为 2-Die 版本,性能相比原方案缩水一半,可能在与 AMD Instinct MI500 系列的竞争中降低竞争力。
美光 CEO:客户 2023 年压价至三分之一,导致 AI 爆发前没能扩产
美光 CEO 桑杰·梅赫罗特拉接受 CNBC 采访时表示,当前内存芯片供需失衡不应完全归咎于芯片制造商。2023 年客户将价格压到原来的三分之一,导致美光毛利率跌至 -7.3%,整个行业在 AI 需求爆发前缺乏投资新产能的能力。他预计供应紧缺将持续到 2027 年之后,美光正在投资约 2000 亿美元用于制造和研发。苹果上周已因内存和存储成本暴涨上调多款 Mac 和 iPad 售价。
影响:
- 对芯片股(美光、三星、SK海力士):供应紧缺持续利多,但客户转嫁成本可能抑制终端需求
- 对消费电子:内存涨价将继续推高手机、电脑等产品价格,苹果已率先调价
- 投资启示:HBM 相关产业链仍是 AI 算力瓶颈的核心受益方向,但需关注 2027 年后新产能释放节奏
六、资本脉动
软银向 OpenAI 追加 100 亿美元
软银通过愿景基金二号完成对 OpenAI 的第二期 100 亿美元追加投资,并计划于 10 月 1 日完成第三期同等规模投资,届时 300 亿美元总投资计划将全部交付完成。软银通过过渡性融资协议借入 100 亿美元以获取本轮资金。
微软 Azure 正式接入 Claude 模型
Claude Opus 4.8 和 Haiku 4.5 正式上线微软 Azure AI Foundry,企业用户可直接用现有 Azure 账户调用,费用统一纳入 Azure 账单。支持提示缓存和扩展思考等核心功能,用户可自主选择在 Azure 或 Anthropic 托管环境中运行推理任务。
深度解读 & 洞察:
微软与 OpenAI 的紧密关系并未阻止其引入 Anthropic 的模型。这反映出云计算平台正在走向「模型超市」模式——不赌单一供应商,而是让客户自由选择。对 Anthropic 而言,Azure 的入口意味着可以触达大量已绑定微软生态的企业客户,这是 IPO 前扩大商业版图的关键一步。
月之暗面估值飙升至 315 亿美元
月之暗面完成新一轮融资,投前估值 315 亿美元。截至 6 月中旬,年度经常性收入(ARR)突破 3 亿美元,API 业务占比超 70%。Kimi 模型输入价格从每百万 Token 4 元上调至 6.5 元后,收入反而增长 3 倍。海外市场付费用户和 API 收入均实现 400% 增长,产品覆盖全球 200 多个国家和地区。
七、更多动态
- 马斯克宣布 Grok 4.5 开启内测:参数量达 1.5 万亿,特斯拉与 SpaceX 已率先部署内部测试
- 扎克伯格不认为 AI 必然导致大规模失业:建议企业发展「个人超级智能」赋能个人,而非一味追求知识工作自动化
- 小米超级小爱已支持控制微信:基于 A2A(Agent-to-Agent)协作机制,一句话可完成发微信消息、打微信电话
- 微信公众号推出 AI 分身能力:率先向医院开放,7×24 小时秒回患者问题,中山三院上线一个月日均咨询量从 100 例增至 200 余例
- ChatGPT 非英语用户占比过半:OpenAI 发布 2026 Q1 数据,非洲和亚洲增速最快,35 岁以上用户占比持续上升
- 瑞银:约六成企业收紧 AI 开支:企业高管对 AI 开支管控意识增强,DeepSeek 等开源模型有望受益
- 英伟达开源 ASPIRE 机器人技能框架:让机器人像程序员一样积累可复用技能,Robosuite 双臂任务成功率从 20% 提升至 92%
- 自变量机器人估值突破 200 亿:成大湾区首家估值过 200 亿的具身智能公司,美团、阿里、字节、小米分别领投不同轮次
- AI 浏览器曝 BioShocking 漏洞:ChatGPT Atlas 等 6 款 AI 浏览器可被诱导泄露密码和 Cookie,OpenAI 已修复
- X 平台推出官方 MCP 服务器:Claude、Cursor 等 AI 助手可直接连接 X API 获取实时数据
- 抖音电商上线肖像保护功能:AI 识别拦截仿冒达人,已保护 180 余位头部达人,主动拦截侵权账号 9.2 万个
- EquiLibre 完成 A 轮融资估值 5 亿美元:前 DeepMind 团队将强化学习用于量化交易,月度零亏损
- Om AI 联汇发布 VLX 端侧流式多模态模型:首次在端侧打通「持续感知→精准定位→行动决策」闭环
- 快手 AI 反诈:日均识别近 10 万风险账号:拦截率 98.1%,AI 反诈模型每天被调用超 84 万次
- 谷歌 AI 智能体 Gemini Spark 登陆 Mac:支持实时追踪资讯、对接 Canva/Dropbox 等第三方应用
- 超半数企业后悔因 AI 裁员:福特重新聘回数百名工程师,IBM 计划将入门级招聘增加三倍
