Claude 降智坐实、DeepSeek 降价普及、联影开源医疗视频模型:AI 竞争格局加速分化

要点速览
  • Anthropic 正式承认 Claude 降智存在三个 bug,Claude Code 推理等级暗中下调、缓存 bug 导致越聊越傻、提示词限制拉低输出质量,用户信任严重受损
  • DeepSeek 全系 API 输入缓存降价至原价 1/10,国家超算互联网同步上线 DeepSeek-V4 百万上下文免费服务
  • 联影智能开源医疗视频理解大模型 uAI Nexus MedVLM,手术安全评估准确率 89.7%,远超 GPT-5.4 的 16.4%
  • OpenAI 推出 GPT-5.5 生物安全赏金计划,首个通过全部安全挑战的越狱方案奖励 2.5 万美元
  • 京东启动 Aidol 创造营,计划今年孵化 101 个 AI 硬件标杆,闯进前十获百万台包销资源
  • 英伟达总市值成功突破五万亿美元

Claude 降智坐实、DeepSeek 降价普及、联影开源医疗视频模型:AI 竞争格局加速分化

Claude 降智风波:Anthropic 正式承认三个 bug

Anthropic 在官方博客发布 postmortem(事故报告),正式承认 Claude 降智问题属实,并披露了过去两个月影响用户体验的三个独立 bug:

推理等级暗中下调:3月4日,Claude Code 默认推理模式从「high」调整为「medium」,但界面仍显示「high」,导致用户以为用的是满血版本,实际拿到的是降档产品,持续一个多月后才回滚。

缓存 bug 导致越聊越傻:3月26日上线的缓存优化代码存在 bug,本意是会话空闲超过一小时后清除旧的思考记录以节省资源,但实际变成了每一轮都执行。Claude 逐渐遗忘任务目标,表现为健忘、重复、工具调用混乱。更讽刺的是,由于思考记录被反复清空,每次请求都缓存未命中,token 消耗反而飙升。该 bug 历时 15 天才修复完成。

提示词限制影响输出质量:4月16日,系统提示词新增规则限制输出字数,导致 Opus 4.6 和 4.7 性能各下降 3%,四天后回滚。

社区用户创造了新词 “AI shrinkflation”(AI 缩水通胀)——意指以相同价格获得被稀释的产品体验。值得注意的是,这已是 Anthropic 第二次发布类似声明,去年8月就曾为 Opus 4.0 和 4.1 的降智问题发布过 postmortem。

用户不满的另一点是信息透明度严重不足——这两个月期间,Anthropic 未通过正式渠道发布任何公告,只有几名员工在 X 上零星回复。同期,公司还封禁了 OpenClaw 等第三方 agentic 工具通过 Pro/Max 订阅运行,并将 Pro plan 中的 Claude Code 支持改为仅限 Max 计划,Pro 到 Max 的差价接近五倍,被抓包后才灰头土脸地回滚。

行业竞争格局正在生变。就在 Claude 降智问题发酵期间,GPT-5.5 正式发布,社区已出现用户迁移迹象,半年前「写代码就用 Claude」几乎成为共识,如今格局正在被打破。


DeepSeek 价格体系重塑:API 输入缓存降价至 1/10,国家超算互联网免费开放

DeepSeek 宣布全系 API 服务输入缓存命中价格降至原价十分之一:

模型缓存命中(优惠)缓存命中(原价)缓存未命中输出
DeepSeek-V4-Pro0.025 元0.1 元3 元6 元
DeepSeek-V4-Flash0.02 元0.2 元1 元2 元

此外,DeepSeek-V4-Pro 还能在5月5日前叠加2.5折限时优惠,折后缓存命中仅需 0.025 元。

与此同时,国家超算互联网今日正式推出 DeepSeek-V4 限时免费对话服务,企业、科研机构及个人开发者只需登录 www.scnet.cn 即可免费体验百万 Token 超长上下文的实时流畅对话。

百万上下文是什么概念?相当于《三体》三部曲的总字数、几十篇累计数万字的参考文献合集,或过去一年的工作聊天记录——以前需要手动切片分段提问,现在直接丢给模型一口气读完并总结分析。在此之前,处理 1M 级别上下文的能力更多出现在闭源模型高端版本中,高昂成本让大多数开发者望而却步。DeepSeek-V4 的到来,标志着开源大模型正式进入「百万上下文普惠时代」。


联影智能开源医疗视频理解大模型:手术场景超越 GPT-5.4 和 Gemini-3.1

联影智能发布 uAI Nexus MedVLM(元智医疗视频理解大模型),已在 GitHub 和 Hugging Face 完全开源,论文被 CVPR 2026 收录。

这是目前业内规模最大、性能最强的医疗视频理解开源模型:汇聚超过 53 万条视频-指令数据,支持 4B 和 7B 两种参数规模,单卡即可部署,覆盖内镜手术、腹腔镜手术、开放手术、机器人手术、护理操作等多种临床场景。

在三个临床核心维度上,该模型与通用大模型的差距相当显著:

  • 手术安全评估:uAI Nexus MedVLM 准确率 89.7%,GPT-5.4 仅 16.4%,Gemini-3.1 为 24.2%
  • 时空动作定位:mIoU 是 Gemini-3.1 的 3.2 倍,是 GPT-5.4 的 47 倍
  • 视频报告生成(5分制):得分 4.24,GPT-5.4 为 3.98,Gemini-3.1 为 3.7

定性测试中,以腹腔镜胆囊切除术视频为例,GPT-5.4 只能给出笼统描述且无法识别具体器械,Gemini-3.1 将工具错误识别为电凝钩;而 uAI Nexus MedVLM 能准确识别抓钳并描述其牵引胆囊、暴露分离平面的操作。

该模型在手术全流程中都有应用潜力:术前辅助优化手术方案,术中提供实时指引和毫秒级预警,术后自动生成结构化手术报告。在中国医疗资源分布不均衡的背景下,有望将顶级专家的手术经验「沉淀」为可复用的 AI 能力,为基层医院提供专家级辅助。


OpenAI 推出 GPT-5.5 生物安全赏金计划

OpenAI 于4月23日启动针对 GPT-5.5 的生物安全漏洞赏金计划,邀请研究人员寻找能突破「五道生物安全挑战题」的通用越狱方法,首个通过全部题目的方案将获得 2.5 万美元奖励。

测试范围仅限 Codex Desktop 中的 GPT-5.5 模型,截止日期为6月22日,测试阶段4月28日至7月27日。采取申请及邀请制,所有提示词、模型回复和发现成果均受 NDA 约束。

GPT-5.5 是 OpenAI 迄今最智能、最直观的 AI 模型,在 Agentic Coding、计算机使用及科研领域表现卓越。相较于 GPT-5.4,完成相同任务时减少了词元(Token)消耗。

与此同时,有专家对 GPT-5.5 安全测试的真实性提出质疑。


京东启动 Aidol 创造营,瞄准 AI 硬件孵化

京东正式启动「Aidol 创造营」计划,面向全球征集 AI 智能硬件项目,计划今年孵化 101 个 AI 硬件标杆。

不看公司规模,不在意过去销售数据,更看重项目有没有独特产品思路、技术突破,以及能否真正为用户带来好体验。京东提供五大核心能力支持:对接资本、全链路包销、JoyInside 技术开放、全方位护航出海、线上线下全域曝光。

报名截止到5月15日,首期活动5月25日至6月18日落地,与京东618大促周期深度联动。入选项目可借力618集中曝光,闯进前十有机会获得京东百万台包销资源。


Anthropic 交易实验:AI 智能体之间的买卖游戏

Anthropic 搭建了一个二手交易市场,由智能体分别扮演买家和卖家,针对真实商品达成交易并使用真实货币结算。

69 名自愿报名的公司员工各获得 100 美元预算,实验期间共达成 186 笔交易,总交易价值超过 4000 美元。Anthropic 搭建了四个独立交易市场,分别搭载不同人工智能模型。

关键发现:当用户由更高级的智能体代理交易时,能获得客观上更优的交易结果,但用户自身似乎并未察觉这种收益差距。这暴露出智能体能力层级差距带来的潜在风险——处于交易劣势的一方可能根本意识不到自身利益受损。


斑马智能联合东风首发车载淘宝闪购 Agent

北京国际车展期间,斑马智能与东风研发总院联合宣布,基于元神 AI 打造的淘宝闪购 Agent 首发上车,落地东风天元智舱。

用户无需动手、无需跳转,仅通过自然语音即可完成点餐全流程。当用户说「给我点杯奶茶送到公司」,Agent 能精准识别模糊意图,自动匹配附近门店、推荐餐品规格,并支持中途修改。未来还将围绕影音娱乐、出行游玩、AI 播客等场景带来更多原生 Agent 服务上车。


AI 开发者工具更新:OpenClaw 全面接入 DeepSeek V4

OpenClaw 发布新版本,DeepSeek V4 Flash 成为默认大模型,V4 Pro 也已上线模型库。

两个版本均支持 100 万 token 上下文,采用 MIT 协议完全开源:新版本还修复了 DeepSeek 在多轮工具调用中的工程细节问题,提升了 Agent 在长链路任务中的稳定性。

同步打通了 Google Meet,支持实时语音通话、会议录音转写和智能笔记整理,并导出为 Markdown 文件。


更多动态

  • 英伟达总市值成功突破五万亿美元
  • 奥特曼就模型识别漏洞向警方道歉
  • 斯坦福发布报告称 AI 投资大幅增长
  • 公众对 AI 技术的信任感正持续下降
  • 涂鸦发布智能助手并支持多设备联动
  • 研究员发布能自主优化的智能体框架
  • 团队发布可减少 AI 幻觉的验证框架
  • 研究显示 AI 智能体不会让软件工程师丢饭碗,反而拓展其工作边界
  • 奥迪 Q5L 搭载华为智驾系统正式发布
  • Anthropic 推出官方认证与培训课程
  • 专家发布能指导居家理疗的 AI 架构
  • 研究员发布硬件故障修复测试基准
  • 开发者使用 AI 工具重启旧代码项目
  • 五源资本合伙人孟醒发布硅谷观察文章,记录 AI 行业「全员 token-maxxing」效率军备竞赛及背后多层面的「跟不上」

想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码