Meta首作Muse Spark硬刚GPT-5.4,视频模型黑马屠榜,全球AI裁员近8万

要点速览
  • Meta发布超级智能实验室首作Muse Spark,性能直追GPT-5.4,算力效率提升10倍,但放弃开源
  • 神秘视频模型HappyHorse-1.0屠榜,三个赛道断层第一,据传出自阿里淘天,预计4月10日发布
  • 字节发布全双工语音模型Seeduplex,豆包终于能像真人一样边听边说
  • Q1全球科技裁员近8万人,近半数归因AI实施与自动化
  • Anthropic发布天价新模型Claude Mythos,每百万Token输出要125美元
  • 微信公众号出新规打击AI自动写作,违规直接删文甚至封号
  • 智元发布具身模型GO-2,首创动作思维链,机器人学会先想好再动手
  • 戴尔CEO预警AI内存短缺将持续到2028年,需求将暴增625倍
  • 腾讯云5月起AI算力涨价5%,继阿里百度之后又一巨头跟进
  • 众擎机器人完成2亿美元B轮融资,估值破百亿

Meta首作Muse Spark硬刚GPT-5.4,视频模型黑马屠榜,全球AI裁员近8万

大模型军备竞赛:Meta首作问世,视频模型黑马屠榜

Meta发布Muse Spark:超级智能实验室首秀,算力效率提升10倍

Meta超级智能实验室(MSL)正式发布首款大模型Muse Spark(代号"牛油果"),由前Scale AI创始人Alexandr Wang领衔,汇聚思维链提出者Jason Wei、o1核心贡献者Hyung Won Chung等顶尖人才。

  • 性能:Artificial Analysis测试得52分,仅次于Gemini 3.1 Pro、GPT-5.4和Opus 4.6,远超前代Llama 4 Maverick的18分
  • 效率:达到相同性能所需算力仅为Llama 4的十分之一
  • 沉思模式:支持多子Agent并行推理,在"人类最后一场考试"(HLE)得分58.4%,与Gemini 3.1 Deep Think、GPT-5.4 Pro打成平手
  • 健康领域:与1000+医生合作训练,在HealthBench健康问答测试中表现突出
  • 商业化:已上线Meta.ai和Meta AI App,免费不限量,但保持闭源——标志着Meta在开源路线上重大转向
  • 投入规模:2026年AI资本支出预计达1150-1350亿美元,远超2025年的722亿美元

深度解读 & 洞察:Muse Spark的发布标志着Meta在AI竞赛中从"追赶者"切换到"挑战者"模式。三个信号值得关注:一是Meta放弃了多年的开源策略选择闭源,说明顶级模型层面开源路线的竞争力可能触及天花板;二是"算力效率10倍提升"意味着模型训练范式正从暴力堆算力转向精细化工程,对整个行业具有示范意义;三是Meta将健康领域作为差异化突破口,为AI大模型找到了极具商业价值的应用场景。免费的定价策略则意在快速抢占用户基数。


神秘HappyHorse-1.0屠榜视频Arena,据传阿里淘天4月10日发布

一个名为HappyHorse-1.0的神秘模型悄然登顶Artificial Analysis的AI Video Arena排行榜,在三个赛道全面断层领先。

  • 文生视频:Elo分1375,领先第二名Seedance 2.0约100分(第二名到第十名总分差仅50分)
  • 图生视频:Elo分1409,刷新历史纪录
  • 有音频赛道:同样全球第一
  • 技术架构:40层单流Transformer,8步去噪输出1080P,H100上生成5秒视频仅需38秒
  • 开源计划:预计将开源基础模型、蒸馏模型、超分模块及推理代码
  • 幕后团队:多方指向阿里淘天未来生活实验室,由前快手可灵一号位张迪领衔

深度解读 & 洞察:HappyHorse-1.0以"断层式"优势登顶,在视频生成领域前所未有。如果完全开源属实,将是该领域开源力度最大的发布。张迪曾主导可灵1.0/2.0的研发,回归阿里后再次交出惊艳答卷,说明中国在AI视频生成领域的人才和技术储备已非常深厚。视频生成正成为继文本大模型之后的下一个主战场。


Anthropic发布天价新模型Claude Mythos

Anthropic发布新旗舰模型Claude Mythos,号称性能最强,但定价引发热议。

  • 定价:输入25美元/百万Token,输出125美元/百万Token,是现有旗舰Sonnet 4.6的近8倍
  • 现状:因成本过高,暂未对普通用户开放
  • 生态反应:GitHub上"caveman"项目爆火,通过让AI只说核心信息(去掉客套话和冠词),可节省约65%的Token

深度解读 & 洞察:Claude Mythos的高定价折射出顶级AI模型正走向"奢侈品"路线。当模型能力接近人类专家水平时,按Token计费会让单次使用成本极高。这也催生了新生态——"极简提示词工程"正在成为一门实用技能,开发者开始学习用最少的Token获取最有效的回答。讽刺的是,强制模型简短回复不仅省钱,某些测试的准确率反而提高了26%。


DeepSeek专家模式支持文件上传

DeepSeek的"专家模式"再次更新,App和网页端已支持上传文件,最多50个文件,每个100MB。不过目前仅支持OCR识别文字,不具备原生视觉感知能力。同时DeepSeek正在测试V4版本。


AI交互革新:语音突破与Agent生态成型

字节发布全双工语音模型Seeduplex:豆包能边听边说

字节跳动Seed团队推出原生全双工语音大模型Seeduplex,已在豆包App全量上线,覆盖亿级用户。

  • 核心突破:实现"边听边说",模型在说话的同时持续倾听,交互体验接近真人对话
  • 精准抗干扰:在嘈杂环境中准确识别主用户声音,误回复率和误打断率降低50%
  • 动态判停:区分用户"思考停顿"与"说完",抢话比例下降40%,延迟缩短至约250ms
  • 用户反馈:通话满意度提升8.34%

深度解读 & 洞察:Seeduplex代表了语音交互从"回合制"(你说完我再说)向"自然对话"的关键转变。全双工让AI能像真人一样在嘈杂环境中专注倾听、理解停顿与结束的区别、支持随时打断。这意味着AI语音助手终于可以胜任电话客服等场景中的人类交互,商业替代价值巨大。团队规划下一步引入视觉模态,实现"边听边看边说"的多维协同。


Anthropic推出Claude Managed Agents全托管平台

Anthropic发布Claude Managed Agents公开测试版,提供一站式AI Agent构建和部署方案。

  • 核心能力:安全沙箱隔离、数小时长时自主运行、多智能体协同编排、断点续跑
  • 效率提升:开发周期从数月压缩至数天,结构化任务成功率较标准模式最高提升10倍
  • 定价:活跃运行每小时0.08美元 + Token用量
  • 开源竞品:Multica项目迅速上线作为开源替代,获2.6k Star

MiniMax发布MMX-CLI:Agent专用全模态命令行工具

MiniMax推出面向AI Agent的命令行工具,支持Agent在终端直接调用编程、视频生成、语音合成、音乐创作等全模态能力。

  • 设计亮点:输出隔离(stdout只返回干净数据,防止进度条干扰Agent解析)、语义化状态码、异步任务控制
  • 使用:两行代码完成安装,无需额外编写MCP Server

腾讯QClaw V2发布:多Agent并行、跨应用直连

腾讯云发布QClaw V2大版本:

  • 支持最多3个Agent并行工作,每个Agent可自定义性格和专业背景
  • 新增连接器功能,直连腾讯文档、Notion、金山文档、邮箱等
  • 业内首发"龙虾管家"安全防护系统,实时监控高风险操作

Tubi成为首家接入ChatGPT应用的流媒体平台

用户可通过"@Tubi"用自然语言描述想看的内容(如"一部像迷幻梦境但不是恐怖片的电影"),AI从30万部影视中推荐并直接播放。背景是OpenAI的Sora项目已终止,转向与现有内容平台合作。

谷歌Gemini推出"笔记本"功能

用户可将文件、对话记录、自定义指令整合为笔记本作为AI上下文参考,与NotebookLM双向同步。

谷歌将Gemini集成进Gmail

Gemini可在Gmail中润色邮件、排优先级、自动摘要,承诺不用邮件内容训练AI,所有操作在隔离环境中进行。


具身智能:模型突破与资本涌入

智元发布GO-2:让机器人从"边看边做"到"想清楚再做"

智元机器人发布新一代具身基座大模型Genie Operator-2(GO-2),成果被CVPR 2026和ACL 2026接收。

  • 动作思维链:模型先在动作空间中规划高层动作序列再执行,而非直接输出控制信号
  • 异步双系统:慢系统低频负责规划,快系统高频实时调整,遇到桌面高度不对等突发状况仍能稳定完成任务
  • 性能:LIBERO基准平均成功率98.5%,四类任务全部排名第一;仅用仿真数据训练,真实环境成功率82.9%

深度解读 & 洞察:GO-2的"动作思维链"本质上是在机器人领域复刻了大语言模型"思维链"(Chain-of-Thought)的成功经验。传统机器人是感知-动作的直接映射,遇到环境变化就容易失败。GO-2通过引入"先想后做"的中间规划层,显著提升了复杂任务完成率,标志着具身智能从"反应式"走向"推理式"。


众擎机器人完成2亿美元B轮融资,估值破百亿

由河南投资集团汇融基金和立讯精密联合领投。众擎2024年推出首款自然拟人步态的全尺寸人形机器人SE01。

宇树R1机器人现身阿里西溪园区

宇树与阿里合作项目"树卖通"计划4月中旬发布,可能通过速卖通推动国产人形机器人出海。

地平线地瓜机器人再获1.5亿美元融资

B轮累计融资2.7亿美元,覆盖5~560 TOPS各算力段全场景端侧计算需求,定位"机器人时代的Wintel"。

ropet完成超千万美元A轮融资

AI宠物机器人ropet累计卖出2万台,90天留存80-90%。其成功关键在于坚持"生物性"设计(像活物而非语音助手),坚持不接入通用对话,30%用户有配件复购。


AI社会冲击:裁员潮、内容治理与法律交锋

Q1全球科技裁员近8万人,近半数归因AI

RationalFX报告显示,2026年Q1全球科技行业裁员78557人,其中约47.9%(37638个岗位)直接或间接归因于AI实施与自动化,美国占比76.7%。

Cognizant首席AI官Babak Hodjat指出,部分公司可能将AI作为财务调整的借口,AI对劳动力市场的真实冲击将在未来6-12个月显现。BCG同期报告预测未来三年AI将改变美国50-55%的工作方式,应届毕业生面临最大挑战。

深度解读 & 洞察:这份报告揭示了AI对就业影响的两个层面:“名义影响”——企业以AI为名进行组织优化,实际可能并未真正实现AI替代;“实质影响”——当AI真正带来生产力跃升时,裁员规模可能远超当前。两者叠加来看,AI对就业的冲击不是"会不会"的问题,而是"多快多深"的问题。

影响: 科技股短期偏利空(裁员反映行业增长放缓和成本压力),长期利多AI基础设施和自动化服务商。投资者应关注AI落地效率高的企业,而非仅靠概念炒作的公司。


微信公众号打击非真人AI写作:违规将删文封号

微信公众平台发布新规,禁止利用AI、脚本或接口替代真人完成内容创作和发布。

  • 违规定义:脱离真实创作者表达的AI生成/改写内容、通过脚本批量发布、传播AI自动化创作教程
  • 处罚:流量限制→删除文章→封禁账号,分级处理
  • 争议:已有用户反馈纯手工文章因使用第三方排版工具被误判

深度解读 & 洞察:微信此举是内容平台治理AI生成的标志性事件。核心逻辑不是禁止AI辅助,而是要求"真人创作意图"——内容必须承载创作者的真实思考和表达。这对"AI洗稿"产业链是重大打击,也给其他平台树立了监管标杆。执行层面存在误伤风险,后续需更精准的判定机制。


Anthropic上诉受挫:法院拒绝阻止国防部黑名单

华盛顿联邦上诉法院驳回Anthropic暂停国防部"供应链风险黑名单"的请求。争议核心:国防部要求模型不受限使用权,Anthropic坚持技术不得用于全自动武器或大规模监控。目前两家法院存在矛盾裁决——旧金山法院此前签发了禁止执行禁用Claude规定的禁令。

俄亥俄州14岁少年因AI换脸被诉重罪

一名少年用AI工具篡改至少24名同学照片生成不雅影像,依据2025年生效的新法被起诉多项重罪。这是AI深度伪造在校园场景的典型案例,凸显立法滞后于技术发展的紧迫性。


AI基础设施:算力紧缺与价格上行

戴尔CEO预警:全球AI内存短缺将持续至2028年

戴尔CEO迈克尔·戴尔警告,全球AI加速器内存需求到2028年将比2023年增长625倍。

  • 单颗AI加速器内存从80GB增长到2TB(25倍),加速器总量也增长25倍,两者叠加
  • 建一座存储芯片厂需约4年,产能短期内无法跟上
  • 各国推进自主AI建设加剧供需矛盾

影响: 存储芯片厂商(三星、SK海力士、美光)长期利好;AI算力成本短期内难以下降,对中小AI公司形成成本压力。投资者可关注存储芯片产业链及国产替代机会。


腾讯云5月9日起上调AI算力价格5%

继阿里云和百度云之后,腾讯云成为又一家上调AI算力价格的头部云服务商。调价涉及AI算力、容器服务TKE和弹性MapReduce,原因指向全球硬件供应链成本上升。


英特尔联手SambaNova推出异构AI推理方案

结合GPU(预填充)、SambaNova SN50 RDU(解码)和至强6处理器(主机节点),为推理工作负载的每个步骤选用最合适的硬件,计划2026年下半年商用。

阿里云百炼上线Agent记忆库

为AI Agent提供跨会话长期记忆能力,核心模块:提取→存储→检索→注入。检索响应时间下降50%,日期相关性提升66%,限时免费开放。


开源与技术前沿

微软开源Harrier嵌入模型,MTEB-v2超越谷歌夺冠

微软Bing团队开源Harrier系列文本嵌入模型(即把文本转化为向量表示的技术),在多语言MTEB-v2基准测试中排名第一,超越谷歌Gemini Embedding 2。包含27B、0.6B、270M三个版本,支持100+语言和32k上下文窗口。无许可限制,开发者可自由使用。

小米开源OmniVoice:600+语种的文本转语音模型

小米AI实验室开源支持646种语种的语音克隆TTS模型。中文词错误率仅0.84%,超越ElevenLabs和MiniMax。合成速度比实时快40倍,3-10秒参考音频即可克隆语音,支持性别、年龄、口音等维度控制。

京东开源JoyAI-Image-Edit:AI修图进入三维空间

业内首个深度集成"空间智能"的开源图像编辑模型,支持视角变换、空间漫游、物体空间操控(位移、缩放、旋转),同时兼容15类通用编辑能力(物体增删、风格迁移等)。

商汤NEO-unify:无编码器的多模态统一架构

商汤联合南洋理工发布NEO-unify,无需传统视觉编码器和VAE(变分自编码器)即可实现视觉理解与图像生成一体化。2B参数规模下图像重建已接近Flux VAE水平,"理解"和"生成"可解耦学习。


更多动态

  • 马斯克修改对OpenAI诉讼诉求:放弃所有经济赔偿,核心诉求仅剩将Sam Altman从OpenAI非营利董事会除名
  • 贝索斯"普罗米修斯计划"曝光:秘密创立AI公司聚焦工业物理世界AI,从OpenAI挖走xAI联合创始人,计划筹集数百亿资金收购被AI颠覆的传统公司
  • Canva收购Simtheory和Ortto:加速AI平台化,构建从设计到营销的全流程闭环,目前拥有2.65亿用户
  • Anthropic员工拒绝套现:股份转让中员工选择继续持股,公司估值达3500亿美元,市场解读为IPO临近信号
  • 亚马逊CEO解释同时投资OpenAI和Anthropic:AWS追求多模型生态,未来AI应用将走向多模型自动选择
  • Valve被曝内部开发SteamGPT,仅用于客服和内部管理,不对玩家开放
  • 谷歌DeepMind CEO哈萨比斯:整合所有资源和人才,像初创公司一样运作以重回技术前沿
  • OpenAI和Anthropic转变公关策略:从"颠覆者"转向"守护者"定位,强调AI安全性和可控性
  • AI聊天机器人25%引用内容直接来自新闻报道,路透社最常被引用
  • 斯坦福SleepFM模型:分析一晚睡眠数据预测6年内死亡风险,准确率84%,发表在《自然·医学》
  • 即梦AI发布协作型叙事工具Octo,首推VibeCreate模式,AI定位为"创意合伙人"
  • 微信支付发布AI接入Skill:开发者可通过自然语言快速接入微信支付
  • 淘宝闪购上线AI语音搜索:行业首个通过语音直接执行复杂业务操作的商家AI服务
  • 宝钢AI智慧高炉上线:预测命中率超90%,降低燃料消耗和碳排放
  • 加州议员AI股票超额收益112%,成新一代"国会山股神"
  • 女星Milla Jovovich参与开发MemPalace:AI记忆系统登顶GitHub热榜,采用"记忆宫殿"空间化设计,年成本仅10美元
  • CREAO推出消费级AI Agent产品,华人团队打造,主打"零配置、关闭即走"的确定性执行

想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码