要点速览
- 智谱×华为开源GLM-Image:首个国产芯片全流程训练的SOTA多模态模型,文字渲染第一,0.1元/张击穿价格底线
- Vidu一键MV功能上线:导演+分镜+视觉+剪辑四大智能体协同,分钟级产出工业级MV,视频创作门槛归零
- PixVerse R1实时世界模型发布:1-4步采样即可1080p流式生成,支持生成过程中实时改指令,视频进入可交互时代
- MiniMax推出OctoCodingBench:首次把编程智能体“守纪律”单独评测,全规则遵循率仅10-30%,过程监督成下一战场
- 谷歌开源MedGemma 1.5+MedASR:医疗影像+语音识别双模型,DICOM原生对接,词错率降58%,医院私有化零门槛
- 华尔街集体看空Adobe:高盛给“卖出”评级,股价两年跌45%,AI把创意工具变白菜,传统SaaS估值体系受冲击

国产算力首次跑出SOTA多模态模型
智谱联合华为开源GLM-Image
- 训练全程基于昇腾Atlas 800T A2+MindSpore,国产芯片完成数据-训练全链路
- 自回归+扩散解码器混合架构,文字渲染拿下CVTG-2K、LongText-Bench双榜开源第一,汉字生成准确率97.9%
- API定价0.1元/张,成本只有同类开源模型1/10,海报、PPT、科普图等知识密集场景可直接商用
深度解读 & 洞察:
- 国产算力被质疑“只能跑小模型”的声音可以休矣:GLM-Image用万卡级集群完成16B参数多模态训练,通信、算子、集群稳定性全部自研调通,相当于把“英伟达护城河”复制到国产芯片上
- 文字渲染之所以猛,是因为把Glyph Encoder直接塞进扩散解码器,笔画级细节与语义级布局同时优化,解决了过去“看得懂图却写不对字”的通病
- 0.1元定价是一次“价格锚点”打击:把AI生图从“按量计费”打到“白菜批发”,下游SaaS、电商、教育类客户可以无压力接入,加速应用爆发
视频生成进入“分钟级虚拟制片”时代
Vidu上线一键MV功能
- 导演/分镜/视觉/剪辑四大智能体协同,输入音乐+参考图+文字即可产出5分钟工业级MV
- 多图参考锁定角色与美学风格,支持1080p 4K输出,自动生成歌词同步字幕
深度解读 & 洞察:
- 把传统MV制作流程拆解成“AI片场”:导演Agent先拆音乐结构,分镜Agent转镜头脚本,视觉Agent批量出图,剪辑Agent卡点合成,全程零人工干预,相当于把一支几十人团队塞进服务器
- “参考图锁定”是技术关键:7张以内用户图+隐式ID保持,解决长视频角色漂移,才敢说5分钟一镜到底
- 对短视频平台是“降维打击”:MCN、音乐人无需再租棚、找摄像、请后期,分钟级成片直接发抖音,UGC内容质量瞬间拉升,平台方也会被迫跟进类似工具
PixVerse R1发布全球首个通用实时世界模型
- 自回归流式生成,1-4步采样即可1080p输出,延迟降至“瞬时”级别
- 支持生成过程中实时改指令,视频流可无限延长,打破传统“一次性渲染”模式
深度解读 & 洞察:
- “实时”背后是TTT(Test-Time Training)思路:模型边生成边更新权重,把长上下文压进参数,避免KV Cache爆内存,所以128k与2M tokens速度几乎一样
- 对游戏、直播是颠覆式体验:玩家一句话就能让场景实时变化,主播可与AI背景互动,内容从“录播”变“共演”,算力需求也会从云端向边缘分散
- 但“大海捞针”类细节召回仍不如全注意力,精准编辑场景尚需结合外部检索,厂商需权衡“速度vs精度”场景取舍
编程智能体开始拼“纪律”
MiniMax开源OctoCodingBench
- 首次把“指令遵循率”从结果指标里拆出来,单条规则CSR可达80%+,但全规则ISR仅10-30%
- 覆盖系统提示、项目文档、工具Schema等7类约束,2422个二元检查项全部可自动化验证
深度解读 & 洞察:
- 结果导向的SWE-bench已不够看:Agent能跑通测试却可能违反安全规范、输出格式或公司编码条例,生产环境依旧无法上线
- 过程监督将成为下一战场:让模型在每一步都接受可验证的checklist,把“黑盒写代码”变成“白盒交作业”,倒逼训练阶段加入细粒度对齐
- 开源模型DeepSeek V3、MiniMax M2.1的ISR已接近Claude 4.5 Sonnet,说明“小模型+硬约束”有望率先在垂直场景落地,企业无需等大模型参数膨胀
医疗AI进入“多模态+语音”双轨
谷歌开源MedGemma 1.5与MedASR
- MedGemma 1.5支持CT、MRI三维影像,病理切片整片输入,DICOM原生对接PACS系统
- MedASR在胸片报告转写词错率仅5.2%,比通用Whisper large-v3降低58%
深度解读 & 洞察:
- 谷歌把Gemini医疗版拆成“能看”+“能听”两条开源线:影像模型解决多模态诊断,语音模型减轻医生文书负担,两者叠成“口述-影像-结论”闭环,直接嵌入医院现有流程
- 开源策略打差异化:医疗数据敏感,医院更愿私有化部署;谷歌通过免费模型抢占标准制定权,后续可推认证、支持、云服务等增值收费
- 国内医疗AI创业公司将面临“模型免费+服务收费”新价格战,谁能拿到更多医院数据与合规背书,谁才能活下去
华尔街看空Adobe创意护城河
华尔街下调Adobe评级至十年最低
- 高盛直接给“卖出”,综合评级3.91分创2013年以来新低,股价年内跌6.4%,两年累计跌幅超45%
- 市场担忧AI工具把“专业创意”变“人人能P”,Adobe用户增长与提价空间被双重挤压
影响:
- 对SaaS板块是警钟:AI一旦把核心功能模块化,传统订阅制可能被按次付费的AI工具“切片”替代,投资者开始重估所有创意、办公类SaaS的估值锚
- 利好新兴AI创企:资本转向寻找“AI原生”工作流,类似Vidu、PixVerse这类分钟级生产工具将获得更高溢价
其他动态
- 特斯拉FSD买断制2月14日停售:永久授权变订阅,马斯克想靠持续收费锁现金流,已购车主成最后一批“永久车主”
- 谷歌Chrome重新支持JPEG XL:新Rust解码器回归,体积省60%,网页加载省流量,高清HDR图片体验升级
- 韩国“主权AI”竞赛曝抄袭争议:三家决赛选手被曝套用中、美开源代码,官方仍打算继续评选,凸显“完全自研”在开源时代的尴尬
- Meta再度裁员Reality Labs 10%:元宇宙预算再砍30%,资源继续流向AI,XR赛道进入“挤泡沫”阶段
- 麦肯锡AI员工已达2.5万:人机比例1:1.6,40%工作量由Agent完成,咨询计费模式转向“对赌成果”,AI成核心竞争力
- 美团AAAI 2026录用8篇论文:聚焦大模型推理、训练、多模态与推荐,工业界反哺学术,过程奖励、退火策略等成果已落地外卖、酒旅场景
- 清华发布眼镜形态闭环神经刺激器:面肌痉挛检测到干预一体化,传感器电压提升2.3倍,可穿戴治疗神经系统疾病进入临床验证
