国产算力跑出SOTA生图模型,视频AI进入分钟级时代

要点速览
  • 智谱×华为开源GLM-Image:首个国产芯片全流程训练的SOTA多模态模型,文字渲染第一,0.1元/张击穿价格底线
  • Vidu一键MV功能上线:导演+分镜+视觉+剪辑四大智能体协同,分钟级产出工业级MV,视频创作门槛归零
  • PixVerse R1实时世界模型发布:1-4步采样即可1080p流式生成,支持生成过程中实时改指令,视频进入可交互时代
  • MiniMax推出OctoCodingBench:首次把编程智能体“守纪律”单独评测,全规则遵循率仅10-30%,过程监督成下一战场
  • 谷歌开源MedGemma 1.5+MedASR:医疗影像+语音识别双模型,DICOM原生对接,词错率降58%,医院私有化零门槛
  • 华尔街集体看空Adobe:高盛给“卖出”评级,股价两年跌45%,AI把创意工具变白菜,传统SaaS估值体系受冲击

国产算力跑出SOTA生图模型,视频AI进入分钟级时代

国产算力首次跑出SOTA多模态模型

智谱联合华为开源GLM-Image

  • 训练全程基于昇腾Atlas 800T A2+MindSpore,国产芯片完成数据-训练全链路
  • 自回归+扩散解码器混合架构,文字渲染拿下CVTG-2K、LongText-Bench双榜开源第一,汉字生成准确率97.9%
  • API定价0.1元/张,成本只有同类开源模型1/10,海报、PPT、科普图等知识密集场景可直接商用

深度解读 & 洞察:

  • 国产算力被质疑“只能跑小模型”的声音可以休矣:GLM-Image用万卡级集群完成16B参数多模态训练,通信、算子、集群稳定性全部自研调通,相当于把“英伟达护城河”复制到国产芯片上
  • 文字渲染之所以猛,是因为把Glyph Encoder直接塞进扩散解码器,笔画级细节与语义级布局同时优化,解决了过去“看得懂图却写不对字”的通病
  • 0.1元定价是一次“价格锚点”打击:把AI生图从“按量计费”打到“白菜批发”,下游SaaS、电商、教育类客户可以无压力接入,加速应用爆发

视频生成进入“分钟级虚拟制片”时代

Vidu上线一键MV功能

  • 导演/分镜/视觉/剪辑四大智能体协同,输入音乐+参考图+文字即可产出5分钟工业级MV
  • 多图参考锁定角色与美学风格,支持1080p 4K输出,自动生成歌词同步字幕

深度解读 & 洞察:

  • 把传统MV制作流程拆解成“AI片场”:导演Agent先拆音乐结构,分镜Agent转镜头脚本,视觉Agent批量出图,剪辑Agent卡点合成,全程零人工干预,相当于把一支几十人团队塞进服务器
  • “参考图锁定”是技术关键:7张以内用户图+隐式ID保持,解决长视频角色漂移,才敢说5分钟一镜到底
  • 对短视频平台是“降维打击”:MCN、音乐人无需再租棚、找摄像、请后期,分钟级成片直接发抖音,UGC内容质量瞬间拉升,平台方也会被迫跟进类似工具

PixVerse R1发布全球首个通用实时世界模型

  • 自回归流式生成,1-4步采样即可1080p输出,延迟降至“瞬时”级别
  • 支持生成过程中实时改指令,视频流可无限延长,打破传统“一次性渲染”模式

深度解读 & 洞察:

  • “实时”背后是TTT(Test-Time Training)思路:模型边生成边更新权重,把长上下文压进参数,避免KV Cache爆内存,所以128k与2M tokens速度几乎一样
  • 对游戏、直播是颠覆式体验:玩家一句话就能让场景实时变化,主播可与AI背景互动,内容从“录播”变“共演”,算力需求也会从云端向边缘分散
  • 但“大海捞针”类细节召回仍不如全注意力,精准编辑场景尚需结合外部检索,厂商需权衡“速度vs精度”场景取舍

编程智能体开始拼“纪律”

MiniMax开源OctoCodingBench

  • 首次把“指令遵循率”从结果指标里拆出来,单条规则CSR可达80%+,但全规则ISR仅10-30%
  • 覆盖系统提示、项目文档、工具Schema等7类约束,2422个二元检查项全部可自动化验证

深度解读 & 洞察:

  • 结果导向的SWE-bench已不够看:Agent能跑通测试却可能违反安全规范、输出格式或公司编码条例,生产环境依旧无法上线
  • 过程监督将成为下一战场:让模型在每一步都接受可验证的checklist,把“黑盒写代码”变成“白盒交作业”,倒逼训练阶段加入细粒度对齐
  • 开源模型DeepSeek V3、MiniMax M2.1的ISR已接近Claude 4.5 Sonnet,说明“小模型+硬约束”有望率先在垂直场景落地,企业无需等大模型参数膨胀

医疗AI进入“多模态+语音”双轨

谷歌开源MedGemma 1.5与MedASR

  • MedGemma 1.5支持CT、MRI三维影像,病理切片整片输入,DICOM原生对接PACS系统
  • MedASR在胸片报告转写词错率仅5.2%,比通用Whisper large-v3降低58%

深度解读 & 洞察:

  • 谷歌把Gemini医疗版拆成“能看”+“能听”两条开源线:影像模型解决多模态诊断,语音模型减轻医生文书负担,两者叠成“口述-影像-结论”闭环,直接嵌入医院现有流程
  • 开源策略打差异化:医疗数据敏感,医院更愿私有化部署;谷歌通过免费模型抢占标准制定权,后续可推认证、支持、云服务等增值收费
  • 国内医疗AI创业公司将面临“模型免费+服务收费”新价格战,谁能拿到更多医院数据与合规背书,谁才能活下去

华尔街看空Adobe创意护城河

华尔街下调Adobe评级至十年最低

  • 高盛直接给“卖出”,综合评级3.91分创2013年以来新低,股价年内跌6.4%,两年累计跌幅超45%
  • 市场担忧AI工具把“专业创意”变“人人能P”,Adobe用户增长与提价空间被双重挤压

影响:

  • 对SaaS板块是警钟:AI一旦把核心功能模块化,传统订阅制可能被按次付费的AI工具“切片”替代,投资者开始重估所有创意、办公类SaaS的估值锚
  • 利好新兴AI创企:资本转向寻找“AI原生”工作流,类似Vidu、PixVerse这类分钟级生产工具将获得更高溢价

其他动态


想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码