国产算力跑出SOTA生图模型，视频AI进入分钟级时代

2026年1月15日

AI 日报 AI AI 日报

要点速览

智谱×华为开源GLM-Image：首个国产芯片全流程训练的SOTA多模态模型，文字渲染第一，0.1元/张击穿价格底线
Vidu一键MV功能上线：导演+分镜+视觉+剪辑四大智能体协同，分钟级产出工业级MV，视频创作门槛归零
PixVerse R1实时世界模型发布：1-4步采样即可1080p流式生成，支持生成过程中实时改指令，视频进入可交互时代
MiniMax推出OctoCodingBench：首次把编程智能体“守纪律”单独评测，全规则遵循率仅10-30%，过程监督成下一战场
谷歌开源MedGemma 1.5+MedASR：医疗影像+语音识别双模型，DICOM原生对接，词错率降58%，医院私有化零门槛
华尔街集体看空Adobe：高盛给“卖出”评级，股价两年跌45%，AI把创意工具变白菜，传统SaaS估值体系受冲击

国产算力跑出SOTA生图模型，视频AI进入分钟级时代

国产算力首次跑出SOTA多模态模型

智谱联合华为开源GLM-Image

训练全程基于昇腾Atlas 800T A2+MindSpore，国产芯片完成数据-训练全链路
自回归+扩散解码器混合架构，文字渲染拿下CVTG-2K、LongText-Bench双榜开源第一，汉字生成准确率97.9%
API定价0.1元/张，成本只有同类开源模型1/10，海报、PPT、科普图等知识密集场景可直接商用

深度解读 & 洞察：

国产算力被质疑“只能跑小模型”的声音可以休矣：GLM-Image用万卡级集群完成16B参数多模态训练，通信、算子、集群稳定性全部自研调通，相当于把“英伟达护城河”复制到国产芯片上
文字渲染之所以猛，是因为把Glyph Encoder直接塞进扩散解码器，笔画级细节与语义级布局同时优化，解决了过去“看得懂图却写不对字”的通病
0.1元定价是一次“价格锚点”打击：把AI生图从“按量计费”打到“白菜批发”，下游SaaS、电商、教育类客户可以无压力接入，加速应用爆发

视频生成进入“分钟级虚拟制片”时代

Vidu上线一键MV功能

导演/分镜/视觉/剪辑四大智能体协同，输入音乐+参考图+文字即可产出5分钟工业级MV
多图参考锁定角色与美学风格，支持1080p 4K输出，自动生成歌词同步字幕

深度解读 & 洞察：

把传统MV制作流程拆解成“AI片场”：导演Agent先拆音乐结构，分镜Agent转镜头脚本，视觉Agent批量出图，剪辑Agent卡点合成，全程零人工干预，相当于把一支几十人团队塞进服务器
“参考图锁定”是技术关键：7张以内用户图+隐式ID保持，解决长视频角色漂移，才敢说5分钟一镜到底
对短视频平台是“降维打击”：MCN、音乐人无需再租棚、找摄像、请后期，分钟级成片直接发抖音，UGC内容质量瞬间拉升，平台方也会被迫跟进类似工具

PixVerse R1发布全球首个通用实时世界模型

自回归流式生成，1-4步采样即可1080p输出，延迟降至“瞬时”级别
支持生成过程中实时改指令，视频流可无限延长，打破传统“一次性渲染”模式

深度解读 & 洞察：

“实时”背后是TTT（Test-Time Training）思路：模型边生成边更新权重，把长上下文压进参数，避免KV Cache爆内存，所以128k与2M tokens速度几乎一样
对游戏、直播是颠覆式体验：玩家一句话就能让场景实时变化，主播可与AI背景互动，内容从“录播”变“共演”，算力需求也会从云端向边缘分散
但“大海捞针”类细节召回仍不如全注意力，精准编辑场景尚需结合外部检索，厂商需权衡“速度vs精度”场景取舍

编程智能体开始拼“纪律”

MiniMax开源OctoCodingBench

首次把“指令遵循率”从结果指标里拆出来，单条规则CSR可达80%+，但全规则ISR仅10-30%
覆盖系统提示、项目文档、工具Schema等7类约束，2422个二元检查项全部可自动化验证

深度解读 & 洞察：

结果导向的SWE-bench已不够看：Agent能跑通测试却可能违反安全规范、输出格式或公司编码条例，生产环境依旧无法上线
过程监督将成为下一战场：让模型在每一步都接受可验证的checklist，把“黑盒写代码”变成“白盒交作业”，倒逼训练阶段加入细粒度对齐
开源模型DeepSeek V3、MiniMax M2.1的ISR已接近Claude 4.5 Sonnet，说明“小模型+硬约束”有望率先在垂直场景落地，企业无需等大模型参数膨胀

医疗AI进入“多模态+语音”双轨

谷歌开源MedGemma 1.5与MedASR

MedGemma 1.5支持CT、MRI三维影像，病理切片整片输入，DICOM原生对接PACS系统
MedASR在胸片报告转写词错率仅5.2%，比通用Whisper large-v3降低58%

深度解读 & 洞察：

谷歌把Gemini医疗版拆成“能看”+“能听”两条开源线：影像模型解决多模态诊断，语音模型减轻医生文书负担，两者叠成“口述-影像-结论”闭环，直接嵌入医院现有流程
开源策略打差异化：医疗数据敏感，医院更愿私有化部署；谷歌通过免费模型抢占标准制定权，后续可推认证、支持、云服务等增值收费
国内医疗AI创业公司将面临“模型免费+服务收费”新价格战，谁能拿到更多医院数据与合规背书，谁才能活下去

华尔街看空Adobe创意护城河

华尔街下调Adobe评级至十年最低

高盛直接给“卖出”，综合评级3.91分创2013年以来新低，股价年内跌6.4%，两年累计跌幅超45%
市场担忧AI工具把“专业创意”变“人人能P”，Adobe用户增长与提价空间被双重挤压

影响：

对SaaS板块是警钟：AI一旦把核心功能模块化，传统订阅制可能被按次付费的AI工具“切片”替代，投资者开始重估所有创意、办公类SaaS的估值锚
利好新兴AI创企：资本转向寻找“AI原生”工作流，类似Vidu、PixVerse这类分钟级生产工具将获得更高溢价

其他动态

特斯拉FSD买断制2月14日停售：永久授权变订阅，马斯克想靠持续收费锁现金流，已购车主成最后一批“永久车主”
谷歌Chrome重新支持JPEG XL：新Rust解码器回归，体积省60%，网页加载省流量，高清HDR图片体验升级
韩国“主权AI”竞赛曝抄袭争议：三家决赛选手被曝套用中、美开源代码，官方仍打算继续评选，凸显“完全自研”在开源时代的尴尬
Meta再度裁员Reality Labs 10%：元宇宙预算再砍30%，资源继续流向AI，XR赛道进入“挤泡沫”阶段
麦肯锡AI员工已达2.5万：人机比例1:1.6，40%工作量由Agent完成，咨询计费模式转向“对赌成果”，AI成核心竞争力
美团AAAI 2026录用8篇论文：聚焦大模型推理、训练、多模态与推荐，工业界反哺学术，过程奖励、退火策略等成果已落地外卖、酒旅场景
清华发布眼镜形态闭环神经刺激器：面肌痉挛检测到干预一体化，传感器电压提升2.3倍，可穿戴治疗神经系统疾病进入临床验证

想第一时间获取最新内容？

欢迎加入我们的 Telegram 群组 @ai_news_plus，抢先获取每日更新。

立即加入群组