国产大模型密集发布，AI编程与多模态能力全面跃升

要点速览

阿里发布Qwen3.6-Plus，号称国产最强编程模型，支持100万token上下文，编程能力接近Claude系列
智谱发布GLM-5V-Turbo多模态编程模型，能看懂设计稿直接生成前端代码
字节豆包日均Token使用量突破120万亿，三个月翻倍，较一年前增长1000倍
火山引擎Seedance 2.0视频生成API正式开放公测，面向企业用户
Anthropic Claude Code源代码泄露，误删8100个GitHub仓库引发争议
星海图完成近20亿元B+轮融资，估值突破200亿元
美团开源LongCat-AudioDiT音频生成模型，说话人相似度达0.818
谷歌AI Pro订阅存储空间从2TB提升至5TB，Gemini API推出Flex/Priority分级服务
OpenAI Codex推出按量付费模式，取消固定席位费
中国广电联合会演员委员会发布声明，明确禁止AI换脸、声纹克隆等侵权行为

国产大模型密集迭代，编程与多模态能力成竞争焦点

阿里发布Qwen3.6-Plus，国产编程模型能力跃升

4月2日，阿里巴巴正式发布新一代大语言模型Qwen3.6-Plus，这是千问3.6系列的首个版本，已在阿里云百炼API开放调用。该模型在编程能力、智能体能力和多模态理解上实现显著提升。

核心能力突破：

编程能力：在SWE-bench（真实编程任务）、Terminal-Bench2（终端编程）、NL2Repo（长程编程任务）等评测中表现优异，能够自主拆解任务、规划执行路径、测试并修改代码
智能体能力：深度优化对OpenClaw、Claude Code、Kilo Code等主流Agent框架的支持，支持百万词元上下文窗口
多模态理解：可基于界面截图、设计稿或自然语言描述生成前端页面、完成代码补全

深度解读：Qwen3.6-Plus的定价颇具竞争力——每百万Tokens输入仅需2元。阿里将其定位为降低编程门槛的工具，支持"氛围编程"（Vibe Coding），用户通过自然语言描述即可驱动AI完成复杂编程任务。这标志着国产大模型在编程赛道上已从"追赶"进入"并跑"阶段，企业级AI应用的竞争正从单纯的模型能力比拼，转向"模型能力 × 场景理解"的深度结合。

智谱发布GLM-5V-Turbo：AI编程有了"眼睛"

智谱AI同期发布面向视觉编程的多模态Coding基座模型GLM-5V-Turbo，核心定位是实现"视觉编程"——让AI能直接根据草图、设计稿或网站截图生成完整可运行的前端代码。

技术特性：

原生多模态融合：从预训练阶段即深度融合视觉与文本能力，上下文窗口扩展至200k
视觉编码器升级：自研CogViT视觉编码器，在物体识别、细节捕捉、空间关系理解等方面优化
Agent协同：与Claude Code、OpenClaw/AutoClaw等主流Agent框架深度协同，支持"看懂环境→规划动作→执行任务"的完整闭环

深度解读：GLM-5V-Turbo的发布反映了当前大模型竞争的明确趋势：从纯文本能力向多模态、Agentic能力的延伸。当AI能够"看见"屏幕并理解人类的操作环境时，全自动编程辅助才真正开始发展。对于前端开发者而言，这意味着从设计稿到成品页面的转化效率将大幅提升，产品经理或设计师可快速生成可交互的demo用于沟通验证。

字节豆包日均Token使用量突破120万亿

火山引擎披露，截至2026年3月，豆包大模型日均Token使用量已突破120万亿，较三个月前增长一倍，相比2024年5月发布时增长达1000倍。累计Token使用量超过一万亿的企业已从100家增长至140家。

深度解读：Token消耗量正成为评估AI落地进程的直观指标。豆包的爆发式增长说明国内AI行业已从单纯的模型竞赛阶段转向大规模应用阶段。随着Token被正式翻译为"词元"，我国日均词元调用量已超过140万亿。这种规模效应正在重塑云厂商的竞争格局——阿里巴巴成立Alibaba Token Hub事业群，腾讯云将MaaS平台升级为TokenHub，Token的商业价值正在被重新评估。

视频生成与创作工具开放加速

火山引擎Seedance 2.0 API正式开放公测

4月2日，字节跳动火山引擎宣布视频生成模型Seedance 2.0正式面向企业用户开启公测。该模型支持文字、图片、音频、视频四种输入方式，能生成具备电影质感的视频片段。

核心优势：

精确的相机运动控制、真实的物理模拟
多角色场景连贯性，减少闪烁或漂移问题
建立覆盖全流程的版权与肖像安全保障体系

深度解读：Seedance 2.0从年初的体验中心和限量邀测，正式向更多开发者和企业开放，标志着字节的多模态视频生成模型从封闭体验向开放生态转变。随着API的开放，AI视频工具有望从娱乐实验向商业生产力工具转变，尤其在短视频、电商和教育领域可能发挥更大作用。

Google Vids集成Veo 3.1和Lyria 3，免费开放视频生成功能

Google宣布为其视频编辑套件Google Vids引入多项AI功能，集成Lyria 3和Veo 3.1模型。从本周起，任何拥有Google账号的用户均可使用Veo 3.1免费生成视频片段，个人账号每月可获得10次免费生成额度。

新功能亮点：

AI虚拟人：支持导演模式，可将虚拟人置于特定场景中与物体交互
自定义音乐：AI Pro和Ultra订阅用户可生成30秒至3分钟的原创配乐
便捷分享：支持直接从Vids发布至YouTube

开源生态与基础设施

Anthropic Claude Code源码泄露引发连锁反应

4月2日，Anthropic的AI编程助手Claude Code遭遇重大泄露事件——51.2万行源码意外被公开。更为严重的是，Anthropic在清理过程中出现失误，误删了GitHub上约8100个仓库，其中包括公司自身开源项目的正常分支。

事件影响：

泄露代码揭示了Claude Code的五层架构设计、三层记忆结构和"做梦"后台进程
社区迅速响应，一个名为claw-code的Python重写项目在GitHub上获得超11万stars
事件发生在Anthropic筹备IPO的背景下，对公司形象造成负面影响

深度解读：这起事件折射出几个值得关注的趋势：AI辅助开发的边界正在模糊，Codex等工具已能在数小时内完成大型项目的语言迁移；开源与闭源的博弈中，社区的响应速度和组织能力远超预期；传统DMCA手段在面对"重写版"时显得力不从心。

美团开源LongCat-AudioDiT音频生成模型

美团于4月1日发布并开源LongCat-AudioDiT音频生成模型，该模型彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音（TTS）。

技术突破：

核心架构由Wav-VAE和DiT组成，在波形隐空间里完成声音的压缩、建模与重建
3.5B版本在Seed-ZH测试集的说话人相似度（SIM）指标达到0.818，超过Seed-TTS、CosyVoice3.5等知名模型
已开源1B/3.5B参数版本，代码和模型权重已在GitHub和HuggingFace发布

Google Gemini API推出Flex和Priority服务分级

Google宣布为Gemini API推出两个全新的服务分级：Flex和Priority，旨在通过统一界面为开发者提供对成本和可靠性的精细控制。

Flex推理：专为对延迟不敏感、但对成本敏感的工作负载设计，可节省50%成本
Priority推理：以溢价提供最高级别的服务保障，确保即使在平台使用高峰期，关键流量也不会被挤占

具身智能与机器人赛道持续升温

星海图完成近20亿元B+轮融资，估值突破200亿元

具身智能公司星海图近日完成近20亿元B+轮融资，投资方包括华登科技、蓝思科技、矽芯投资等产业资本，以及中金资本、普华资本等一线PE。这距离其上一轮融资仅过去一个月，估值接近翻倍。

核心进展：

首创"快-慢双系统"VLA架构，世界模型Fast-WAM将单步推理延迟压缩至190毫秒
轮式双臂机器人R1 Pro和R1 Lite平台已覆盖全球超90%的顶尖开发者
已获得国内头部车企与智慧物流企业的千台级订单

深度解读：具身智能赛道正经历资本密集涌入。2026年开年至今，国内具身智能赛道已发生超200起股权融资事件，平均每天2.5起。200亿估值正在成为这一轮"季后赛"的入场券，头部企业的共性是：掌握具身大模型核心技术、具备量产交付能力，或拥有稳定的工业场景订单。

优必选2025年营收20亿元，人形机器人销量全球第一

优必选发布2025年全年业绩，全年总营收达20.01亿元，同比增长53.3%。其中全尺寸具身智能人形机器人业务收入达8.2亿元，同比增长2203.7%，销量达1079台，均价70.6万元，在收入、销量、均价三项指标上均位列全球第一。

花旗将优必选目标价从155港元上调至190港元，维持"买入"评级，核心依据是管理层将2026年WalkerS系列出货指引从2000-3000台上调至5000台。

AI治理与行业规范

中国广电联合会演员委员会发布严正声明，禁止AI换脸等侵权行为

4月2日，中国广播电视社会组织联合会演员委员会发布声明，明确禁止AI换脸合成、声纹克隆复刻、影视素材任意篡改、擅自抓取演员影像声频用于AI模型训练等侵权行为。

核心要点：

即使标注"非商用"“公益分享”"个人二创"等字样，均不构成合法免责依据
要求网络平台建立AI演艺内容授权核验长效机制，全面排查下架存量侵权作品
启动全网常态化侵权监测、公证固证及批量维权行动

深度解读：从3月13日开始，包括谷江山、赵爽、边江、季冠霖等近百位顶尖配音演员相继发声，抵制成本不足百元、仅需几分钟原声就能复刻的AI声音克隆技术。这份声明标志着演艺行业从个体维权转向系统性的行业监管，为AI训练数据的授权合法性问题提供了标准化范式。

国家药监局出台新政，推动人工智能与药品监管深度融合

4月2日，国家药监局发布《关于"人工智能+药品监管"的实施意见》，提出到2030年初步构建药品监管与人工智能融合创新体系，到2035年基本形成数智驱动的智慧化药品安全治理新格局。

七大重点方向：

构建人机协同智能审评审批体系
提升全链条智能化监管能力
推动风险监管体系数智升级
推进检查执法智能化规范化
提升协同监管效能
提升政务服务智能化水平
促进监管与产业数智化协同发展

国产大模型密集发布，AI编程与多模态能力全面跃升

国产大模型密集迭代，编程与多模态能力成竞争焦点

视频生成与创作工具开放加速

开源生态与基础设施

具身智能与机器人赛道持续升温

AI治理与行业规范

更多动态