国产大模型密集发布,AI编程与多模态能力全面跃升

要点速览
  • 阿里发布Qwen3.6-Plus,号称国产最强编程模型,支持100万token上下文,编程能力接近Claude系列
  • 智谱发布GLM-5V-Turbo多模态编程模型,能看懂设计稿直接生成前端代码
  • 字节豆包日均Token使用量突破120万亿,三个月翻倍,较一年前增长1000倍
  • 火山引擎Seedance 2.0视频生成API正式开放公测,面向企业用户
  • Anthropic Claude Code源代码泄露,误删8100个GitHub仓库引发争议
  • 星海图完成近20亿元B+轮融资,估值突破200亿元
  • 美团开源LongCat-AudioDiT音频生成模型,说话人相似度达0.818
  • 谷歌AI Pro订阅存储空间从2TB提升至5TB,Gemini API推出Flex/Priority分级服务
  • OpenAI Codex推出按量付费模式,取消固定席位费
  • 中国广电联合会演员委员会发布声明,明确禁止AI换脸、声纹克隆等侵权行为

国产大模型密集发布,AI编程与多模态能力全面跃升

国产大模型密集迭代,编程与多模态能力成竞争焦点

阿里发布Qwen3.6-Plus,国产编程模型能力跃升

4月2日,阿里巴巴正式发布新一代大语言模型Qwen3.6-Plus,这是千问3.6系列的首个版本,已在阿里云百炼API开放调用。该模型在编程能力、智能体能力和多模态理解上实现显著提升。

核心能力突破:

  • 编程能力:在SWE-bench(真实编程任务)、Terminal-Bench2(终端编程)、NL2Repo(长程编程任务)等评测中表现优异,能够自主拆解任务、规划执行路径、测试并修改代码
  • 智能体能力:深度优化对OpenClaw、Claude Code、Kilo Code等主流Agent框架的支持,支持百万词元上下文窗口
  • 多模态理解:可基于界面截图、设计稿或自然语言描述生成前端页面、完成代码补全

深度解读:Qwen3.6-Plus的定价颇具竞争力——每百万Tokens输入仅需2元。阿里将其定位为降低编程门槛的工具,支持"氛围编程"(Vibe Coding),用户通过自然语言描述即可驱动AI完成复杂编程任务。这标志着国产大模型在编程赛道上已从"追赶"进入"并跑"阶段,企业级AI应用的竞争正从单纯的模型能力比拼,转向"模型能力 × 场景理解"的深度结合。


智谱发布GLM-5V-Turbo:AI编程有了"眼睛"

智谱AI同期发布面向视觉编程的多模态Coding基座模型GLM-5V-Turbo,核心定位是实现"视觉编程"——让AI能直接根据草图、设计稿或网站截图生成完整可运行的前端代码。

技术特性:

  • 原生多模态融合:从预训练阶段即深度融合视觉与文本能力,上下文窗口扩展至200k
  • 视觉编码器升级:自研CogViT视觉编码器,在物体识别、细节捕捉、空间关系理解等方面优化
  • Agent协同:与Claude Code、OpenClaw/AutoClaw等主流Agent框架深度协同,支持"看懂环境→规划动作→执行任务"的完整闭环

深度解读:GLM-5V-Turbo的发布反映了当前大模型竞争的明确趋势:从纯文本能力向多模态、Agentic能力的延伸。当AI能够"看见"屏幕并理解人类的操作环境时,全自动编程辅助才真正开始发展。对于前端开发者而言,这意味着从设计稿到成品页面的转化效率将大幅提升,产品经理或设计师可快速生成可交互的demo用于沟通验证。


字节豆包日均Token使用量突破120万亿

火山引擎披露,截至2026年3月,豆包大模型日均Token使用量已突破120万亿,较三个月前增长一倍,相比2024年5月发布时增长达1000倍。累计Token使用量超过一万亿的企业已从100家增长至140家。

深度解读:Token消耗量正成为评估AI落地进程的直观指标。豆包的爆发式增长说明国内AI行业已从单纯的模型竞赛阶段转向大规模应用阶段。随着Token被正式翻译为"词元",我国日均词元调用量已超过140万亿。这种规模效应正在重塑云厂商的竞争格局——阿里巴巴成立Alibaba Token Hub事业群,腾讯云将MaaS平台升级为TokenHub,Token的商业价值正在被重新评估。


视频生成与创作工具开放加速

火山引擎Seedance 2.0 API正式开放公测

4月2日,字节跳动火山引擎宣布视频生成模型Seedance 2.0正式面向企业用户开启公测。该模型支持文字、图片、音频、视频四种输入方式,能生成具备电影质感的视频片段。

核心优势:

  • 精确的相机运动控制、真实的物理模拟
  • 多角色场景连贯性,减少闪烁或漂移问题
  • 建立覆盖全流程的版权与肖像安全保障体系

深度解读:Seedance 2.0从年初的体验中心和限量邀测,正式向更多开发者和企业开放,标志着字节的多模态视频生成模型从封闭体验向开放生态转变。随着API的开放,AI视频工具有望从娱乐实验向商业生产力工具转变,尤其在短视频、电商和教育领域可能发挥更大作用。


Google Vids集成Veo 3.1和Lyria 3,免费开放视频生成功能

Google宣布为其视频编辑套件Google Vids引入多项AI功能,集成Lyria 3和Veo 3.1模型。从本周起,任何拥有Google账号的用户均可使用Veo 3.1免费生成视频片段,个人账号每月可获得10次免费生成额度。

新功能亮点:

  • AI虚拟人:支持导演模式,可将虚拟人置于特定场景中与物体交互
  • 自定义音乐:AI Pro和Ultra订阅用户可生成30秒至3分钟的原创配乐
  • 便捷分享:支持直接从Vids发布至YouTube

开源生态与基础设施

Anthropic Claude Code源码泄露引发连锁反应

4月2日,Anthropic的AI编程助手Claude Code遭遇重大泄露事件——51.2万行源码意外被公开。更为严重的是,Anthropic在清理过程中出现失误,误删了GitHub上约8100个仓库,其中包括公司自身开源项目的正常分支。

事件影响:

  • 泄露代码揭示了Claude Code的五层架构设计、三层记忆结构和"做梦"后台进程
  • 社区迅速响应,一个名为claw-code的Python重写项目在GitHub上获得超11万stars
  • 事件发生在Anthropic筹备IPO的背景下,对公司形象造成负面影响

深度解读:这起事件折射出几个值得关注的趋势:AI辅助开发的边界正在模糊,Codex等工具已能在数小时内完成大型项目的语言迁移;开源与闭源的博弈中,社区的响应速度和组织能力远超预期;传统DMCA手段在面对"重写版"时显得力不从心。


美团开源LongCat-AudioDiT音频生成模型

美团于4月1日发布并开源LongCat-AudioDiT音频生成模型,该模型彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS)。

技术突破:

  • 核心架构由Wav-VAE和DiT组成,在波形隐空间里完成声音的压缩、建模与重建
  • 3.5B版本在Seed-ZH测试集的说话人相似度(SIM)指标达到0.818,超过Seed-TTS、CosyVoice3.5等知名模型
  • 已开源1B/3.5B参数版本,代码和模型权重已在GitHub和HuggingFace发布

Google Gemini API推出Flex和Priority服务分级

Google宣布为Gemini API推出两个全新的服务分级:Flex和Priority,旨在通过统一界面为开发者提供对成本和可靠性的精细控制。

  • Flex推理:专为对延迟不敏感、但对成本敏感的工作负载设计,可节省50%成本
  • Priority推理:以溢价提供最高级别的服务保障,确保即使在平台使用高峰期,关键流量也不会被挤占

具身智能与机器人赛道持续升温

星海图完成近20亿元B+轮融资,估值突破200亿元

具身智能公司星海图近日完成近20亿元B+轮融资,投资方包括华登科技、蓝思科技、矽芯投资等产业资本,以及中金资本、普华资本等一线PE。这距离其上一轮融资仅过去一个月,估值接近翻倍。

核心进展:

  • 首创"快-慢双系统"VLA架构,世界模型Fast-WAM将单步推理延迟压缩至190毫秒
  • 轮式双臂机器人R1 Pro和R1 Lite平台已覆盖全球超90%的顶尖开发者
  • 已获得国内头部车企与智慧物流企业的千台级订单

深度解读:具身智能赛道正经历资本密集涌入。2026年开年至今,国内具身智能赛道已发生超200起股权融资事件,平均每天2.5起。200亿估值正在成为这一轮"季后赛"的入场券,头部企业的共性是:掌握具身大模型核心技术、具备量产交付能力,或拥有稳定的工业场景订单。


优必选2025年营收20亿元,人形机器人销量全球第一

优必选发布2025年全年业绩,全年总营收达20.01亿元,同比增长53.3%。其中全尺寸具身智能人形机器人业务收入达8.2亿元,同比增长2203.7%,销量达1079台,均价70.6万元,在收入、销量、均价三项指标上均位列全球第一。

花旗将优必选目标价从155港元上调至190港元,维持"买入"评级,核心依据是管理层将2026年WalkerS系列出货指引从2000-3000台上调至5000台。


AI治理与行业规范

中国广电联合会演员委员会发布严正声明,禁止AI换脸等侵权行为

4月2日,中国广播电视社会组织联合会演员委员会发布声明,明确禁止AI换脸合成、声纹克隆复刻、影视素材任意篡改、擅自抓取演员影像声频用于AI模型训练等侵权行为。

核心要点:

  • 即使标注"非商用"“公益分享”"个人二创"等字样,均不构成合法免责依据
  • 要求网络平台建立AI演艺内容授权核验长效机制,全面排查下架存量侵权作品
  • 启动全网常态化侵权监测、公证固证及批量维权行动

深度解读:从3月13日开始,包括谷江山、赵爽、边江、季冠霖等近百位顶尖配音演员相继发声,抵制成本不足百元、仅需几分钟原声就能复刻的AI声音克隆技术。这份声明标志着演艺行业从个体维权转向系统性的行业监管,为AI训练数据的授权合法性问题提供了标准化范式。


国家药监局出台新政,推动人工智能与药品监管深度融合

4月2日,国家药监局发布《关于"人工智能+药品监管"的实施意见》,提出到2030年初步构建药品监管与人工智能融合创新体系,到2035年基本形成数智驱动的智慧化药品安全治理新格局。

七大重点方向:

  1. 构建人机协同智能审评审批体系
  2. 提升全链条智能化监管能力
  3. 推动风险监管体系数智升级
  4. 推进检查执法智能化规范化
  5. 提升协同监管效能
  6. 提升政务服务智能化水平
  7. 促进监管与产业数智化协同发展

更多动态


想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码