- 蚂蚁灵波开源可交互世界模型LingBot-World,支持10分钟稳定生成与实时交互
- 阿里平头哥发布自研AI芯片真武810E,已在阿里云部署多个万卡集群
- MiniMax Music 2.5与昆仑Mureka V8推动AI音乐从生成走向可发布
- 马斯克称中国是特斯拉人形机器人领域最强竞争对手,特斯拉停产Model S/X转产Optimus
- 蔡司光学与腾讯健康联合推出国内首个青少年近视防控智能体「少儿护眼Dr.Z」

核心技术突破
蚂蚁灵波开源可交互世界模型 LingBot-World
蚂蚁集团旗下灵波科技开源 LingBot-World,该模型旨在为具身智能和自动驾驶提供高保真、逻辑一致且可实时操控的虚拟环境。
核心能力
- 长时序一致性:可连续稳定生成近10分钟内容;镜头转开60秒后返回,场景物体结构与外观仍保持一致,解决细节塌陷问题
- 高保真实时交互:支持动作驱动生成,约16FPS、端到端延迟≤1秒;可通过键盘/鼠标/文本指令实时改变环境与视角
- Zero-shot泛化:基于混合数据策略(网络视频+虚幻引擎合成),仅需一张真实城市照片或游戏截图,即可生成对应可交互视频流,无需针对特定场景额外训练
开源资源:模型权重与推理代码已全部开源,支持通过ModelScope、HuggingFace与GitHub获取
深度解读 & 洞察:
- 世界模型的核心价值在于"模拟环境动态并预测状态变化",是具身智能实现大规模低成本训练的关键路径。LingBot-World通过高保真、可交互且长时序一致的数字演练场,使智能体能以更低的真机试错成本积累经验与行为因果,有助于提升真实环境下的泛化能力与鲁棒性
- 从产业层面看,开源与模块化的世界模型有助于加速具身智能、自动驾驶与游戏等场景的落地与迭代,降低训练与仿真门槛
阿里平头哥发布自研AI芯片「真武810E」
阿里平头哥发布高端AI芯片 真武810E,软硬件全自研,已在阿里云部署多个万卡集群并服务400多家机构。
关键参数(参考多家报道对比)
- HBM2e内存,最高96GB
- 支持7个独立ICN链路,片间互联带宽达700GB/s,灵活多卡组合
- 全面兼容主流AI生态,支持源代码级编译与统一编程接口
行业对标:综合性能超越A800和主流国产GPU,接近英伟达H20水平(注:具体性能对比需结合实测与第三方基准)
规模化落地:已在阿里云实现多个万卡集群部署,服务对象包括国家电网、中科院、小鹏汽车、新浪微博等400多家机构
深度解读 & 洞察:
- 自研芯片是算力自主可控与长期成本优化的关键一环。真武810E体现阿里在"通云哥"(通义实验室—阿里云—平头哥)层面的软硬协同,有助于在训练、推理与自动驾驶等场景提升性能一致性并降低对外部供应链的依赖
- 长期看,芯片、云与模型的三位一体布局,有助于提高端到端效率与生态协同,加速大模型与AI应用的规模化落地
AI音乐创作突破:MiniMax Music 2.5 与昆仑 Mureka V8
MiniMax Music 2.5
- 核心突破:“段落级强控制"与"物理级高保真”,支持Intro、Bridge、Hook等14种结构变体的标签化控制;实现连续转音、自然颤音与混音自动适配,达到录音棚级输出
- 针对华语优化:覆盖慢歌、说唱与中英文混搭,减少吞字与糊音问题
昆仑万维 Mureka V8
- 技术基座:基于 MusiCoT(Music Chain-of-Thought),从"声音拼接"转向类似人类作曲的结构化创作
- 能力提升:旋律抓耳度、主副歌对比、编曲层次与音质空间感均达到可发布标准,支持从歌词/描述出发进行持续迭代与多版本对比
- 产业合作:与太合音乐达成战略合作,加速"创作—发行—收益"的链路整合
深度解读 & 洞察:
- 两家公司的突破共同推动AI音乐从"玩具级demo"向"可直接发布的专业作品"跃迁,段落级控制与物理级保真显著提升可控性与商业可用性
- 伴随平台化与渠道合作,AI音乐从单一生成工具逐步走向"创作—分发—收益"闭环,有望催生全新的音乐品类与工作流
多模态与视频生成进展
昆仑万维 SkyReels-V3 开源:集成参考图像转视频、视频延长与音频驱动虚拟形象三大模块,采用统一架构并支持模块化组合,已在GitHub开源并提供限时免费API
谷歌 Project Genie 发布:面向美国AI Ultra订阅用户开放实验性世界模型原型,支持文本/图像构建、实时探索与创意重构,单次生成限时60秒;当前仍为实验阶段,存在非写实与控制延迟等局限
开源生态与模型更新
宇树开源 UnifoLM-VLA-0:面向通用人形机器人操作的视觉—语言—动作模型,基于Qwen2.5-VL-7B,融合空间感知与动力学预测,在真机验证中以单一策略完成12类复杂任务;已在LIBERO基准接近最优性能,并开源项目主页与代码
百度开源 PP-HDiNetV2:新一代端到端OCR模型,采用混合判别器网络(HDiNet)与SSLD半监督知识蒸馏,在文本检测与识别综合能力上超越DeepSeek-OCR2(注:具体以官方报告与基准为准)
阿里千问开源 Qwen3-ASR:支持52种语种与方言;1.7B版在中文、英文及多口音识别上达SOTA;支持流式/非流式一体化推理,最长可处理20分钟音频;提供易用推理与微调框架
产业与商业动态
人形机器人:中美两强竞争与商业化进展
马斯克评中国为最强对手:在财报会上称中国是"另一个层级的对手",AI与制造两大核心能力均顶尖;除中国外未发现其他重要竞争者
特斯拉停产Model S/X,转向Optimus生产:计划将加州弗里蒙特工厂改造为人形机器人专用生产基地,长期目标年产100万台;资本支出将因AI与机器人投入大幅增加
马斯克:Optimus尚未承担实际工厂工作:承认目前无Optimus在工厂承担有用工作,仍处研发早期;预计年底前可能出现显著产量,Gen 3为首个面向量产的设计
Figure AI 发布 Helix 02:统一神经网络控制架构,支持零样本泛化与多机器人协作;已完全端侧部署于低功耗嵌入式GPU,支持分层System 2与System 1架构;已启动家用Alpha测试,在宝马南卡工厂进行商业化验证
北京人形机器人中试验证平台启动:第1000台客户定制化样机下线,平台占地9700平米、年产能5000台套,提供试制打样、性能工艺验证等一站式服务
宇树科技发布UnifoLM-VLA-0:面向通用人形机器人操作的VLA模型,真机验证显示12类任务可在单一策略下高质量完成
巨头资本与算力布局
SK海力士:在美投资100亿美元成立AI解决方案公司:新公司借Solidigm实体启动,将首先关注AI系统软件优化并探索与创新型企业投资
三星2025年业绩创新高:全年营业利润同比增长33.2%达43.6011万亿韩元;Q4营业利润同比增长209.2%创20.0737万亿韩元历史新高,主要受AI芯片短缺与价格高位驱动
微软:单季从OpenAI投资中获利76亿美元;与OpenAI的商业履约义务增至约6250亿美元,其中约45%(超2800亿美元)来自OpenAI;对Anthropic的商业预订量同比增长230%
OpenAI下架多款旧模型:计划于2026年2月13日从ChatGPT服务中退役GPT-4o、GPT-4.1等模型;API平台暂不受影响;目前仅约0.1%的日常用户仍在使用GPT-4o
Hugging Face拒绝英伟达5亿美元投资:以保持独立性与去中心化;公司托管250万个公开模型与70余万个公开数据集,2025年已实现盈利
它石智航获2.42亿美元融资:采用可穿戴设备采集数据以低成本规模化;押注AI世界引擎AWE路线,聚焦线束装配等工业场景
智能体与AI应用生态
字节豆包AI手机与眼镜:二代手机与努比亚继续联合开发,预计2026年Q2中晚期发布;带显示AI眼镜计划2026年Q4发布,无显示版或于2026年Q1推出
Moltbot云服务上线京东云:轻量云主机预置镜像,三步完成环境配置,降低普通人使用门槛
Kimi K2.5 Agent提升办公能力:支持直接操作Excel、Word、PDF与PPT,快速生成估值模型、合同修订意见与发布级PPT等
Mistral发布Vibe 2.0编程助手:新增自定义子代理功能,月费14.99美元
企业战略与组织调整
亚马逊再次裁员1.6万人:三个月内第二轮,与去年10月的1.4万人合计约占员工总数9%;目标重塑为更像初创企业的组织,加速决策应对AI竞争
理想汽车重组研发体系:拆分为基础模型、软件本体与硬件本体三团队;郎咸朋转任硬件本体负责人,聚焦机器人研发;座舱与智驾软件统一归入软件本体团队
思科CEO:AI影响将比互联网更大,部分公司会倒在泡沫中;强调劳动者应积极拥抱AI转型,并指出网络安全威胁升级
算力与能耗探索
- 热力学计算概念登场:劳伦斯伯克利国家实验室提出,理论上可将AI图像生成的能耗降至当前水平的百亿分之一;原型机验证了利用物理系统热运动进行计算的可行性,仍处早期雏形阶段
安全、治理与监管
韩国实施全球首部AI基本法
核心条款:AI生成非真实内容需加水印;深度伪造需明显视觉标签;在医疗诊断、招聘与贷款审批等关键领域需建立风险评估与决策记录机制
争议:98%的AI初创企业尚未为合规做好准备,担心监管挤压创新空间;民间团体则认为条款过度偏向产业,对受害者保护不足
英国警方停用微软Copilot引发风波
事件:西米德兰兹警方因Copilot提供关于虚假比赛的"球迷冲突"情报,做出可能引发国际争议的安保建议,现已全警队停用该工具;前任警察局长因AI使用证词前后不一致面临压力并提前退休
启示:生成式AI在关键决策中存在"幻觉"风险,需严密的监管政策与人工审核机制
微软承诺用户数据掌控
- 声明:用户可随时访问、转移或删除数据;用户与Copilot的互动数据不会用于训练包括LLM在内的AI模型;组织数据保留在企业租户环境,但在特定法律要求下需配合执法
App Store道德争议
问题:数十款"AI裸体化"应用在架,利用未经同意的照片生成虚假色情或裸露图像;全球下载量超7亿次、收入超1亿美元,苹果与谷歌从中抽取数百万美元分成
风险:审核指南禁止此类内容,但应用通过伪装规避监管;平台面临"用户至上"承诺与治理漏洞的信任危机
更多动态
DeepSeek加速布局AI搜索与智能体:招聘多语言AI搜索引擎开发与智能体技术人才,聚焦长期运行的Agent系统与AGI路径
ServiceNow联合Anthropic推进多模型战略:Claude成为首选与默认引擎;内部2.9万名员工将使用Claude;企业可通过多模型选择适配不同任务
腾讯健康与蔡司光学推出国内首个青少年近视防控智能体「少儿护眼Dr.Z」:整合LLM与眼科专业知识,支持秒读、深分析与主动健康管理建议,通过微信小程序开放
民政部推动大语言模型、脑机接口等技术在残疾儿童康复领域的应用;鼓励高性能智能养老服务机器人等产品的研发与应用
韩国实施全球首部AI基本法:AI生成非真实内容需加水印;深度伪造需明显视觉标签;在医疗诊断、招聘、贷款审批等关键领域建立风险评估与决策记录机制
文远知行发布通用仿真模型WeRide GENESIS:在几分钟内构建高保真仿真城市环境,通过AI场景、AI主体、AI指标与AI诊断四大模块,双向反哺真实道路算法
OpenMind推出机器人应用商店:基于OM1模块化操作系统,支持四足/人形机器人技能更新与功能扩展,已兼容10家硬件制造商的产品
研究发现AI生成数据会导致诊断模型退化:在特定场景下假性安心率(False Reassurance)飙升至约40%,凸显合成数据在医疗等高风险场景的局限
蚂蚁灵波开源LingBot-Depth空间感知模型:采用掩码深度建模解决透明/高反光物体的深度缺失问题;与奥比中光战略合作,计划推出新一代深度相机
字节豆包AI手机加速迭代:二代机型Q2将至,与努比亚合作;同时在AI眼镜与耳机等硬件形态上多点布局
谷歌Gemini 3.5泄露信息(代号Snow Bunny):声称单次提示可生成约3000行可运行代码;引入"Deep Think"模式;泄露内容尚未经官方确认,变量与API准备状态暗示或已接近可用
Meta调整WhatsApp政策,第三方AI机器人按消息付费:从2月16日起,在受监管地区需为每条"非模板类"回复支付0.0691美元;政策源于意大利反垄断压力
MiniMax Music 2.5正式发布:宣称段落级强控制与物理级高保真,针对华语音乐深度优化,适配专业工作流与交付标准
昆仑万维SkyReels-V3视频生成模型开源:集成参考图像转视频、视频延长与音频驱动虚拟形象,支持模块化组合,已在GitHub开源并提供限时免费API
阿里千问开源Qwen3-ASR语音识别模型:支持52种语种与方言;1.7B版在中文、英文与多口音识别上达SOTA;支持流式/非流式一体化推理,最长处理20分钟音频
谷歌为Chrome引入基于Gemini 3的Auto Browse:支持跨站点工作流自动化(机票比价、表单填写、账单检查等),通过密码管理器处理登录,涉及敏感操作需用户确认
Meta规划2026年AI电商智能体密集发布与高额基建投入:预计资本支出1150亿—1350亿美元,打造"个人超级智能"与"代理式商业"
北京人形机器人中试验证平台启动:第1000台客户定制化样机下线,年产能5000台套,提供试制打样与验证等一站式服务
宇树科技创始人王兴兴访谈:称率先用大模型制造出机器人将站上全球AI领域顶峰,足以获诺贝尔奖
它石智航陈亦伦访谈:提出不做VLA、不用遥操作的技术路线,通过可穿戴设备低成本规模化采集数据;押注AI世界引擎AWE路线,聚焦工业制造中的线束装配等场景
