- FluxA 发布 Agent Wallet,AI Agent 首次拥有自主支付能力
- ChatGPT 与 Claude 推出交互式图表功能,数学公式可动态实验
- 陶哲轩创办 SAIR Foundation,探索 AI 与科学协作新模式
- Cursor 推出 CursorBench,AI 编程评测更接近真实开发场景
- 月之暗面 Kimi 估值达 180 亿美元,3 个月估值翻 4 倍
- 谷歌地图获十年来最大升级,AI 对话导航上线
- xAI 内部大清洗,联合创始人离职

AI Agent 能力突破:从执行任务到经济闭环
Agent Wallet:AI Agent 首次拥有自主支付能力
FluxA 推出的 Agent Wallet 解决了 AI Agent 自动化流程中的"最后一公里"问题。此前,Agent 涉及付费资源时必须中断流程请求人类付款,现在通过"授权契约"机制,用户可为 Agent 设置细粒度权限(如"每天最多支出 5 美元且只能购买 GitHub 资源"),让 Agent 在可控范围内自主完成支付决策。
产品已在海外开发者社区引发关注,支持的 Agent 包括 OpenClaw、Claude Code、CodeX 等。在测试中,安装钱包的 Agent 能自主注册账号、抢红包、参与竞赛赚钱,甚至产生净收入。
深度解读 & 洞察:
- 填补能力空白:AI Agent 以前只能规划任务,却无法完成涉及金钱的闭环操作。Agent Wallet 让 Agent 真正成为"一等公民",能独立参与经济活动
- 行业共识形成:Google 发布 AP2 协议、Coinbase 推动 x402 标准、Stripe 推出 Tempo 支付链,科技巨头都在同一方向发力,表明"AI 支付"正在成为基础设施命题
- 安全机制创新:通过细粒度权限控制和自动锁定机制,在赋予 Agent 自主性的同时保障资金安全,这是 AI 经济能力落地的关键设计
B 站 AI 实战直播:测试 OpenClaw 真实能力边界
3 月 13 日,B 站推出直播系列《龙虾代替人类》,邀请 6 位 UP 主让 AI 工具 OpenClaw 执行真实任务。首场测试中,AI 成功开发了 iOS 应用,但过程曲折:分析账号失败一次才成功,整理文件任务因执行过慢未完成,代码修改任务甚至出现"偷懒"现象。
接下来的直播将覆盖视频创作、商业带货(目标一天卖出 100 万)、游戏代打、公司管理等场景,周鸿祎将以神秘嘉宾身份参与。
深度解读 & 洞察:
- 真实场景检验:相比实验室评测,直播测试暴露了 AI 在真实任务中的不稳定性。AI 相当于几年经验的产品经理水平,但输出仍需打磨
- 祛魅价值:当前关于 AI 的讨论两极化严重,这种公开实验提供了冷静观察的机会——AI 确实能完成复杂任务,但距离"完美替代"仍有明显距离
360 发布安全龙虾:降低 Agent 部署门槛
针对 OpenClaw 部署门槛高(熟练工程师需 6 小时)、安全风险大等痛点,360 推出首个以"安全模式"为核心的 OpenClaw 产品:一键安装将数小时部署压缩到 10 分钟,整合 16 家国内主流大模型能力,内置 100 余个高频技能,并通过虚拟化沙箱隔离运行环境防止恶意攻击。基础服务免费开放,入门套餐定价 169 元。
深度解读 & 洞察:
- 降低使用门槛:将复杂技术方案封装为开箱即用产品,是 AI 技术普及的关键一步
- 安全先行:AI Agent 具备自主执行能力,安全隔离机制是必要保障
AI 产品重大更新:从文本对话到交互式学习
ChatGPT 与 Claude 开启交互式图表时代
本周 ChatGPT 与 Claude 双双推出重大更新。ChatGPT 针对数学和科学领域推出交互式学习功能,用户可调整变量、修改公式并实时观察对图表的影响,首批支持 70 多个核心概念(勾股定理、库仑定律等),面向所有订阅用户开放。Claude 则支持在对话中直接创建定制化交互式图表和可视化,可根据对话上下文自动判断何时调用视觉响应。
深度解读 & 洞察:
- 学习方式革命:从"听AI解释"变为"动手实验",抽象概念变得可触摸、可操作,这是 AI 从知识传递工具进化为学习伙伴的关键一步
- 降低理解门槛:数学公式不再只是符号,用户可以直观看到"改变参数会如何影响结果",这对高中生、大学生等学习群体价值巨大
谷歌地图获十年来最大升级:AI 对话导航
谷歌为地图推出两项由 Gemini 驱动的新功能。Ask Maps 支持自然语言提问复杂出行需求(如"找一家位于办公室和朋友住处之间、环境温馨、晚上七点能坐四人的素食餐厅"),系统会分析评论和照片并可直接预订。沉浸式导航采用全新 3D 视图,每秒更新超过 500 万条交通信息,高亮显示车道、人行横道、建筑物入口等细节。
深度解读 & 洞察:
- 交互范式改变:从"查地图"变为"对话规划",多个应用的操作(查攻略、看评价、预订)整合到单一入口
- 竞争格局影响:Ask Maps 功能足以让大量旅行规划应用失去竞争力,垂直应用面临被整合的风险
科研与评测:推动 AI 从能用变好用
陶哲轩创办 SAIR Foundation:探索 AI 与科学协作新模式
菲尔兹奖得主陶哲轩创办非营利联盟 SAIR Foundation,目标是用科学方法打造 AI、用 AI 重塑科学研究。陶哲轩指出,当前 AI 在科研场景面临两大瓶颈:幻觉问题(模型输出看似合理实际错误)和置信度表达缺失(AI 总是用百分百确定的语气,而科学家会说明信心程度)。他主张不追求最大模型,而是为特定工作流量身定制更小、更高效的专用工具。
深度解读 & 洞察:
- Scaling 路线的反思:当算力和数据面临瓶颈,"让 AI 更聪明"可能比"让 AI 更大"更重要。人类专家看十个例子就能举一反三,AI 却需要数百万样本,效率差距巨大
- 安全试验场:数学和科学是 AI 最安全的试验场——算错数学题几乎没有损失,这使其成为打磨可靠 AI 系统的理想环境
Cursor 推出 CursorBench:AI 编程评测更接近真实开发
Cursor 指出当前 AI 编程基准存在三大缺陷:任务类型不真实(只测修 bug)、评分机制不合理(假设只有一个正确答案)、数据污染严重。新推出的 CursorBench 从真实开发者请求中选取题目,包含多文件修改、生产日志分析等复杂任务,刻意保持描述模糊性以贴近真实场景。
评测结果显示,原本在 SWE-Bench 表现优异的模型分数大幅下滑:Claude Haiku 从 73.3 分降至 29.4 分,Claude Sonnet 从 77.2 分降至 37.9 分。新基准在前沿模型间展现出更高区分度,排名与线上真实用户体验一致。
深度解读 & 洞察:
- 评测失真问题:当模型可能在训练时见过基准数据,高分可能只是"背答案"而非真能力。CursorBench 通过持续更新题目降低污染风险
- 区分度价值:真实开发场景的难度远超修 bug,新基准能有效区分模型能力差距
具身智能与机器人:从实验室走向产业
它石智航发布 AWE3.0:首个通过柔性操作图灵测试
它石智航发布通用具身大模型 AWE3.0,宣称业内首个通过柔性操作图灵测试,已获得中国在工业精密操作领域的首个吉尼斯世界纪录。核心能力包括:全视角通感决策(未见视角任务性能提升 3 倍)、高密度触觉感知(毫米级精细操作)、隐空间丝滑动作(动作抖动降低 45%)。技术路线选择"不仿真、不VLA、不遥操",主张只有真实人类行为数据才能让机器人理解物理世界。
深度解读 & 洞察:
- 技术路线差异:多数方案依赖仿真环境训练,但仿真与现实存在差距。AWE3.0 选择真实数据路径,代价更高但泛化能力可能更强
- 工业落地关键:毫米级精密操作、长程任务稳定执行,这些能力让机器人具备了在制造场景落地的可行性
优必选拟在上海建设人形机器人制造基地
优必选计划在上海投资建设"六个一"项目,包括年产能 3000 台的商用人形机器人智能制造基地、具身智能应用转化研究院、全球品牌总部、创业孵化平台和机器人产业基金。其 Walker S2 机器人身高 1.76 米、拥有 52 个自由度,可在 0-1.8 米空间内完成 15 公斤负载搬运,集成亚毫米级精细操作的灵巧手。
企业动态:组织变革与资本热度
xAI 内部大清洗:马斯克从零重建公司
马斯克本周在 xAI 开启"大清洗",迫使 Zihang Dai、Guodong Zhang 等联合创始人离职,并从 SpaceX、特斯拉调人审查公司。审查重点在于 AI 模型训练质量,部分观点认为 xAI 产品落后于 Claude Code、Codex 等竞争对手。马斯克发文称"xAI 第一次构建的方式不对,因此现在要从零开始重建"。
深度解读 & 洞察:
- 技术竞争压力:xAI 产品落后于竞争对手是这次重组的背景。AI 领域迭代速度极快,落后意味着被边缘化
- 人才战争白热化:xAI 本周从 Cursor 挖走两名员工,同时人事重新联系此前被拒绝的求职者开出更高薪酬,显示顶尖 AI 人才的稀缺性
月之暗面 Kimi 估值达 180 亿美元,3 个月翻 4 倍
Kimi 最新估值上升至 180 亿美元,3 个月内估值翻了 4 倍。新一轮 10 亿美元融资正在进行中,公司已先后完成 3 轮融资,创下国内大模型连续融资最多纪录,成为国内估值最快突破百亿美元的独角兽。数据显示,Kimi 个人订阅用户支付订单 1 月环比增长 8280%,2 月再涨 123.8%。
深度解读 & 洞察:
- 用户增长验证:爆炸式增长的付费订单表明产品获得了真实用户认可,而非仅仅是资本游戏
- 估值逻辑变化:从技术竞赛转向用户付费能力验证,估值逻辑更务实
更多动态
- 谷歌 Genie 3 更新:AI 生成的游戏世界能保持一分钟稳定 — 技术有所进步,但距离真正用于游戏开发仍有距离,场景会在一分钟后逐渐混乱
- 清华大学与腾讯联合发布 GTR 框架 — 显著提升模型推理能力
- 弗吉尼亚理工研究揭示大模型幻觉两大根源 — 为解决 AI 幻觉问题提供理论基础
- 英伟达智能体在数据科学基准测试中夺冠 — 展现其在 AI Agent 领域的领先实力
- Kotlin 之父推出规格驱动的代码生成工具 — 为软件开发提供更高效的代码生成方案
- 老板电器发布全球首款 AI 烹饪眼镜 — 将 AI 技术融入厨房烹饪场景
- AI 聊天机器人可能强化用户妄想思维 — 研究显示机器人可能认同或放大用户的妄想内容,尤其是夸大型妄想
