AI Agent 获得支付能力,交互式可视化开启新篇章

要点速览
  • FluxA 发布 Agent Wallet,AI Agent 首次拥有自主支付能力
  • ChatGPT 与 Claude 推出交互式图表功能,数学公式可动态实验
  • 陶哲轩创办 SAIR Foundation,探索 AI 与科学协作新模式
  • Cursor 推出 CursorBench,AI 编程评测更接近真实开发场景
  • 月之暗面 Kimi 估值达 180 亿美元,3 个月估值翻 4 倍
  • 谷歌地图获十年来最大升级,AI 对话导航上线
  • xAI 内部大清洗,联合创始人离职

AI Agent 获得支付能力,交互式可视化开启新篇章

AI Agent 能力突破:从执行任务到经济闭环

Agent Wallet:AI Agent 首次拥有自主支付能力

FluxA 推出的 Agent Wallet 解决了 AI Agent 自动化流程中的"最后一公里"问题。此前,Agent 涉及付费资源时必须中断流程请求人类付款,现在通过"授权契约"机制,用户可为 Agent 设置细粒度权限(如"每天最多支出 5 美元且只能购买 GitHub 资源"),让 Agent 在可控范围内自主完成支付决策。

产品已在海外开发者社区引发关注,支持的 Agent 包括 OpenClaw、Claude Code、CodeX 等。在测试中,安装钱包的 Agent 能自主注册账号、抢红包、参与竞赛赚钱,甚至产生净收入。

深度解读 & 洞察:

  • 填补能力空白:AI Agent 以前只能规划任务,却无法完成涉及金钱的闭环操作。Agent Wallet 让 Agent 真正成为"一等公民",能独立参与经济活动
  • 行业共识形成:Google 发布 AP2 协议、Coinbase 推动 x402 标准、Stripe 推出 Tempo 支付链,科技巨头都在同一方向发力,表明"AI 支付"正在成为基础设施命题
  • 安全机制创新:通过细粒度权限控制和自动锁定机制,在赋予 Agent 自主性的同时保障资金安全,这是 AI 经济能力落地的关键设计

B 站 AI 实战直播:测试 OpenClaw 真实能力边界

3 月 13 日,B 站推出直播系列《龙虾代替人类》,邀请 6 位 UP 主让 AI 工具 OpenClaw 执行真实任务。首场测试中,AI 成功开发了 iOS 应用,但过程曲折:分析账号失败一次才成功,整理文件任务因执行过慢未完成,代码修改任务甚至出现"偷懒"现象。

接下来的直播将覆盖视频创作、商业带货(目标一天卖出 100 万)、游戏代打、公司管理等场景,周鸿祎将以神秘嘉宾身份参与。

深度解读 & 洞察:

  • 真实场景检验:相比实验室评测,直播测试暴露了 AI 在真实任务中的不稳定性。AI 相当于几年经验的产品经理水平,但输出仍需打磨
  • 祛魅价值:当前关于 AI 的讨论两极化严重,这种公开实验提供了冷静观察的机会——AI 确实能完成复杂任务,但距离"完美替代"仍有明显距离

360 发布安全龙虾:降低 Agent 部署门槛

针对 OpenClaw 部署门槛高(熟练工程师需 6 小时)、安全风险大等痛点,360 推出首个以"安全模式"为核心的 OpenClaw 产品:一键安装将数小时部署压缩到 10 分钟,整合 16 家国内主流大模型能力,内置 100 余个高频技能,并通过虚拟化沙箱隔离运行环境防止恶意攻击。基础服务免费开放,入门套餐定价 169 元。

深度解读 & 洞察:

  • 降低使用门槛:将复杂技术方案封装为开箱即用产品,是 AI 技术普及的关键一步
  • 安全先行:AI Agent 具备自主执行能力,安全隔离机制是必要保障

AI 产品重大更新:从文本对话到交互式学习

ChatGPT 与 Claude 开启交互式图表时代

本周 ChatGPT 与 Claude 双双推出重大更新。ChatGPT 针对数学和科学领域推出交互式学习功能,用户可调整变量、修改公式并实时观察对图表的影响,首批支持 70 多个核心概念(勾股定理、库仑定律等),面向所有订阅用户开放。Claude 则支持在对话中直接创建定制化交互式图表和可视化,可根据对话上下文自动判断何时调用视觉响应。

深度解读 & 洞察:

  • 学习方式革命:从"听AI解释"变为"动手实验",抽象概念变得可触摸、可操作,这是 AI 从知识传递工具进化为学习伙伴的关键一步
  • 降低理解门槛:数学公式不再只是符号,用户可以直观看到"改变参数会如何影响结果",这对高中生、大学生等学习群体价值巨大

谷歌地图获十年来最大升级:AI 对话导航

谷歌为地图推出两项由 Gemini 驱动的新功能。Ask Maps 支持自然语言提问复杂出行需求(如"找一家位于办公室和朋友住处之间、环境温馨、晚上七点能坐四人的素食餐厅"),系统会分析评论和照片并可直接预订。沉浸式导航采用全新 3D 视图,每秒更新超过 500 万条交通信息,高亮显示车道、人行横道、建筑物入口等细节。

深度解读 & 洞察:

  • 交互范式改变:从"查地图"变为"对话规划",多个应用的操作(查攻略、看评价、预订)整合到单一入口
  • 竞争格局影响:Ask Maps 功能足以让大量旅行规划应用失去竞争力,垂直应用面临被整合的风险

科研与评测:推动 AI 从能用变好用

陶哲轩创办 SAIR Foundation:探索 AI 与科学协作新模式

菲尔兹奖得主陶哲轩创办非营利联盟 SAIR Foundation,目标是用科学方法打造 AI、用 AI 重塑科学研究。陶哲轩指出,当前 AI 在科研场景面临两大瓶颈:幻觉问题(模型输出看似合理实际错误)和置信度表达缺失(AI 总是用百分百确定的语气,而科学家会说明信心程度)。他主张不追求最大模型,而是为特定工作流量身定制更小、更高效的专用工具。

深度解读 & 洞察:

  • Scaling 路线的反思:当算力和数据面临瓶颈,"让 AI 更聪明"可能比"让 AI 更大"更重要。人类专家看十个例子就能举一反三,AI 却需要数百万样本,效率差距巨大
  • 安全试验场:数学和科学是 AI 最安全的试验场——算错数学题几乎没有损失,这使其成为打磨可靠 AI 系统的理想环境

Cursor 推出 CursorBench:AI 编程评测更接近真实开发

Cursor 指出当前 AI 编程基准存在三大缺陷:任务类型不真实(只测修 bug)、评分机制不合理(假设只有一个正确答案)、数据污染严重。新推出的 CursorBench 从真实开发者请求中选取题目,包含多文件修改、生产日志分析等复杂任务,刻意保持描述模糊性以贴近真实场景。

评测结果显示,原本在 SWE-Bench 表现优异的模型分数大幅下滑:Claude Haiku 从 73.3 分降至 29.4 分,Claude Sonnet 从 77.2 分降至 37.9 分。新基准在前沿模型间展现出更高区分度,排名与线上真实用户体验一致。

深度解读 & 洞察:

  • 评测失真问题:当模型可能在训练时见过基准数据,高分可能只是"背答案"而非真能力。CursorBench 通过持续更新题目降低污染风险
  • 区分度价值:真实开发场景的难度远超修 bug,新基准能有效区分模型能力差距

具身智能与机器人:从实验室走向产业

它石智航发布 AWE3.0:首个通过柔性操作图灵测试

它石智航发布通用具身大模型 AWE3.0,宣称业内首个通过柔性操作图灵测试,已获得中国在工业精密操作领域的首个吉尼斯世界纪录。核心能力包括:全视角通感决策(未见视角任务性能提升 3 倍)、高密度触觉感知(毫米级精细操作)、隐空间丝滑动作(动作抖动降低 45%)。技术路线选择"不仿真、不VLA、不遥操",主张只有真实人类行为数据才能让机器人理解物理世界。

深度解读 & 洞察:

  • 技术路线差异:多数方案依赖仿真环境训练,但仿真与现实存在差距。AWE3.0 选择真实数据路径,代价更高但泛化能力可能更强
  • 工业落地关键:毫米级精密操作、长程任务稳定执行,这些能力让机器人具备了在制造场景落地的可行性

优必选拟在上海建设人形机器人制造基地

优必选计划在上海投资建设"六个一"项目,包括年产能 3000 台的商用人形机器人智能制造基地、具身智能应用转化研究院、全球品牌总部、创业孵化平台和机器人产业基金。其 Walker S2 机器人身高 1.76 米、拥有 52 个自由度,可在 0-1.8 米空间内完成 15 公斤负载搬运,集成亚毫米级精细操作的灵巧手。

企业动态:组织变革与资本热度

xAI 内部大清洗:马斯克从零重建公司

马斯克本周在 xAI 开启"大清洗",迫使 Zihang Dai、Guodong Zhang 等联合创始人离职,并从 SpaceX、特斯拉调人审查公司。审查重点在于 AI 模型训练质量,部分观点认为 xAI 产品落后于 Claude Code、Codex 等竞争对手。马斯克发文称"xAI 第一次构建的方式不对,因此现在要从零开始重建"。

深度解读 & 洞察:

  • 技术竞争压力:xAI 产品落后于竞争对手是这次重组的背景。AI 领域迭代速度极快,落后意味着被边缘化
  • 人才战争白热化:xAI 本周从 Cursor 挖走两名员工,同时人事重新联系此前被拒绝的求职者开出更高薪酬,显示顶尖 AI 人才的稀缺性

月之暗面 Kimi 估值达 180 亿美元,3 个月翻 4 倍

Kimi 最新估值上升至 180 亿美元,3 个月内估值翻了 4 倍。新一轮 10 亿美元融资正在进行中,公司已先后完成 3 轮融资,创下国内大模型连续融资最多纪录,成为国内估值最快突破百亿美元的独角兽。数据显示,Kimi 个人订阅用户支付订单 1 月环比增长 8280%,2 月再涨 123.8%。

深度解读 & 洞察:

  • 用户增长验证:爆炸式增长的付费订单表明产品获得了真实用户认可,而非仅仅是资本游戏
  • 估值逻辑变化:从技术竞赛转向用户付费能力验证,估值逻辑更务实

更多动态


想第一时间获取最新内容?
欢迎加入我们的 Telegram 群组 @ai_news_plus,抢先获取每日更新。
立即加入群组
Telegram 群组二维码