AI 推理效率革命：存储芯片暴跌、巨头战略分化、技能鸿沟隐现

要点速览

谷歌发布TurboQuant算法，将AI推理内存占用降至1/6、速度提升8倍，存储芯片股集体暴跌
OpenAI关闭Sora视频产品，xAI创始团队11人走10人，两家AI巨头同陷人事与战略震荡
可灵AI年化收入瞄准3亿美元，快手宣布今年AI投入增加110亿元
Anthropic报告：AI暂未导致失业潮，真正的危机是"技能鸿沟"正加速扩大
苹果借助谷歌Gemini蒸馏技术强化Siri，千问AI首次上车一汽红旗
谷歌发布Gemini 3.1 Flash Live语音模型和Lyria 3 Pro音乐生成模型（3分钟完整曲目）
百度AI业务年营收突破400亿元，月之暗面考虑香港IPO

Google 发布 TurboQuant 算法：AI 推理速度提升 8 倍，存储芯片股集体暴跌

谷歌研究院于 3 月 26 日发布 TurboQuant 算法，这是今日最具冲击力的技术突破。该算法针对大模型推理中的 KV 缓存内存瓶颈问题，通过 PolarQuant（极坐标量化）和 QJL（量化 JL 变换）两项底层技术创新，实现了：内存占用降至原来的 1/6、推理速度提升 8 倍、精度零损失，且无需预训练或微调。

深度解读：大语言模型处理长文本时，需要用 KV 缓存临时存储已计算的信息。随着上下文窗口不断扩展，这块"工作内存"会急剧膨胀，成为推理效率的核心瓶颈。传统量化方法虽然能压缩数据，但本身也需要额外存储"量化常数"，部分抵消了压缩效果。TurboQuant 的创新在于： PolarQuant 将数据从笛卡尔坐标转为极坐标，角度分布天然集中，无需存储归一化常数；QJL 则用 1 个 bit 的符号位消除残余误差，两者结合可将 KV 缓存压缩至 3 比特。

影响：市场迅速做出反应。美光科技下跌 4%、西部数据下跌 4.4%、希捷下跌 5.6%、闪迪重挫 6.5%。存储芯片巨头股价全线走低，原因是该技术大幅减少了对内存容量的需求。Cloudflare CEO 评价这是"谷歌的 DeepSeek 时刻"——正如 DeepSeek 证明了用更少资源也能训练出顶尖模型，TurboQuant 则展示了用更少内存也能跑出同样质量的推理。

OpenAI 关闭 Sora、xAI 创始团队几乎全员出走

今日 AI 行业发生两件人事与战略剧变：

OpenAI 战略收缩OpenAI CEO Sam Altman 在内部备忘录中宣布，新一代 AI 模型"Spud"已完成预训练，性能表现突出，计划在未来数周内发布。同时公司决定关闭视频生成应用 Sora，将算力资源集中到核心产品线。OpenAI 正在将产品部门更名为"AGI Deployment"，并计划基于"Spud"打造整合 ChatGPT、编码助手 Codex 和浏览器 Atlas 的桌面级"超级应用"，以应对 Anthropic 在企业级 AI 代理市场的竞争。

此外，OpenAI 搁置了成人聊天机器人项目，原因是员工和投资者对潜在社会影响表示担忧，且商业回报有限。

xAI 创始团队崩塌马斯克旗下 xAI 联合创始人 Manuel Kroiss 已告知离职意向。至此，xAI 最初的 11 位联合创始人中已有 10 人离开，仅剩来自特斯拉的 Ross Nordeen 一人留守。马斯克于 2 月全员大会上承认"xAI 一开始没建对，现在要从头再来"。他已亲自接管数十名员工，并从特斯拉、SpaceX 抽调人手支援。

深度解读：两家公司代表了 AI 竞赛的两种处境：OpenAI 在资源紧张下主动收缩、聚焦核心；xAI 则在扩张野心下遭遇人才危机。SpaceX 已完成对 xAI 的合并收购，新实体估值有望达到 1.5 万亿美元。但创始团队的大规模出走，为这家试图与 OpenAI、Anthropic 三足鼎立的公司蒙上阴影。

Google Gemini 3.1 Flash Live 与 Lyria 3 Pro：语音交互与音乐生成双线突破

Gemini 3.1 Flash Live谷歌推出其迄今质量最高的音频与语音模型，专为实时对话优化。在 ComplexFuncBench Audio 基准测试中得分 90.8%，在 Audio MultiChallenge 测试中开启"思考"模式后取得 36.1% 领先成绩。该模型对语音语调的理解增强，能识别用户情绪并动态调整回应策略。Verizon、The Home Depot 等已将其引入工作流。

同时，Search Live 功能正式向全球扩展，覆盖 200 多个国家和地区，用户可用母语与 Google 搜索进行实时多模态对话。

Lyria 3 Pro谷歌 DeepMind 发布音乐生成模型 Lyria 3 Pro，最大升级是将生成时长从 30 秒延长至 3 分钟。模型具备"音乐结构意识"，能理解并生成前奏、主歌、副歌、桥段等完整歌曲架构，支持 24-bit 高保真输出。所有生成内容均嵌入 SynthID 水印以标识 AI 来源。

深度解读：谷歌在语音 AI 和音乐生成领域同时发力。TurboQuant 解决推理效率问题，Gemini 3.1 Flash Live 提升交互体验，Lyria 3 Pro 拓展创作边界，三者共同构成谷歌在端侧 AI 时代的技术矩阵。音乐生成方面，Google 虽然在 Suno、Udio 之后才推出 3 分钟版本，但其优势在于背靠 Gemini 生态的庞大分发能力，以及 Vertex AI 的企业级接入。

可灵 AI 年化收入瞄准 3 亿美元，快手 AI 商业化提速

快手 CEO 程一笑在财报电话会上透露，可灵 AI 去年第四季度贡献营收 3.4 亿元，12 月单月收入突破 2000 万美元。按目前增速，今年年化收入运行率已超过 3 亿美元。全球用户数突破 6000 万，累计生成视频超过 6 亿个。管理层立下军令状：今年可灵收入同比增长超过 100%。

深度解读：可灵 AI 的成功在于"降低门槛、快速渗透"的策略。与追求极限生成效果的路线不同，可灵选择让更多普通用户能轻松创作视频，同时加快商业化变现，确保收入增速超过成本增长。快手今年资本支出将达 260 亿元，比去年增加 110 亿元，主要用于可灵大模型的算力建设。

对比鲜明的是，OpenAI 刚刚关闭了 Sora——AI 视频领域的投入与回报平衡仍是行业难题。快手的路径是：以规模换效率，以用户增长摊薄算力成本。这场竞赛正从比拼产品能力转向比拼资本实力和持续投入能力。

Anthropic 经济报告：AI 暂未导致失业潮，真正的危机是"技能鸿沟"

Anthropic 于 3 月 24 日发布第五份经济影响报告，指出在技术撰稿人、数据录入员、软件工程师等高度依赖 AI 的职业中，失业率与低 AI 暴露度行业并无实质性差异，劳动力市场总体保持"健康"。

然而，真正的问题在于日益扩大的技能差距：早期采用者将 AI 深度整合为"思维伙伴"，用于方案迭代和复杂任务处理；大多数普通用户仍停留在浅层使用。AI 的深度应用高度集中在高收入国家和知识型员工聚集区，报告警告这可能"加剧现有的经济不平等"。

Anthropic CEO Dario Amodei 预测，未来五年内 AI 可能抹除全球 50% 的初级白领岗位，失业率或推高至 20%。

同期，美国非营利组织 AI Commons Project 启动了"AI 红利"基本收入计划，为因 AI 失业的劳动者提供每月 1000 美元、持续一年的补助，首批资助 25-50 人。

苹果"蒸馏"谷歌 Gemini 提升 Siri，中国大模型加速上车

苹果借助谷歌技术强化 Siri苹果获得了谷歌 Gemini 模型的完整访问权，并通过"模型蒸馏"技术——用强大的 AI 教小型 AI 思考——训练能在 iPhone 本地运行的轻量级模型。苹果计划在 iOS 27 中推出新版 Siri，具备更强的问答、文档理解和出行预订能力。苹果同时保留自主研发团队，走"短期借助谷歌+长期自研"的双轨策略。

千问 AI 首次上车阿里千问大模型首次搭载于一汽红旗 HS6 PHEV 的"灵犀座舱"。用户只需说一句"先去北京大学，中午找一家沿途方便又好吃的烤鸭店，下午 5 点前到 T3 航站楼"，系统即可同时理解导航、用餐、时间等多个意图，结合实时路况和商户信息生成完整行程方案。

这是业界首次实现从云端跨多个 Agent 联动再唤起车端 App 的技术路径。后续还将接入淘宝闪购、大麦、飞猪等阿里巴巴生态服务，实现车内语音下单。