本周AI领域迎来密集发布,Google推出Gemini 3 Deep Think,在科学推理、数学证明等任务上刷新多项基准记录,标志着大模型推理能力进入新阶段。OpenAI同期发布GPT-5.3-Codex-Spark,专为实时编程场景优化,可实现毫秒级代码生成与调试。国内方面,智谱AI开源GLM-5,在编程与Agent能力上达到开源模型SOTA水平;MiniMax发布M2.5模型,性能对标Cla...
技术突破与模型发布智谱GLM-5大模型炸场:编程、智能体能力取得开源SOTA表现智谱发布新一代旗舰模型GLM-5,在编程和智能体能力上取得开源SOTA(State-of-the-Art)表现。核心要点包括:编程能力逼近Claude Opus 4.5,特别擅长复杂系统工程与长程Agent任务采用与DeepSeek-V3相同的稀疏注意力架构(DSA)参数量达745B,是前代GLM-4.7的...
Claude Opus 4.6发布:100万token上下文与零日漏洞挖掘能力Anthropic于2月5日发布新一代旗舰模型Claude Opus 4.6,这是其Opus系列首次支持100万token超大上下文窗口。在MRCR v2长文本检索测试中得分达76%,远超前代的18.5%。编程与Agent能力大幅提升:在Terminal-Bench 2.0评测中刷新行业纪录,能自主规划、审查代码并发...