Skip to content

AI 速递 2026-05-24

生成时间:2026/5/24 10:01:54(UTC: 2026-05-24T02:01:54.543Z)

DelTA:基于可验证奖励的强化学习中的判别式 Token 信用分配

Section titled “DelTA:基于可验证奖励的强化学习中的判别式 Token 信用分配”

👍 189 · arXiv

探讨了基于可验证奖励的强化学习(RLVR)中,响应级别的奖励如何精确转化为 Token 级别的概率变化。这为提升大语言模型的复杂推理能力提供了全新的判别器视角,对优化 RLHF/RLAIF 训练流水线及奖励模型设计具有重要的工程启发。

π-Bench:评估长周期工作流中的主动式个人助理 Agent

Section titled “π-Bench:评估长周期工作流中的主动式个人助理 Agent”

👍 90 · arXiv

提出了一个针对主动式个人助理 Agent 的评估基准,重点测试模型在用户初始需求不明确或存在隐藏约束时的前瞻性协助能力。这对开发能在真实复杂场景中落地的长周期 Agent 架构(如主动提问、意图补全)具有直接的指导意义。

全注意力反击:在百步训练内将全注意力转化为稀疏注意力

Section titled “全注意力反击:在百步训练内将全注意力转化为稀疏注意力”

👍 83 · arXiv

证明了全注意力 LLM 本质上具有稀疏性,且能在极少训练步数内无损转化为稀疏注意力模型,从而打破长上下文推理的二次方计算成本瓶颈。这为解决长文本推理的显存占用和延迟问题提供了一种极具性价比的模型微调与部署方案。

ACC:为长上下文训练编译 Agent 轨迹

Section titled “ACC:为长上下文训练编译 Agent 轨迹”

👍 56 · arXiv

提出通过收集 Agent 在解决问题、调用工具和接收环境观察时产生的大量多轮交互轨迹,来合成长上下文训练数据。这为低成本构建高质量长上下文推理数据集提供了一种新颖的自动化数据工程路径,有效替代了昂贵的人工长文档清洗过程。

OpenClaw v2026.5.22 重点优化了网关性能,通过复用通道目录读取和不可变插件元数据快照,避免了热点路径上的重复检查与重载。此外,引入了插件任务的延迟加载机制,显著降低了核心网关的启动开销,适合高频调用的 Agent 路由场景。 Release 详情

OpenAI Codex CLI rust-v0.134.0-alpha.3 OpenAI Codex 命令行工具发布最新的 Rust 语言 alpha 版本,持续优化终端环境下的 AI 编码体验与底层执行效率。 Release 详情

连续批处理(Continuous Batching)中的异步机制解锁 Hugging Face 深入探讨了如何在 LLM 推理的连续批处理过程中引入异步机制,以最大化 GPU 利用率并降低延迟。这是提升高并发推理服务吞吐量、优化 vLLM/TGI 等推理框架底层性能的核心技术方向。 阅读原文

vLLM 架构演进:在强化学习中坚持“正确性优先” vLLM 团队分享了从 V0 到 V1 版本的架构演进经验,特别是在支持 RLHF 等强化学习场景下的正确性保障机制。这对构建大规模模型推理与训练混合流水线的 AI 基础设施工程师具有极高的参考价值。 阅读原文

Cursor 为云端 Agent 引入专属开发环境 Cursor 更新了其云端 Agent 的基础设施,现在 Agent 可以获得类似本地开发机的环境,包括克隆仓库、安装依赖、内部工具链凭证以及构建系统的访问权限。这标志着 AI 编码助手正从“代码补全”向“端到端工程任务执行”跨越。 阅读原文

Hugging Face 推出 Open Agent Leaderboard Hugging Face 联合 IBM Research 发布了开源 Agent 排行榜,旨在提供一个标准化的基准测试平台。该榜单重点评估不同开源模型在工具调用、复杂推理和多步任务规划上的真实能力,为开发者的模型选型提供了权威参考。 阅读原文

IBM 开源 Granite 多语言 Embedding 模型:支持 32K 上下文 IBM 发布了基于 Apache 2.0 协议的 Granite Embedding Multilingual R2 模型,在 100M 参数级别下实现了顶级的检索质量,并支持高达 32K 的上下文窗口。该模型非常适合需要控制显存成本的轻量级多语言 RAG 架构。 阅读原文

Datasette Agent 发布:为数据探索构建可扩展的 AI 助手 知名开源项目 Datasette 发布了其首个 Agent 插件版本,允许开发者通过自然语言与 SQLite 数据库交互,并支持通过 Fly Sprites 运行代码和生成图表。这为垂直领域的数据分析 Agent 提供了一个优秀的开源工程实现范例。 阅读原文

SpaceX S-1 文件披露:Grok 5 正在 COLOSSUS II 集群上训练 SpaceX 的 IPO 招股书意外披露了 xAI 的最新动向,确认 Grok 5 模型目前正在全新的 COLOSSUS II 计算集群上进行训练。这揭示了头部 AI 企业在算力基础设施规模上的进一步扩张。 阅读原文

Google AI 搜索遭遇提示词注入:一个“Disregard”引发的崩溃 Google Search 的 AI 概览功能被发现存在系统级漏洞,用户仅需在搜索词中加入“disregard”(忽略)即可导致搜索界面崩溃或失效。这为面向 C 端的 AI Agent 应用在防御提示词注入(Prompt Injection)和系统鲁棒性设计方面敲响了警钟。 阅读原文