Skip to content

AI 速递 2026-05-23

生成时间:2026/5/23 09:54:32(UTC: 2026-05-23T01:54:32.688Z)

数据来源:Trendshift · GitHub Trending

今日原始数据中暂无 Trending Repos 数据。

DelTA:基于可验证奖励强化学习的判别式 Token 信用分配

Section titled “DelTA:基于可验证奖励强化学习的判别式 Token 信用分配”

👍 124 · arXiv

本文探讨了如何将响应级别的奖励转化为 Token 级别的概率变化,为基于可验证奖励的强化学习(RLVR)提供了判别器视角的更新机制。这对于提升大语言模型的逻辑推理能力具有重要意义,能帮助开发者更高效地优化模型在复杂推理任务中的表现。

π-Bench:在长周期工作流中评估主动式个人助理 Agent

Section titled “π-Bench:在长周期工作流中评估主动式个人助理 Agent”

👍 80 · arXiv

该基准测试专门用于评估 Agent 在面对用户模糊请求时的主动协助能力,填补了现有评测体系在长周期、多步骤任务中的空白。对于致力于开发下一代主动式 AI 助理的工程师而言,该测试集为优化 Agent 的意图推断和主动交互策略提供了重要的参考标准。

全注意力机制的反击:百步训练内将全注意力转化为稀疏注意力

Section titled “全注意力机制的反击:百步训练内将全注意力转化为稀疏注意力”

👍 74 · arXiv

研究表明全注意力 LLM 本质上具备稀疏性,只需极少的训练步数即可无缝转换为高效的稀疏注意力模型,从而打破了效率、训练成本与准确率之间的权衡困境。这一发现为长上下文推理的工程落地提供了极具价值的优化路径,大幅降低了长文本处理的计算开销。

ACC:编译 Agent 轨迹用于长上下文训练

Section titled “ACC:编译 Agent 轨迹用于长上下文训练”

👍 52 · arXiv

本文提出利用 Agent 在解决问题、调用工具和接收环境观察时产生的大量轨迹数据,来替代昂贵的长文档收集或启发式上下文合成,以此训练 LLM 的长上下文推理能力。这种方法为 Agent 框架开发者提供了一种低成本且高效的数据飞轮构建思路,有助于提升模型在多轮工具调用中的表现。

  • OpenClaw v2026.5.20:重构了执行权限审批机制,现在技能文件必须通过 read 工具加载且仅自动允许真实的技能可执行文件。此外,Discord 语音会话功能得到增强,支持多用户切换和频道权限检查。 Release 链接

  • LangChain langchain-tests==1.1.9:更新了标准测试库,允许在流式断言中包含额外的内块。同时修复了底层依赖 idna 的安全问题并强化了 CI 基础设施中的版本绑定机制。 Release 链接

  • CrewAI 1.14.6a1:新增了技能仓库(Skills Repository)功能,集成了注册表、缓存、CLI 和 SDK 支持。同时增强了 RuntimeState 在实体字段间的序列化稳定性,并为企业版提供了分类的发布说明生成功能。 Release 链接

  • Goose v1.35.0:引入了用于工具执行前后扩展的 Hooks 系统,并支持 PreToolUse 拒绝钩子。新增 /goal 命令供 Agent 在完成任务前进行自我评估,以及 goose review 本地代码审查命令和 TUI 中的 Diff 查看器。 Release 链接

  • OpenAI Codex CLI rust-v0.134.0-alpha.3:发布了最新的 Rust 版本 CLI Alpha 测试版,持续优化底层代码生成与终端交互体验。 Release 链接

Models.dev:开源的 AI 模型规格与定价数据库 该项目提供了一个开源的数据库,汇总了各类 AI 模型的详细规格、能力指标及 API 定价。这为开发者在进行多模型架构设计和成本核算时提供了极大的便利。 阅读原文

llms.txt:面向大语言模型的网页抓取协议 文章探讨了 llms.txt 协议的广泛应用,该协议类似于 robots.txt,专门用于指导 LLM 和 Agent 如何高效、合规地读取网站内容。这对于开发基于 Web 的 RAG 系统和爬虫 Agent 具有直接的工程指导意义。 阅读原文

Hugging Face 发布开源 Agent 排行榜 (Open Agent Leaderboard) Hugging Face 联合 IBM Research 推出了专门针对开源 Agent 的评测榜单,旨在标准化 Agent 能力的评估体系。这为开发者在技术选型时对比不同 Agent 框架和模型的实际表现提供了权威参考。 阅读原文

vLLM 从 V0 到 V1:强化学习中的正确性优先原则 ServiceNow AI 团队分享了 vLLM 架构演进中的深度技术分析,重点讨论了在强化学习训练和推理中如何保证系统的正确性。文章对从事大规模 LLM 推理引擎优化的工程师极具启发价值。 阅读原文

Datasette Agent 发布:为数据探索引入可扩展 AI 助手 知名开发者 Simon Willison 发布了 Datasette Agent 的首个版本,这是一个高度可扩展的 AI 助手插件。它展示了如何将 LLM 工具调用与结构化数据库查询深度结合,为数据分析 Agent 的开发提供了优秀的开源范例。 阅读原文

Cursor 推出云端 Agent 开发环境 Cursor IDE 更新了其云端 Agent 的运行机制,现在 Agent 可以获得类似于本地笔记本电脑的完整开发环境,包括克隆仓库、安装依赖和访问构建系统。这一更新标志着 AI 编码助手正向全自动化的软件工程 Agent 迈进。 阅读原文

NVIDIA 探讨基于扩散语言模型的光速文本生成 NVIDIA 团队在 Hugging Face 博客上分享了 Nemotron-Labs 扩散语言模型的技术细节,探讨了如何突破自回归模型的瓶颈,实现极速的文本生成。这可能对未来的 LLM 推理架构演进产生深远影响。 阅读原文