AI 速递 2026-05-22

生成时间：2026/5/22 10:05:16（UTC: 2026-05-22T02:05:16.678Z）

论文精选

Video2GUI：为通用 GUI Agent 预训练合成大规模交互轨迹

👍 102 · arXiv

本文提出了一种从视频中合成大规模 GUI 交互轨迹的方法，以解决 GUI Agent 预训练数据稀缺和人工标注成本高昂的问题。这对开发跨域、通用的计算机控制 Agent 具有重要的工程启发，指明了利用无监督视频数据扩展 Agent 训练集的可行路径。

IndusAgent：利用 Agent 工具增强开放词汇工业异常检测

👍 43 · arXiv

该研究探讨了多模态大语言模型在工业异常检测中的应用，并通过引入 Agent 工具调用机制来解决领域对齐和结构性幻觉问题。这为垂直领域（如工业制造）中“MLLM + 外部工具”的 Agent 架构落地提供了极具参考价值的实践案例。

极简 RLVR 训练：通过秩为 1 的轨迹外推大语言模型

👍 42 · arXiv

研究发现，在使用可验证奖励的强化学习（RLVR）提升 LLM 推理能力时，其权重轨迹呈现极低的秩且高度可预测。这一发现有助于工程师在微调推理模型时大幅降低计算成本，并优化强化学习的训练策略。

OScaR：大语言模型及更广泛领域中极限 KV Cache 量化的奥卡姆剃刀

👍 37 · arXiv

针对长上下文推理和多模态任务中 KV Cache 带来的内存瓶颈，本文重新审视并提出了一种极限压缩下的量化策略。这对于优化大模型推理引擎的显存占用、提升高并发 Agent 系统的吞吐量具有直接的工程指导意义。

版本更新

CrewAI 1.14.6a1：引入了全新的 Skills Repository（技能库），包含注册表、缓存、CLI 和 SDK 集成；同时增强了 RuntimeState 跨实体字段的序列化稳定性。 Release 链接
OpenClaw v2026.5.20：移除了旧的技能白名单兼容路径，强制通过 read tool 加载技能文件以提升安全性；Discord 语音会话现支持多用户切换和 DAVE 恢复机制。 Release 链接
LangChain langchain-tests==1.1.9：标准测试套件更新，允许在流式断言中包含额外的内容块，并修复了底层的安全依赖问题。 Release 链接

开发者工具

Goose v1.35.0：新增了可扩展的工具执行前后 Hook 系统（支持拒绝执行），并引入了 /goal 命令让 Agent 在完成任务前进行自我评估，同时增加了本地代码审查命令。 Release 链接
OpenAI Codex CLI rust-v0.133.0：默认启用目标（Goals）功能并支持跨轮次进度追踪；remote-control 改进为前台命令运行模式；权限配置文件新增了继承和运行时刷新机制。 Release 链接

行业动态

Agent.email：专为 AI Agent 设计的邮箱注册与验证流 YC 创业公司 AgentMail 推出了一项专为 AI Agent 设计的注册流程实验，允许 Agent 通过 curl 注册并通过人类获取 OTP。这标志着针对“机器用户”的基础设施正在逐步成型，对 Agent 身份认证和自动化工作流设计有启发。
Cursor 为云端 Agent 引入完整开发环境 Cursor 宣布为其云端 Agent 提供类似于本地开发机的环境，包括克隆仓库、安装依赖、内部工具链凭证和构建系统访问权限。这解决了 Agent 从编写代码到端到端执行任务的基础设施瓶颈。
为 AI 编码循环引入形式化验证网关 文章探讨了在 AI Agent 自动编写代码的循环中，使用结构化背压（Structural Backpressure）和形式化验证比单纯提升 Agent 智力更有效。这为构建可靠的 AI 软件工程师（SWE Agent）架构提供了重要的工程视角。
Hugging Face 联合 IBM 发布开源 Agent 排行榜 Hugging Face 官方宣布推出 Open Agent Leaderboard，旨在为开源 Agent 模型提供标准化的评估基准。这对于开发者进行 Agent 模型选型和工具调用能力对比具有直接的指导意义。
在连续批处理（Continuous Batching）中解锁异步机制 Hugging Face 深入探讨了如何在大模型推理引擎的连续批处理过程中引入异步机制，以进一步提升吞吐量并降低延迟。这是底层 AI 基础设施工程师必读的性能优化指南。
使用 AI Agent 测试分布式系统 该开源项目展示了如何利用 AI Agent 来自动化测试复杂的分布式系统。这为 QA 环节的 AI 落地提供了新思路，展示了 Agent 在复杂环境交互和状态验证中的潜力。
Google 正式发布 Gemini 3.5 Flash Google 在 I/O 大会上直接将 Gemini 3.5 Flash 推向 GA（通用可用）阶段，并计划将其作为生态系统的核心基础模型。对于依赖 Google API 构建 Agent 的开发者，需关注其性能与成本的变化。