跳转至

[LLM Agents F25] Autonomous Agents — Peter Stone

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Peter Stone 授课内容整理
来源 Berkeley RDI
日期 2026-04-02

[LLM Agents F25] Autonomous Agents — Peter Stone

课程定位与主线

本讲由 UT Austin 的 Peter Stone 主讲,题目是 Autonomous Agents。它并不是在讲一套新的 LLM 框架,而是在把 “Agent” 这个概念重新放回 AI 长期研究脉络:embodiment、interaction、learning

Stone 在开场明确表示,本讲要覆盖的是一个 broad view,而不是只看 2025 年流行的 “agentic LLM”。因此课程的组织方式也很典型:先给概念和研究版图,再快速扫过实验线索,最后对两个代表性案例做 deeper dive(Slack 与 GT Sophy)。

本讲的核心价值

这节课最关键的贡献不是新算法,而是把 Agent 研究中的三个长期主题重新拧到一起:

  • Interaction:单体与多体如何在动态环境中协作与对抗;
  • Learning:从 RL 到 human feedback,如何在样本约束下学习可执行策略;
  • Embodiment:策略是否真正能落在 physical world,而不是只在 text benchmark 上成立。

为什么这讲对 LLM Agent 仍然重要

尽管讲者大量举的是 robotics 与 autonomous driving 的例子,但这些问题与 LLM Agent 的工程现实高度同构:状态观测不完美、动作后果延迟显现、多人系统中的策略耦合、以及 “高分但不可用” 的评测失真。

本章小结

这是一节 “概念澄清 + 案例复盘” 的课。它要求我们先把 Agent 的定义站稳,再去谈任何看似新的 Agentic 产品形态。

什么是 Autonomous Agent:从 buzzword 回到定义

Stone 给出的定义非常朴素:agent 是通过 sensors 和 actuators 与环境持续交互的智能系统。这一定义故意避免把 Agent 等同于聊天窗口里的 API 调用器,也避免把 Agent 仅仅理解为多工具链路。

连续闭环是关键

在这一讲里,Agent 的最小闭环是:

\[ \text{observe} \rightarrow \text{reason / decide} \rightarrow \text{act} \rightarrow \text{new observation} \]

重点在 “continuous loop”,而不是 request-response。

按照这一定义,chatbot 在某些设置下可以是 Agent,但很多典型 chatbot 仍偏 “被动响应”。Autonomous Agent 更强调主动持续行为,不需要每一步都等用户明确触发。

Robot 与 Agent 的关系

Stone 用了一个非常实用的区分:

  • Robot 可以看作是 physical agent
  • 所有 robot 都是 agent;
  • 但并非所有 agent 都必须具备 physical embodiment。

这让我们能同时讨论 software agent、game-playing agent、以及 real-world embodied agent。

常见误解

把 Agent 缩减为 “LLM + tool call” 会直接丢掉两类关键问题:

  • 真实动作约束(安全、延迟、失败恢复);
  • 多体互动约束(协作、竞争、信用分配)。

这两类问题恰好决定系统能否从 demo 走向部署。

本章小结

Agent 的定义不是为了学术形式化,而是决定你后续系统边界怎么画。定义太窄,后面的 benchmark 和工程结论都会失真。

完整智能体栈:Perception, Cognition, Action

Stone 在课里把完整智能体分成三个层次:Perception、Cognition、Action。这个拆法在机器人和 LLM 系统里都非常有用,因为它清晰地分离了 “看见”、“想清楚”、“做出来” 三个失败源。

模块 在课程中的含义 在 LLM Agent 中的对应
Perception 从 raw sensors 到可用状态表示 context parsing, tool result interpretation
Cognition 规划、推理、队友/对手建模、决策 decomposition, planning, policy selection
Action 从决策到可执行控制信号 API call, code execution, UI action
Perception-Cognition-Action 对应关系

为什么要强制分层

如果把系统全部扔进 end-to-end black box,会导致以下后果:

  • 出错时无法定位是感知问题还是决策问题;
  • 奖励设计与评测指标很难有针对性;
  • 安全约束无法插在合适位置(例如动作前的 rule check)。

课程里还强调了 Cognition 层不只是 planning。它也包括 teammate/opponent modeling、coordination、tactical adaptation。这一点对多 Agent 任务尤其重要,因为策略质量不再只取决于自身状态,还取决于他人的策略分布。

智能体工程的一个实践准则

在复杂任务里,先保证 Perception 和 Action 管道稳,再提高 Cognition 复杂度,通常比 “一开始就上最复杂 planner” 更容易收敛。

本章小结

Perception-Cognition-Action 不是过时框架,而是今天构建可调试 Agent 的最低工程骨架。

研究问题与应用版图:Stone Lab 的统一问题

Stone 给出的长期研究问题是: “To what degree can autonomous intelligent agents learn in the presence of teammates and/or adversaries in real-time dynamic domains?”

这个问题从 1998 年延续至今,说明 “Agent” 在学术上并不是新词,而是不断被新计算范式激活的老问题。

统一问题的四个关键词

  • learn:不是手工脚本,而是策略学习;
  • teammates/adversaries:多体互动不是附加项,而是主问题;
  • real-time:控制频率和延迟约束是硬条件;
  • dynamic domains:状态分布持续变化,离线最优策略会失效。

围绕这一问题,Stone 的例子覆盖 robotics、robot soccer、autonomous driving、Gran Turismo、human feedback learning、ad hoc teamwork、ethical dataset construction。看上去分散,但都在回答同一个东西:能否在复杂互动环境中持续学习并保持可用行为。

研究叙事中的陷阱

如果只看单一 benchmark 提升,容易误判为能力突破;但在动态多体环境中,很多 “提分” 只是对静态分布的过拟合。

本章小结

统一问题让我们避免被技术热点牵着走。它同时约束了算法目标、系统设计和评测方式。

案例簇 A:Robot Soccer 与服务机器人

RoboCup 作为多体实体智能试验场

Stone 用 RoboCup 展示了多 Agent embodied intelligence 的典型难点:感知噪声、动作延迟、策略协同、对手建模、实时决策。机器人需要 “sensing, deciding, acting” 的完整闭环,且不能靠远程人工遥控。

RoboCup 场景:多机器人在真实比赛中自主协同

来源:视频时间区间:00:08:12–00:10:20。

为什么 RoboCup 仍有研究价值

它把多个 AI 子问题耦合在一起:

  • 局部感知与全局态势理解;
  • 实时控制与长期战术平衡;
  • 队内协作与对手对抗;
  • 规则约束下的高强度策略竞争。

课程里提到 RoboCup 的长期目标:2050 年 humanoid team 击败人类世界杯冠军队。这个目标是否按时达成并不重要,重要的是它强迫研究者把 “可发表” 转化为 “可比赛”,从而持续暴露系统短板。

服务机器人:从竞赛到家庭任务

另一条线是 RoboCup@Home 场景:做 host、摆台、收纳 groceries、早餐服务等。这些任务难点在于开放环境和长链任务分解,不是单步抓取精度。

服务机器人任务对 Agent 的要求

与标准 manipulation benchmark 不同,服务任务需要:

  • 任务层语义理解(不是只有几何控制);
  • 跨步骤记忆与状态追踪;
  • 出错后的恢复策略;
  • 与人类交互中的社会可接受行为。

本章小结

RoboCup 与服务机器人共同说明:当 Agent 进入实体世界,“策略质量” 必须同时在感知、控制、协同和规则约束中成立。

案例簇 B:Autonomous Driving 与交叉口协调

Stone 复盘了自动驾驶研究中的一个代表性问题:当道路系统主体都变成 autonomous agent,交通规则会不会从静态信号灯转向协商式 reservation system。

Reservation-based intersection 的 Agent 含义

每辆车都可视为 agent,进入路口前向调度系统请求时空轨迹槽位(reservation):

  • 获批后按保序轨迹通过;
  • 未获批则等待;
  • 目标是减少全局等待和冲突概率。

这个想法对今天 LLM Agent 也有直接启发:在共享资源系统中,“协作协议” 往往比单 Agent 局部最优更重要。

混合交通是难点

纯 autonomous agent 环境容易优化;human + autonomous 混合环境会引入策略不确定性和行为非平稳性,这是部署中更难的阶段。

本章小结

自动驾驶案例强调了一个事实:Agent intelligence 不是离散任务成功率,而是协议化协同能力。

Human-in-the-loop 学习:从 TAMER 到 RLHF

Stone 特别回顾了 TAMER 系统(Teaching an Agent Manually via Evaluative Reinforcement)及其后续工作。它在 Tetris 上展示了 “显式人类评价信号” 如何显著加速早期学习。

TAMER 的经验

相对纯随机探索:

  • 学习早期收敛更快;
  • 人类反馈能快速压制明显坏动作;
  • 但最终上限可能受限于反馈噪声与覆盖度。

Stone 也指出后续组合路线:TAMER + RL。先用人类信号快速起步,再用自主 RL 继续提升上限。这几乎就是今天很多 LLM 后训练流程的结构映射:human preference shaping + large-scale policy optimization

显式反馈与隐式反馈

课程里还讨论了 implicit feedback(如乘客表情、紧张动作):

  • 显式反馈:“good move / bad move”,高精度但高成本;
  • 隐式反馈:无需额外标注流程,信号自然存在但噪声高。

这对应今天产品中 online telemetry 与 explicit rating 的组合。

只靠 RLHF 不等于解决长期策略问题

RLHF 能优化局部输出偏好,但在长链动作任务里,仍需配合环境反馈、过程奖励与安全约束,才能得到稳定 Agent 行为。

本章小结

TAMER 的历史价值在于证明 “人类反馈是可训练信号”。但完整 Agent 学习需要把人类反馈、环境反馈和自主探索放进同一系统。

Ad Hoc Teamwork:和陌生队友临场组队

Stone 把 ad hoc teamwork 作为 interaction 方向的代表问题:目标是让 agent 在无法预先控制队友策略的情况下,仍能快速形成高质量协作。

问题定义

Ad hoc teamwork 的关键约束是:

  • 队友模型不可预训练到固定分布;
  • 协同策略必须在线适配;
  • 任务成功依赖 “对队友行为的实时解释”。

这和今天多 Agent coding、multi-role planner、企业流程自动化高度一致。你经常要和 “未知策略的外部参与者” 共事,比如新接入 tool、异构模型、甚至人类操作员。

对 LLM Multi-Agent 的直接启发

如果系统只在固定队友配置下验证,部署后经常会遇到协同退化。更稳健的方法是把 “队友分布扰动” 作为训练和评测的一部分。

本章小结

Ad hoc teamwork 把多 Agent 问题从 “是否能协同” 推进到 “是否能和未知协同体稳定协同”,这是落地系统必须面对的版本。

伦理与公平数据:从研究成果到数据治理

很多 “Autonomous Agent” 讨论只聚焦策略最优,但 Stone 在中段专门提到 ethical AI initiative 和 Phoebe 数据集,说明他将伦理治理视为 Agent 系统的一部分,而非部署后补丁。

为什么伦理问题在 Agent 里更尖锐

当系统从 “回答问题” 走向 “持续决策”,伦理风险会被放大。Agent 有状态、可记忆、可长期行动,它造成的偏差不是单条输出,而是策略级行为偏置。

课程中的关键观点

Stone 明确强调了两件事:第一,数据集不只看规模,还要看构建过程是否合规;第二,公平评测应面向全球多样人群,而不是局限于单地区、单语种分布。
“first globally diverse consensually collected fairness evaluation dataset”(约 00:17:07)。

Phoebe 的方法学意义

课程提到 Phoebe(Nature 2025)时,重点并不在 “10,000 图像” 这个数量,而在以下流程要点:

  • 先识别数据构建过程中的伦理与法律问题,再定采集协议;
  • 强调 consensually collected,避免 “抓取即合规” 的默认假设;
  • 用数据集去评测模型偏见,而不是只做数据陈列。

把 fairness 变成系统接口,而不是论文附录

这部分对 LLM Agent 尤其重要。很多团队在上线前只做一次性安全评审,忽略了上线后策略漂移。Stone 这段内容给出的启发是:应把公平评测做成持续流程与平台能力

治理环节 课程线索 工程落地点
数据采集 consensually collected 用户授权记录、数据来源台账
标注与描述 ethical/legal issues first 敏感属性审查、标注规范审计
评测目标 evaluate bias in AI models 分人群分任务指标看板
发布与复现 establish industry standard 版本化评测基线与复现实验脚本
从课程观点到公平治理流水线

常见短板:把公平只当成离线分数

如果公平只在离线 benchmark 上看一次,部署后很快会失效。Agent 与真实用户交互后,输入分布和行为路径都会变。需要持续监测与回归测试,而不是 “一次过检”。

本章小结

Stone 讨论 Phoebe 的意义在于给出一个 “可执行” 的伦理路线:先治理流程,再谈模型分数;先建立标准,再扩展能力。

Deep Dive I:Slack — 低保真模拟驱动的真实机器人 RL

问题设定

Slack 论文针对的是一个现实痛点:真实机器人 RL 成本高、试错慢、风险大。高保真模拟器难构建,而纯真实世界随机探索几乎不可接受。

真实机器人 RL 的三重约束

  • Sample efficiency:电池、硬件寿命和实验时间都有限;
  • Safety:随机动作可能造成碰撞与损坏;
  • Task diversity:复杂任务需要 base + arm + camera 联动。

方法主干

Slack 的主思路不是先学完整策略,而是先在低保真模拟器里学一个 structured latent action space,再把这个空间用于真实世界任务学习。

方法拆解

  1. 用 unsupervised RL 在低保真模拟器中发现 task-agnostic skills;
  2. 通过 disentanglement 学到更结构化的 latent action factor;
  3. 加入 hand-coded safety reward 约束危险动作;
  4. 在真实环境中用 factorized SAC 在 latent 空间做高效策略学习。

这条路线的工程含义是:把最贵的探索压缩到一个更可控、更低维的动作空间里,从而把真实世界在线学习时间降到可用区间。

关键帧证据与结果

Slack 场景:移动底盘 + 机械臂 + 视觉联动任务

来源:视频时间区间:00:31:00–00:33:30。

在任务奖励驱动下,策略从随机行为收敛到稳定执行

来源:视频时间区间:00:41:30–00:43:20。

课程报告的结果重点有两条:一是多任务(擦白板、扫物入盘、避障等)在 1 小时内可达高成功率;二是安全违规更少。这两条恰好对应真实部署最关心的效率与风险。

Slack 的方法论启发

它不是在说 “模拟器足够真实就能一键迁移”,而是在说 “模拟器可以先学行为结构,再把结构迁移到真实世界做任务学习”。这是一个更现实、更稳健的 sim-to-real middle path。

训练流程拆解:从随机探索到可用技能

字幕里有一段很关键:“if you just use standard state-of-the-art RL, you're going to just flail”(约 00:32:21--00:32:27)。
这句话解释了 Slack 为什么不直接在全动作空间做端到端 RL。对一个移动底盘 + 机械臂系统,随机动作几乎必然导致无效探索和高风险行为。

阶段 目标 主要手段
阶段 A 获得可迁移行为结构 低保真模拟中无监督技能发现
阶段 B 降低动作维度与耦合复杂度 latent action disentanglement
阶段 C 控制真实探索风险 hand-coded safety reward + action constraints
阶段 D 在真实任务中快速收敛 factorized SAC 在 latent 空间优化
Slack 训练流水线(课程内容重构)

为什么 “低保真” 也能有用

课程给出的核心并不是高保真替代真实世界,而是结构迁移:

  • 迁移的是动作组织方式,而非逐像素物理精确性;
  • 低保真阶段先学 “怎么动”,真实阶段再学 “为任务而动”;
  • 这样做把最昂贵的随机探索从真实机器人上转移出去。

落地风险:latent space 也会失配

如果 latent action 空间覆盖不到真实任务关键操作,后续真实学习会出现 “看似稳定但达不到目标”。因此需要在真实阶段保留重构或扩容机制,而不是把 latent space 视为固定真理。

本章小结

Slack 给了 embodied agent 一个可操作范式:低保真模拟用于学结构,真实世界用于学任务,从而兼顾效率与安全。

Deep Dive II:GT Sophy — 实时竞争场景下的分布式 RL 系统

为什么 GT Sophy 有代表性

Stone 将 GT Sophy 定位为 “实时连续控制 + 多体博弈 + 人类规则约束” 的综合 benchmark。它比很多 turn-based 游戏更接近真实世界策略系统,因为动作频率高、状态连续、战术与礼仪同时存在。

GT Sophy 在多人竞速中的防守与超车策略

来源:视频时间区间:00:54:00–00:56:30。

任务难点

  • Real-time control:10Hz 动作更新,容错窗口极窄;
  • Tactics:不仅要快,还要会防守线和 slipstream/crossover;
  • Etiquette:不能靠违规碰撞取胜,需通过 steward 规则。

系统架构与算法点

GT Sophy 的成功并非单一算法突破,而是 “计算架构 + 数据策划 + RL 目标” 的组合。课程里强调了 actor-replay-learner 式大规模 rollout,以及 QRSAC(基于 SAC 的分布式价值估计改进)。

可迁移的工程经验

  • Distributional value estimation:学回报分布而非仅均值;
  • Replay mixture engineering:经验池里不同场景数据配比要精心设计;
  • Curriculum-like traffic scenarios:通过 1v1、1v3、多车网格等情形促成战术涌现。

课程中被反复强调的 “数据配比工程”

Stone 在 00:53--00:55 段反复解释,系统并非只靠随机 rollout。团队构造了多种起跑与追车场景:

  • 单车跟车、1v2、1v3、1v7 的交通密度梯度;
  • 直道跟车学习 slipstream pass;
  • 弯道起步学习 crossover 与 double-crossover;
  • 特定赛道难点片段的强化采样。

Replay buffer 的核心不是 “大”,而是 “对”

课程中提到,Nature 论文阶段很多配比是人工精调,后续才逐步自动化。这说明在复杂策略学习里,采样分布设计本身就是算法的一部分,而不是数据工程附属工作。

经验来源 主要学习目标 风险
空旷赛道高速圈 速度与线路效率 忽略交互策略,比赛不稳
跟车直道片段 slipstream timing 过度依赖单一超车模板
弯道拥挤片段 defensive/crossover 决策 碰撞风险上升
发车网格片段 多车起步博弈 学到激进行为倾向
GT Sophy 经验池构成与学习作用

Stone 明确提到,初版系统并非一上来就赢。通过复盘失败、调整奖励和数据配比,才在后续 rematch 中稳定超过顶级人类车手。这说明高水平 Agent 的迭代方式是 “系统级闭环调参”,而非单步神奇优化。

速度最优不等于比赛最优

如果只优化 lap time,策略会忽略规则与交互;如果过度惩罚碰撞,又会变得过于 timid。真正可用策略必须在速度、战术和规则之间平衡。

Etiquette 约束:从 “能赢” 到 “应当这样赢”

在 00:55:39--00:56:18 附近,Stone 讨论了比赛礼仪(etiquette):避免可避免碰撞、不能恶意挤出赛道、但也不能保守到不会竞争。
这部分非常像真实世界 Agent 的 “policy + governance” 联合优化。

规则约束设计原则

  • 仅靠结果奖励会催生漏洞利用(rule exploitation);
  • 仅靠硬惩罚会让策略过度保守(timid policy);
  • 需要把行为规则、对抗目标与长期胜率放在同一目标函数里联合权衡。

部署层面的误区

把 etiquette 放到后处理(例如只在推理后做规则过滤)通常不够。课程案例显示,更稳妥的方法是训练期就把规则信号注入策略学习,减少 “先学坏再纠正” 的代价。

部署反馈

GT Sophy 后续被纳入游戏产品线,说明其价值不仅是论文成绩,还包括玩家体验维度:可调难度、可解释行为风格、可持续内容更新。这与今天 LLM Agent 需要 “可产品化” 的诉求一致。

本章小结

GT Sophy 展示了竞争型 Agent 的真实难点:你需要一个完整训练系统去学策略分布、场景配比、战术行为和规则边界,而不是只追一个分数。

从课程到工程:Agent 系统实施清单

前面各案例看似分散,但可以收敛成一套实施路径。下面给出一份可直接用于项目 kickoff 的 checklist,帮助团队把 “概念正确” 落到 “系统可交付”。

阶段化建设路线

阶段 必做事项 验收信号
定义阶段 明确 observe/decide/act 闭环与环境边界 关键状态与动作可枚举
基线阶段 建立可运行的分层管道(P-C-A) 能定位失败在何层出现
训练阶段 设计场景分布与反馈体系(human + env) 策略改进曲线稳定上升
评测阶段 引入多体互动与异常扰动评测 非 IID 情况下性能不过度塌缩
治理阶段 纳入安全/公平/合规约束与审计日志 违规率可量化并可追踪回放
Autonomous Agent 项目实施五阶段

常见失败模式与修复策略

失败模式 A:只做离线 benchmark

症状:离线分数高,但线上多步任务失败率高。
修复:补充交互式评测,强制覆盖恢复路径与协同路径。

失败模式 B:忽视队友/对手分布漂移

症状:固定环境里表现稳定,换协作方后性能骤降。
修复:把 ad hoc teamwork 思想引入训练,加入未知队友策略扰动。

失败模式 C:安全策略完全后置

症状:模型本体仍产生危险决策,外层拦截频繁触发。
修复:把安全与规则奖励前置到训练期,降低策略与守卫冲突。

一句话原则

先保证系统可诊断,再追求策略最优;先保证行为可治理,再追求局部指标极致。

证据索引:课程片段与结论对照

时间戳 课程片段 提炼结论
00:08–00:10 RoboCup 多机器人自主对抗 多体协作必须在实时闭环下验证
00:12–00:13 reservation-based intersection 协议化协调优于局部最优
00:21–00:23 TAMER 与 implicit feedback 人类反馈可作为可训练信号
00:31–00:33 Slack 任务设定与难点 低保真结构学习可降真实成本
00:53–00:56 GT Sophy 策略涌现与 etiquette 数据配比与规则设计决定上限
关键视频证据与笔记结论映射

本章小结

把 Stone 的课程真正落地,需要把算法、系统、评测、治理四条线并行推进。任意一条缺失,都会导致 “可演示但不可部署”。

对 LLM Agent 的系统启发

把 Stone 这节课映射回 2025 年 LLM Agent,至少有四个直接结论。

启发 1:Agent 评测必须包含 interaction outcome

仅看单轮回答质量会误导。应评估:

  • 长链任务完成率;
  • 与人/工具/其他 agent 的协同稳定性;
  • 出错恢复路径是否可控。

启发 2:分层动作空间可以显著降本

Slack 的 latent action 思想在软件 Agent 里也成立:不要总是直接生成低层动作序列,可以先学高层 action primitives,再做下游任务优化。

启发 3:数据策划和 replay 配比决定战术能力

GT Sophy 证明了 “看到什么分布,就学到什么策略”。在 coding/ops agent 里,同样需要精心构造困难场景、对抗场景和边界场景的训练比例。

启发 4:安全约束应显式进入训练目标

无论是机器人避障还是竞速 etiquette,本质都是 “把合规从后处理挪到训练过程”。LLM Agent 也应把权限、审计、风险动作约束前置。

本章小结

这节课不是在和 LLM Agent 竞争叙事,而是在提供一套更稳的工程母框架:定义闭环、分层建模、场景化训练、系统级评测。

总结与延伸

核心内容总表

主题 课程结论 对 LLM Agent 启发
Agent 定义 连续感知-决策-行动闭环 评测要覆盖多步行为结果
智能体架构 Perception-Cognition-Action 分层 系统可调试性优先于端到端神化
多体互动 协作与对抗是核心难题 多 Agent 场景需建模队友分布变化
Human feedback TAMER/RLHF 可加速早期学习 人类偏好与环境反馈需联合优化
Embodied RL Slack 通过结构化动作空间降本提效 高层 action primitive 可迁移到软件 Agent
竞争型 RL GT Sophy 依赖系统工程和数据策划 replay/curriculum 设计是策略质量关键
Autonomous Agents 课程要点浓缩

进一步思考

  1. 当 Agent 要在真实业务里长期运行时,哪些失败模式必须在训练阶段提前暴露?
  2. 如何把 “ad hoc teamwork” 形式化到今天的 multi-agent coding pipeline?
  3. 在 LLM Agent 里,哪些能力应留在系统外层,哪些应内化到策略模型?

拓展阅读

  • Peter Stone 个人主页与公开讲座(含 Autonomous Agents、GT Sophy、robot learning 系列)
  • TAMER / Deep TAMER / human-in-the-loop reinforcement learning 相关论文
  • Ad Hoc Teamwork challenge paper(AAAI 2010)与后续多智能体协作研究
  • Slack(Sim-to-real latent action learning)与 factorized RL 相关论文
  • Outracing champion Gran Turismo drivers with deep RL(Nature 2022)
  • Phoebe dataset(human-centric fairness benchmark,Nature 2025)