用 Karpathy 的 AutoResearch 方法将 Claude Skills 效果提升 10 倍

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
日期	2026-04-02

问题：你的 Skill 可能有 30% 的时间在悄悄失效

你的 Claude skill 可能有 30% 的时间输出质量不达标，而你根本没有意识到。

作者开篇就抛出了一个尖锐的判断：大多数人搭建了 AI skill 后就"用着"，从不系统性地检验输出质量。他本人也经历过这个阶段——直到他搭了一套方法，能在 autopilot 模式下自动迭代任何 skill。

核心数据

作者的落地页文案 skill 质量检查通过率从 56% 提升到 92%，全程零手动干预。Agent 自行不断测试和收紧 prompt，完全自主运行。

这套方法的思路是：你启动它，agent 就反复测试和改进 skill，不需要你动手。下面将完整拆解这套方法以及如何在你自己的 skill 上运行它。

本章小结

Skill 的失效往往是隐蔽的，大多数人缺乏系统化的评估手段。AutoResearch 方法提供了一种全自动的质量迭代方案，能在无人干预的情况下持续提升 skill 的输出质量。

AutoResearch 方法的起源

Karpathy 的原始方法

Andrej Karpathy（OpenAI 联合创始人、特斯拉前 AI 负责人、“vibe coding”一词的发明者）发布了一套叫做 autoresearch 的方法。

AutoResearch 核心思路

不让你手动改进，而是让 AI agent 在循环里替你做：

尝试一个小改动
检查结果是否变好
变好了就留下，没变好就扔掉
然后再来一次，再来一次……

Karpathy 最初把这套方法用在机器学习代码上。但关键洞察在于：这套方法适用于任何你能衡量并改进的东西——包括你在 Claude 里搭建的 skills。

作者的改造

作者将 Karpathy 的方法改造成了一个可以在 Claude Code 和 Cowork 里运行的 skill。使用方式极其简单：

“run autoresearch on my landing page skill”

说一句话，agent 就会接管整个优化过程。

本章小结

AutoResearch 源自 Karpathy，核心是“小改动 \(\to\) 评估 \(\to\) 保留或撤销”的自动循环。作者将其从机器学习场景推广到 Claude Skills 优化，封装成可直接调用的 skill。

一次循环的工作原理

菜谱类比

作者用一个直观的类比来解释 autoresearch 的单次循环：

菜谱类比——理解 AutoResearch 循环

你有一个菜谱，十次里有七次做得不错，另外三次总是不对劲——酱汁太淡，或者调味不对。

你不是从头重写整个菜谱，而是：

换一种配料
用这个改动做十次
变好了？留下这个改动
变差了？换回原来的配料
改下一个东西，再做十次

经过 50 轮这样的迭代，你的菜谱十次里有 9.5 次都能成功。

映射到 Skill 优化

这个类比精确对应到 skill 优化的每个环节：

菜谱（recipe） = 你的 skill prompt
做菜（cooking） = 运行这个 skill
试味（tasting） = 给输出结果打分

而你唯一需要提供的，就是打分标准（scoring criteria）。

本章小结

单次循环的逻辑是：改一个点 \(\to\) 测试多次 \(\to\) 根据分数决定保留或撤销。通过大量循环的累积，skill 的整体质量从"七成靠谱"逐步提升到"九成五靠谱"。这是一个经典的贪心搜索过程。

Checklist：告诉 Agent “什么叫好”

你在整个过程中唯一的工作

你唯一要做的事

给 agent 一份简单的 checklist，定义“什么叫好”。这是你在整个 autoresearch 过程中唯一需要参与的环节。

Checklist 由简单的是/否问题组成，每个问题检查输出的一个具体方面。通过或失败，就这么简单。Agent 用这份 checklist 对每次输出打分，分数变化告诉它改动是在帮忙还是在帮倒忙。

为什么用是/否而不用打分

作者用“老师批卷子”来说明为什么要用二元判断而非主观评分。

不是“给写作质量打个 1--10 分”（模糊、每次结果不一样），而是每一项都清清楚楚是或否：

学生有没有写论点陈述（thesis statement）？是或否。
每处引用都注明出处了吗？是或否。
篇幅在 5 页以内吗？是或否。

用这份 checklist 批 100 份卷子，每次结果都一致。

一致性是关键

主观评分（如 1--10 分）在不同时间、不同上下文下会产生不同结果，导致评估信号噪声大。是/否二元判断消除了这种不确定性，让 agent 能可靠地判断改动的效果方向。

落地页文案 Checklist 示例

以下是作者给出的落地页文案 skill 的具体 checklist 问题：

“标题有没有包含具体数字或结果？”——捕捉“Grow Your Business”这类模糊标题。
“文案中有没有 revolutionary、synergy、cutting-edge、next-level 这类流行词？”——捕捉空洞的 buzzword 堆砌。
“CTA 是否使用了具体的动词短语？”——捕捉“Learn More”或“Click Here”这类弱 CTA。
“第一句话有没有点出一个具体的痛点？”——捕捉“In today's fast-paced world...”这类泛泛的开场。
“总文案字数是否在 150 词以内？”——捕捉臃肿的页面。

Checklist 的生成与数量

这些 checklist 不需要你自己费劲想。启动 autoresearch 时，agent 会引导你完成整个过程：

问你“什么叫好”
帮你把模糊的感觉（vibes）变成具体的是/否问题
如果你有现成的 style guide，还能从中提取标准

Checklist 数量的陷阱

3--6 个问题是最佳数量。超过这个范围，skill 会开始“应付 checklist”——就像学生背答案而不理解题目。这是一种 overfitting 现象：skill 在 checklist 上得分越来越高，但实际输出质量反而下降。

本章小结

评分标准是 autoresearch 中唯一需要人类定义的部分。使用是/否二元判断（而非主观评分）确保评估的一致性和可复现性。Checklist 应控制在 3--6 个问题，避免 overfitting。Agent 会引导你生成 checklist，你不需要从零设计。

实操步骤：如何运行 AutoResearch

以下是运行 autoresearch 的完整 6 步流程：

Step 1：下载 skill。获取 autoresearch skill，放进 Claude Code 或 Cowork 的 skills 文件夹。
Step 2：选一个要改进的 skill。说“run autoresearch on my [skill name] skill”。选最让你头疼的那个——时好时坏、输出不稳定的 skill。
Step 3：Agent 问你 3 件事：
要优化哪个 skill
用什么测试输入（例如“write landing page copy for an AI productivity tool”）
你的 checklist 问题是什么
Step 4：跑一遍 skill，给出起始分数。这是基准线（baseline）。作者的落地页 skill 起步只有 56%——标题模糊、buzzword 泛滥、CTA 软弱，超过一半的检查项都没通过。
Step 5：浏览器弹出实时 dashboard。包含以下内容：
分数随时间变化的曲线图
每项 checklist 的通过/失败明细
每次改动的日志
每 10 秒自动刷新
Step 6：走开。Agent 进入循环：
分析哪些检查项在失败
对 skill prompt 做一个小改动
重新测试
分数升就留下改动，分数降就撤销
一直自主运行，直到你叫停，或连续三次达到 95%+ 为止

全自动运行，原始 Skill 不受影响

你可以盯着 dashboard 看，也可以完全走开。Agent 不需要你参与任何决策。改进后的版本保存为单独的文件，你的原始 skill 始终不会被修改。

本章小结

实操分为 6 步：下载 skill \(\to\) 选目标 \(\to\) 回答 3 个问题 \(\to\) 建立基准线 \(\to\) 观察 dashboard \(\to\) 放手让 agent 跑。整个过程除了初始配置外完全自动化，且原始 skill 始终安全。

实战案例：落地页文案 Skill 优化

优化结果

作者在自己的落地页文案 skill 上运行 autoresearch，结果如下：

\[ \text{通过率：} 56\% \longrightarrow 92\% \]

共 4 轮改动（rounds of changes），其中 3 个保留，1 个撤销。

Agent 具体做了哪些改动

针对最高频失败项加了明确规则：``Your headline must include a specific number or result. Never use vague promises like ‘Transform Your Business.’\,” ——直接堵住最常见的失败模式。
加了禁用词列表（banned buzzwords list）：明确列出禁止使用的词汇——revolutionary, cutting-edge, synergy, next-level, game-changing, leverage, unlock, transform。
加了一个 worked example：在 skill prompt 中加入一段实际的高质量落地页示例，标注了痛点开场白（pain point opener）和 CTA 的位置，让 skill 能直接看到“好”的样子，而不是靠猜。
尝试更严格的字数限制（被撤销）：文案变得太单薄（too thin），CTA 质量也下降了。系统检测到了这种“单独看似改进、但实际损害整体输出”的改动，自动撤销。

改动被撤销的智慧

第 4 轮改动展示了 autoresearch 的一个关键能力：它不是盲目叠加约束，而是能识别局部改进但全局退步的情况。更严的字数限制让“字数在 150 词以内”这项检查更容易通过，但牺牲了 CTA 质量和内容丰富度。系统权衡了整体得分后选择撤销。

最终产出物

运行结束后，你会得到以下 4 样东西：

改进后的 skill——保存为单独文件，原版完好无损，随时可回退。
结果日志（results log）——记录每一轮的得分。
Changelog——解释每次改动的内容、agent 为什么尝试这个改动、以及改动是否有效。
原始 skill 的备份——以防你需要回到起点。

Changelog 是最有价值的产出

那份 changelog 可能是整个过程中最值钱的东西。它是一份完整的记录：对于这个特定的 skill，什么有效、什么无效。

更重要的是，当更强的模型问世时，你把这份 changelog 交给新模型，它就能从上一个 agent 停下的地方接着优化。Changelog 让 skill 的改进经验变成了可传承的资产。

本章小结

实战结果证明了 autoresearch 的有效性：4 轮自动迭代将通过率从 56% 提升到 92%。系统能自动识别有害改动并撤销。最终产出不仅是优化后的 skill，还包括完整的 changelog，为后续持续优化和跨模型传承提供基础。

更广泛的应用场景

AutoResearch 的适用范围远不止 Claude skill。作者明确指出：任何你能打分的东西，都能用这套方法。

具体案例

网站速度优化：改一处代码 \(\to\) 测量页面加载时间 \(\to\) 留下或撤销。有人在 67 轮迭代后将页面加载时间从 1100ms 降到 67ms。
Cold outreach（陌生客户开发邮件）：定义 checklist——“有没有提到对方公司？是否在 75 字以内？是否以具体问题收尾？”让 agent 跑 50 个变体。
Newsletter 开篇：“开场白有没有包含个人细节？” “有没有使用陈词滥调？”让 agent 在 autopilot 上打磨你的文字。
任何你反复使用的 prompt——只要能定义打分标准，就能跑 autoresearch。

通用原则

If you can score it, you can autoresearch it.

关键前提只有一个：你的优化目标必须是可量化的。能用是/否 checklist 打分，就能用 autoresearch 自动迭代。

本章小结

AutoResearch 方法的唯一前提是“可量化”。从网站性能到邮件写作、从 newsletter 到任何反复使用的 prompt，只要能定义出是/否评分标准，就能套用这套自动迭代框架。

总结与延伸

核心要点回顾

问题：大多数人不知道自己的 AI skill 有 30% 的时间在输出低质量结果，缺乏系统化测试手段。
方法来源：借鉴 Karpathy 的 autoresearch，核心是“小改动 \(\to\) 评估 \(\to\) 保留或撤销”的自动循环。
关键设计：用 3--6 个是/否 checklist 问题定义“什么叫好”，确保评估一致、可复现。过多会导致 overfitting。
实操流程：6 步——下载 skill、选目标、回答 3 个问题、建立基准线、观察 dashboard、放手让 agent 跑。
实证结果：落地页文案 skill 从 56% 提升到 92%，4 轮迭代，全程零手动。
普适性：任何可量化的优化目标都适用——网站速度、cold outreach、newsletter、任何反复使用的 prompt。

方法论启示

从靠运气到靠系统

这篇文章最深刻的洞察不在于技术细节，而在于一个认知转变：

“搭好就用”是第一阶段——你有了工具。
“搭好、测过、持续迭代”才是成熟阶段——你有了系统。
Changelog 的积累让 skill 的改进成为可传承的资产，而非一次性的调参。当更强的模型出来，changelog 就是你交给新模型的“经验包”。

延伸阅读

原文作者 Ole Lehmann 的 X 账号：@itsolelehmann
原文链接：How to 10x your Claude Skills
Andrej Karpathy 的 autoresearch 原始方法与仓库
AutoResearch skill 下载：见原文末尾 Dropbox 链接或作者 GitHub
译者实践哥MinLi 的 X 账号：@MinLiBuilds