Claude Code vs.\ Codex: The Definitive Guide

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	samhesam (Hesamation)
日期	2026-03-10

引言

本文是对 X 平台用户 Hesamation 所撰写的长文 Claude Code vs.\ Codex: The Definitive Guide 的中文整理。作者在使用 Claude Code 数月后转向 Codex，又重新切换回 Claude Code，从模型能力、使用体验、生态系统、定价策略等多个维度对两款 AI 编程代理进行了全面对比，并通过一个 RAG Pipeline 实验提供了定量参考。

背景：两款编程代理

Claude Code 是 Anthropic 推出的 AI 编程代理，底层模型为 Opus 4.6，支持 1M token 上下文窗口。Codex 是 OpenAI 推出的编程代理，底层模型为 GPT-5.3-Codex。两者均提供 CLI 工具和 VS Code 扩展，订阅价格从 $20/月到 $200/月不等。

底层模型对比：Opus 4.6 vs.\ GPT-5.3-Codex

Task-Completion Time Horizon

衡量模型能力的一个重要指标是 Task-Completion Time Horizon（任务完成时间跨度）：给模型一个"人类专家需要 $T$ 小时完成"的任务，模型能以多大概率成功完成？

核心对比：任务完成能力差距显著

Opus 4.6：在 50% 成功率下，可处理长达 12 小时的任务
GPT-5.3-Codex：在 50% 成功率下，可处理长达 5 小时 50 分钟的任务
在 80% 成功率下，两者差距明显缩小

这表明 Opus 4.6 在处理复杂、长周期任务时具有明显优势。

Token 经济性

基准测试显示两者准确率接近，但 token 消耗差异巨大。Morph 的对比研究发现：

指标	Claude Code	Codex
相同任务 token 倍率	3.2–4.2$×$	1$×$（基准）
Figma 插件构建	6.2M tokens	1.5M tokens

Token 消耗对比

Token 消耗的实际影响

在相同订阅价格下，Claude Code 用户更可能触及 token 用量上限。如果你的工作流涉及大量代码生成，需要特别关注这一点。

本章小结

Opus 4.6 在长任务上的可靠性显著高于 GPT-5.3-Codex，但 Claude Code 的 token 消耗远高于 Codex。选择时需要在"任务处理深度"和"token 效率"之间权衡。

速度与任务适配性

速度不是决定性因素

Claude Code 公认速度更快，但作者指出：如果一个代理快速完成任务却留下需要 10 分钟调试的 bug，另一个虽慢却直接交付可用结果，后者的额外时间完全值得。

速度陷阱

不要被"我的代理更快"这类说法误导。编程代理是长期使用的工具，端到端的完成质量比单次任务的执行速度更重要。

任务类型决定胜负

两款代理在不同编程领域的表现差异很大：

在 AI Engineering 任务中，一方可能占优
在 Web 开发任务中，另一方可能反超
低级编程（low-level programming）领域尚无定论

目前缺乏系统性的跨任务对比研究，且由于模型和代理每隔几个月就会大幅更新，这类研究也很难长期有效。

本章小结

速度优势不等于体验优势，任务类型对两款代理的表现影响极大。理想做法是在自己的实际编程领域中小规模测试两者。

产品起源与技术栈

发展历程

时间节点	Claude Code	Codex
起源	Anthropic 内部 @bcherny 的 side project，终端原型可调用 Claude API、读取文件、执行 bash 命令	最初的 Codex 是 12B GPT-3 微调模型，驱动了初代 GitHub Copilot
公开发布	2025-02-24，Research Preview，使用 Claude 3.7 Sonnet	2025-04-16，Codex CLI 发布
最新版本	Opus 4.6（1M token 上下文）	GPT-5.3-Codex（2026-02-05），OpenAI 称其为"第一个参与了自身创建的模型"

Claude Code 与 Codex 发展时间线

内部采用速度

Claude Code 原型在 Anthropic 内部发布后，第五天就有一半团队在使用。这种自发的内部采用往往是产品 product-market fit 的强信号。

技术栈对比

维度	Claude Code	Codex CLI
编程语言	TypeScript	Rust
UI 框架	React + Ink（终端 UI）	Ratatui（Rust TUI 库）
分发方式	单个 Bun 可执行文件	原生二进制
上下文窗口	1M tokens	–

技术栈对比

作者注意到 Claude Code CLI 偶有小 glitch，但不影响实际编码体验。两者本质上都是围绕底层模型 API 的轻量包装（thin wrapper）。

Anthropic 收购 Bun

Anthropic 于 2025 年 12 月收购了 JavaScript 运行时 Bun，Claude Code 因此可以打包为单个 Bun 可执行文件分发，简化了安装流程。

本章小结

Claude Code 源于内部工具的自然生长，技术栈偏向 TypeScript 生态；Codex CLI 选择了 Rust 以追求性能和可移植性。两者都是模型 API 的轻量封装，产品差异更多体现在模型能力和交互设计上。

使用体验：“高级开发者” vs.\ “外包承包商”

交互风格差异

开发者社区对两者的体验有一个经典比喻：

体验差异的核心比喻

Claude Code 像一个在你身边工作的高级开发者——会提问、展示推理过程、解释方案。\[0.3em] Codex 像一个你外包任务后等待交付的承包商——首次尝试准确率高，但交互感较弱。

具体表现在：

Claude Code 具有强交互感和深度推理，主动提问并解释思路
Codex 以首次尝试准确率（first-attempt accuracy）著称，但速度稍慢
Claude Code 会主动测试代码、修复环境问题
Codex 倾向于完成实现后让用户自行安装依赖和运行

体验差异会被 AGENTS.md 削弱

如果你在 AGENTS.md 中明确指定了工作流程（如"实现前先与我确认方案"），两款代理的行为差异会显著缩小。不要过度依赖社交媒体上对差异的夸大描述。

市场数据

指标	Claude Code	Codex
VS Code 安装量	6.1M	5.4M
VS Code 评分	4/5	3.5/5
GitHub Stars	65–72K	$≈$64K

市场采用数据（截至 2026 年 3 月）

本章小结

Claude Code 的交互感更强，Codex 在直接任务上的首次准确率更高。但通过 AGENTS.md 等配置文件可以大幅拉近两者的行为差异。市场数据显示 Claude Code 在安装量和评分上略占优势。

RAG Pipeline 实验对比

实验设计

作者设计了一个定量可评估的任务——构建一个针对学术论文的 RAG（Retrieval-Augmented Generation）问答 Pipeline：

从 Hugging Face 每日论文中取 5 篇论文
构建包含 100 个问题和标准答案的测试集
给两个代理相同的 prompt，要求构建完整 RAG Pipeline

给两个代理的统一要求：

Python 实现，使用 PyMuPDF 处理 PDF
自选分块策略（chunking strategy）
自选向量索引方案
使用 llama-3.1-8b-instant 生成答案
证据不足时返回 fallback 响应，不得幻觉

两个代理均使用最高配模型（Opus 4.6 / GPT-5.3-Codex），High effort 推理强度，无 AGENTS.md。

实现方案对比

维度	Claude Code	Codex
Embedding 模型	all-MiniLM-L6-v2	all-MiniLM-L6-v2
Top-K	$k=5$	$k=5$
向量存储	ChromaDB	FAISS（更底层、内存效率更高）
分块策略	递归字符分割： n n $→$ n $→$ . $→$ 空格；1000 字符/200 字符重叠	句子级词分割，每块 220 词/40 词重叠
检索度量	原始 L2 距离	内积（cosine）分数
置信度机制	单阈值（L2 $> 1.2$ 视为不相关）+ 平均距离检查	多标准三级机制：strong / moderate / insufficient
代码架构	扁平函数式，模块级常量	OOP Pipeline 类，集中配置，dataclass，argparse CLI

RAG Pipeline 实现方案对比

工程质量观察

Codex 的实现在代码架构上明显更优：面向对象设计、集中配置管理、类型标注（dataclass）、CLI 参数解析。在大型或正式项目中，这种工程化差异非常关键。

行为差异

Claude Code：自动端到端测试脚本，确保 Pipeline 开箱即用。首次运行无错误。
Codex：完成实现后要求用户手动 pip install 并运行脚本。首次运行报错，经修复后正常。
Codex 解释计划时更加详尽（verbose），Claude Code 更倾向于直接写代码执行命令。
Codex 首个 token 的响应延迟可达 1 分钟，Claude Code 明显更快。

评测结果

使用 GPT-5.4 作为 LLM-as-a-Judge，在 Correctness、Completeness、Relevance、Conciseness 四个维度评估：

结果	Claude Code 胜出	Codex 胜出	平局
题数	42	33	25

RAG Pipeline 评测结果（100 个问题）

Claude Code 胜出的关键因素

Claude Code 胜出主要归因于：（1）更宽松的置信度阈值，避免了过多 fallback 响应；（2）稍高的生成温度（0.2 vs.\ Codex 的 0.1），增加了回答的丰富度。

实验局限性

这是一个简单的单次实验。在专业场景中，分块策略、向量数据库、检索方案等架构决策应由开发者主导，而非完全交给 AI。此实验更适合作为观察两款代理"默认行为"的参考，而非最终结论。

本章小结

在 RAG Pipeline 任务中，两款代理选择了相似的基础方案但在关键细节上各有侧重。Claude Code 在端到端交付和最终评测上略优，Codex 在代码工程质量上更胜一筹。

生态系统与定价

Anthropic 生态的吸引力

作者认为选择编程代理不仅是选工具，更是选生态：

Anthropic 生态：Claude Chat + Claude Code + Claude Cowork，形成类似 Apple 的闭环体验。Anthropic 还在逐步构建 OpenClaw（主动式个人代理）的安全版本。
OpenAI 生态：除 Codex 外，其他产品对作者吸引力不大。ChatGPT 在 UI、对话风格和模型选择上已落后于 Claude Chat。

定价方案对比

层级	Claude Code	Codex
入门版	$20/月	$20/月
中间版（Max 5x）	$100/月	—
重度使用版	$200/月	$200/月

定价方案对比

Claude Code 的定价优势

Claude Code 提供了 $100/月的中间层级（Max 5x），对大多数开发者来说已经足够。这避免了从 $20 直接跳到 $200 的尴尬，使其实际使用成本更低。

Skills 与 Plugins 生态

Skills 在两个平台间兼容，体验一致
Codex 的 plugin 支持推出较晚，可用插件较少
社区内容（Reddit、X、博客）以 Claude Code 为主，反映其更大的社区规模
作者认为大多数开发者并不使用 plugins，这不应成为决策的关键因素

本章小结

Anthropic 正在构建一个紧密整合的产品生态，对于已经使用 Claude Chat 的用户吸引力尤其大。Claude Code 的三级定价比 Codex 的两级定价更灵活。Skills 生态基本通用，plugins 差异不大。

总结与延伸

作者的最终选择

作者选择回归 Claude Code 的两个核心原因：

生态系统：Anthropic 的 Claude Chat + Code + Cowork 整合体验优于 OpenAI
定价灵活性：$100/月的中间层级更经济实用

关键结论

如何选择编程代理

两者都不是"错误的选择"——模型能力接近，都能完成日常编程任务
任务类型比 benchmark 更能决定哪个更适合你
最可靠的方法：用 $20/月版本在自己的实际编程领域上测试可量化的任务
AI 工具格局每隔几个月剧变一次，不要把当前选择视为永久决定

全文核心对比总览

维度	Claude Code	Codex
底层模型	Opus 4.6	GPT-5.3-Codex
长任务可靠性（50%）	12 小时	5 小时 50 分
Token 效率	较低（3–4$×$）	较高（基准）
执行速度	更快	较慢
交互风格	主动交互、解释推理	任务导向、详述计划
端到端交付	自动测试、开箱即用	需用户手动验证
代码架构质量	扁平函数式	OOP、工程化更强
生态整合	Chat + Code + Cowork	相对分散
中间定价	$100/月	无
VS Code 评分	4/5	3.5/5

Claude Code vs.\ Codex 核心维度总览

拓展阅读

原文链接：Hesamation -- Claude Code vs.\ Codex: The Definitive Guide
@GergelyOrosz 对 Claude Code 和 Codex 开发者的访谈（How Codex is Built）
Morph 关于 Opus vs.\ Codex 的 token 经济性研究
Task-Completion Time Horizon 基准测试

指标	Claude Code	Codex
相同任务 token 倍率	3.2–4.2\(×\)	1\(×\)（基准）
Figma 插件构建	6.2M tokens	1.5M tokens