跳转至

CS336 2026 Lecture 13:Data I

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Stanford CS336 Spring 2026 官方可执行讲义重新整理
来源 Stanford CS336
日期 2026 年春季

CS336 2026 Lecture 13:Data I

Lecture 13: Data I 的核心主线

前面的课程默认“给定数据”,然后讨论如何训练语言模型。Lecture 13 开始反过来问:到底训练什么数据? 课程的核心结论很直接:data does not fall from the sky。训练数据不是“整个互联网”的自然副产品,而是一条从 live service 到 raw data,再到 processed data 的工程、法律和伦理管线。

本讲总结先行

  • Live service \(\rightarrow\) raw data \(\rightarrow\) processed data,中间有 crawling、HTML extraction、filtering、deduplication、PII handling、license checks。
  • 数据是区分语言模型的重要因素,因为架构和训练流程越来越公开,数据细节却常被保密。
  • 数据管线涉及 copyright、privacy、robots.txt、ToS、licensing、fair use、shadow libraries 等问题。
  • 大部分 pipeline 是启发式的,仍有大量改进空间。

为什么数据最重要

Llama 3 报告中架构和训练流程相对透明,但数据细节非常有限。

读图:为什么模型公司对 data 更保密

开源权重模型往往公开 architecture、parameter count、training recipe,甚至并行策略;但数据来源、比例、清洗规则、过滤器和法律授权常只给模糊描述。原因包括竞争优势和版权责任。数据成为模型差异化的核心资产。

术语消化:训练阶段和数据质量

阶段 数据形态 目标
Pre-training 大量原始或轻清洗文本、代码、网页、书籍等。 建立通用语言和世界知识。
Mid-training 更高质量、能力导向的数据。 强化代码、数学、推理、多语等能力。
Post-training 聊天、偏好、RL、工具使用轨迹。 对齐交互行为和任务偏好。

OLMo 2 pre-training 数据示例。

OLMo 2 mid-training / Dolmino 数据示例。

Tulu post-training 数据示例。

读图:OLMo/Tulu 三张图的教学含义

三张图展示了从大量弱筛网页和通用语料,到更有针对性的高质量数据,再到 instruction/chat 数据的移动。数据量通常下降,人工或模型筛选强度上升,目标也从“预测文本”转向“表现出想要的行为”。

Raw sources:互联网不是一个可直接训练的数据集

“语言模型训练在整个互联网”是非常粗糙的说法。更准确地说,很多原始数据来自 public web 的 crawls,但 live servers 不能直接训练。需要 crawler 发现 URL、下载页面、保存 raw HTTP response,再把 HTML 等格式转换为文本。

术语消化:从 live service 到 processed data

层次 例子 问题
Live service 网站、GitHub、arXiv、Wikipedia。 动态页面、认证、rate limit、ToS、robots.txt。
Raw data WARC、git repo、PDF、LaTeX source、XML dump。 格式复杂,噪声大,重复多。
Processed data WET/text、filtered docs、deduped corpus。 转换损失、过滤 bias、PII、版权和质量控制。

Decline of consent:C4、RefinedWeb、Dolma 等常见数据 URL 的 robots.txt/ToS 限制随时间增加。

读图:限制增加意味着什么

越来越多网站通过 robots.txt、ToS 或其他方式表达不希望被爬取。即使技术上可访问,也不代表合规、礼貌或可用于训练。未来数据获取的成本会更高,许可数据和自有数据的重要性会上升。

不良 crawler 行为会造成服务压力和公众反弹。

Shadow libraries 的边界

LibGen、Z-Library、Anna's Archive、Sci-Hub 等 technically 是 web 的一部分,但它们绕过版权和付费墙。课程强调从法律角度这是 piracy/copyright infringement。训练数据工程不能把“能下载”当成“能使用”。

本章小结:raw source 不是 raw permission

网页能访问、能下载、能解析,并不意味着能训练。真实数据管线至少要同时处理四种约束:技术可达性、站点意愿、法律授权、社会接受度。这四个维度任一出问题,都可能让数据集不可持续。

Copyright、licenses、fair use 与 lawsuits

几乎互联网上的原创表达都受 copyright 保护。Copyright 保护 expression,而不是 idea;保护门槛很低,不需要注册即存在,但美国起诉通常需要先注册。使用 copyrighted work 的主要路径是获得 license,或主张 fair use。

术语消化:fair use 四因素

  1. 使用目的和性质:教育用途、transformative use 更有利。
  2. 作品性质:事实性、非虚构作品更有利。
  3. 使用数量和实质性:片段比整部作品更有利。
  4. 对原作品市场的影响:若替代原作品市场,更不利。

这些因素需要具体案件具体分析;本笔记只解释课程内容,不构成法律建议。

课程提到的诉讼包括 The New York Times v. OpenAI、作者诉 Anthropic、作者诉 Meta。讲义中的核心 takeaway 是:截至课程材料所述,一些具体案件中训练被认为 fair use,但盗版复制明确违法,且这一领域仍在快速演化。

训练数据的法律风险不是只看模型是否背诵

复制数据本身可能已经构成争议;训练是否 transformative、模型是否输出受保护表达、是否影响原市场、是否违反 ToS,都是不同问题。数据管线需要记录来源、许可证、过滤规则和使用理由。

术语消化:训练数据法律/合同术语

术语 课程中的含义 数据工程后果
Copyright 保护原创表达,不保护抽象 idea。门槛很低,网页文字通常也受保护。 不能把“公开网页”直接等同于“可训练数据”。
License 权利人承诺在特定条件下不追究使用。 需要保存 license、版本、适用范围和限制。
Creative Commons 一组允许分发/改编的开放许可证,但不同 CC 条款差异很大。 需要区分 CC-BY、CC-BY-SA、NC、ND 等条件。
Fair use 美国法下四因素平衡判断,是否适用取决于具体事实。 不能在数据表里简单标成“fair use = yes”。
Terms of Service 网站合同条款,可能限制 bot 下载或训练用途。 即使版权层面可争辩,合同层面仍可能违规。

如何把法律问题变成数据工程字段

高质量数据集至少应记录:source URL、crawl time、license 字段、robots.txt/ToS 状态、是否来自 shadow library、是否包含个人信息、处理步骤、过滤器版本、dedup 策略、下游用途假设。没有这些 provenance 字段,后续很难审计风险。

Common Crawl:web-scale raw source

Web crawler 架构:从 seed URLs 出发,下载页面并把超链接加入队列。

读图:crawler 不是简单 wget 全网

Crawler 需要 selection policy、politeness policy、re-visit policy。它必须决定爬什么、多久重爬、是否尊重 robots.txt、如何避免压垮网站。Common Crawl 每月增加数十亿网页,但 crawl 本身仍只是 raw source。

Common Crawl 提供 WARC 和 WET。WARC 保存 raw HTTP response,例如 HTML;WET 是转换成 text 后的结果。HTML-to-text 是 lossy process,会影响最终模型。

HTML-to-text 工具选择会影响下游 LM accuracy。

读图:为什么 WET 不是无害中间格式

HTML 包含正文、导航、广告、脚本、评论、页脚。不同 extraction 工具会保留或丢弃不同内容。若正文抽取差,模型会学到网页模板噪声;若抽取过严,又会丢掉有用长尾内容。

术语消化:Common Crawl 到训练文本的处理链

步骤 做什么 主要风险
HTML extraction 从 WARC/HTML 中抽正文。 boilerplate、广告、导航、评论混入或正文丢失。
Language ID 判断文档语言。 多语混合、代码混合、低资源语言误判。
Quality filtering 用规则或模型判断是否像高质量文本。 过滤掉长尾有用内容,引入 Wikipedia/指令数据偏差。
Deduplication 移除重复或近重复文档/段落。 太弱会重复训练,太强会误删模板相似但内容不同的文本。
Toxicity/PII filtering 去除有害内容或个人信息。 过强会损害分布覆盖,过弱会带来安全和隐私风险。

Specialized sources:Wikipedia、GitHub、arXiv

Wikipedia 是高质量知识源:范围有 notability 和 reliable sources 约束,定期 dumps 可直接下载,无需 crawl。但它不是完美源:编辑集中在少数贡献者,且 data poisoning 可能在 dump 前短暂注入恶意内容。

GitHub 对代码能力重要,也可能帮助 reasoning。其数据包括 repository 内容和 metadata,例如 issues、pull requests、comments。代码数据必须处理 forks、重复、license、malware、PII 和 generated files。

arXiv 提供论文 metadata、PDF 和可选 LaTeX source。它适合科学/数学/CS 内容,但不是 peer review,且许可有 all rights reserved 和 Creative Commons 等差异。

源不等于数据集

Wikipedia、GitHub、arXiv 都是 sources。真正进入模型的是经过选择、清洗、格式转换、去重、分片和混合权重设定后的 datasets。数据集设计是模型设计的一部分。

三类专门数据源的互补性

来源 强项 局限
Wikipedia 高密度百科知识、结构清晰、多语 dumps。 不是原创思想库,主题受 notability 和编辑群体影响。
GitHub 代码、工程过程、issues/PR/comments。 license、fork/duplicate、malware、PII、bot activity。
arXiv 科研论文、LaTeX source、metadata permissive。 未同行评审,PDF/LaTeX 解析复杂,领域分布不均。

经典数据集:BERT、WebText、CCNet、C4

BERT 使用 Wikipedia 和 BooksCorpus。BooksCorpus 来自 Smashwords 上免费的自出版书籍,后来因违反 ToS 等问题下线。GPT-2 的 WebText 则用 Reddit 高 karma 外链作为 quality surrogate,并产生 OpenWebText 的开源复刻。

CCNet 试图自动构造大规模高质量预训练数据:去重、语言识别、用 KenLM 5-gram 模型筛出像 Wikipedia 的文本。C4 从 Common Crawl 2019 snapshot 出发,用手工规则过滤自然语言文本,成为 T5 的重要贡献之一。

C4 domain analysis:规则过滤后的 Common Crawl 仍有明显 domain 组成和偏差。

读图:C4 domains 告诉我们什么

C4 不只是“网页文本”。它的 domain distribution 反映了 crawl、HTML extraction 和过滤规则共同造成的选择偏差。模型学到的风格、知识和价值取向会受这些 domain 比例影响。

经典数据集的谱系

数据集 主要来源 关键处理 教学结论
BERT data Wikipedia + BooksCorpus 文档级序列,BooksCorpus 来自免费自出版书。 早期 LM 数据更窄、更人工。
WebText Reddit 高 karma 外链网页 英文过滤、近重复移除。 用社交信号做代理质量筛选。
CCNet Common Crawl 去重、fastText 语言识别、KenLM 质量过滤。 自动化 web filtering 的早期范式。
C4 Common Crawl snapshot 手工规则、坏词/非英文/短页过滤。 简单规则可规模化,但偏差明显。
GPT-3 data CC、WebText2、Books、Wikipedia 质量分类器、fuzzy dedup。 私有数据细节开始变模糊。

GPT-3、The Pile、Gopher、LLaMA、RefinedWeb

GPT-3 数据包括 processed Common Crawl、WebText2、神秘 books corpora 和 Wikipedia,总计约 400B tokens。处理上使用 quality classifier 区分 WebText/Wikipedia/Books 与其他网页,并做 fuzzy deduplication。

The Pile 是开源模型社区对 GPT-3 数据不透明的回应,聚合 22 个高质量 domain,包括 Pile-CC、PubMed Central、arXiv、Enron emails、Project Gutenberg、Books3、StackExchange 等。

The Pile:22 个 curated high-quality domains 的组合。

读图:The Pile 的价值和争议

The Pile 让数据组成更透明,推动开源模型训练。但其中 Books3 来自 shadow library Bibliotik,后来因 copyright lawsuits 下线。透明不等于没有法律/伦理风险。

Gopher 的 MassiveText 说明数据描述本身也很有价值:MassiveWeb、C4、Books、News、GitHub、Wikipedia,并使用 English filtering、deduplication、train-test overlap、manual quality rules 和 Google SafeSearch toxicity filtering。LLaMA 则使用 CommonCrawl/CCNet/C4/GitHub/Wikipedia/Project Gutenberg/Books3/arXiv/StackExchange,总计约 1.2T tokens,并被 RedPajama/SlimPajama 复刻。

RefinedWeb 的主张是 web data is all you need:使用 WARC 和 trafilatura 抽取文本,Gopher rules 过滤,避免 ML-based filtering 以减少 bias,并用 MinHash over 5-grams 做 fuzzy deduplication。FineWeb 在此基础上扩展到 95 个 Common Crawl dumps,结果达到 15T tokens。

这些数据集的代际变化

早期数据集强调“有一批可训练文本”:Wikipedia、BooksCorpus、WebText。GPT-3 之后,数据集开始强调“大规模 web + 多源混合 + 去重过滤”:The Pile、MassiveText、LLaMA data、RefinedWeb。到 Dolma/DCLM/Nemotron-CC 阶段,重点进一步变成“过滤器和数据处理算法本身”:谁能从巨大 raw pool 中筛出更高质量、更少偏差、更可审计的数据。

不要把 token 数当成唯一质量指标

15T tokens 不必然优于 3T tokens,3T tokens 也不必然优于 800GB。数据价值取决于覆盖、质量、去重、许可证、语言分布、代码/数学/学术比例、污染控制和与目标能力的匹配。Scaling laws 只能在数据分布相对稳定时外推;换数据 pipeline 会改变曲线。

手工规则和模型过滤的偏差不同

手工规则透明、便宜、可解释,但可能粗糙,例如删除包含代码符号的页面。模型过滤更强,但会把训练 classifier 的正负例偏差扩散到整个语料。数据过滤没有中立方案,只有可审计的 trade-off。

案例复盘:同一个 raw source 可以长成完全不同的数据集

Common Crawl 是最典型例子。C4、CCNet、RefinedWeb、FineWeb、Dolma、DCLM、Nemotron-CC 都可以从 Common Crawl 或 web crawl 出发,但它们的目标和处理哲学不同。C4 强调简单可复制规则;CCNet 强调 Wikipedia-like quality;RefinedWeb 强调 WARC 抽取和弱模型过滤;DCLM 强调标准化数据处理竞赛;Nemotron-CC 则强调不要过度过滤,宁可用 ensemble classifier 和 synthetic rephrasing 提升质量。

同源不同集的关键差异

  1. 抽取器不同:WET、trafilatura、jusText、resiliparse 会改变保留正文的边界。
  2. 语言识别不同:阈值高会损失多语和 code-mixed 文本,阈值低会混入噪声。
  3. 质量定义不同:像 Wikipedia、像 instruction data、像教育内容、像高投票网页,是四种不同的“好”。
  4. 去重粒度不同:文档级去重、段落级去重、MinHash 近重复、benchmark decontamination 对模型记忆和泛化影响不同。
  5. 安全过滤不同:bad-word lists、toxicity classifiers、PII redaction 会改变社会偏见和内容覆盖。

数据管线如何影响模型行为

如果过滤器偏好百科式文本,模型可能更正式但长尾对话能力弱;如果偏好 Reddit 外链,模型可能更了解网络文化但噪声和偏见更重;如果偏好代码和 PR metadata,模型会更擅长软件工程;如果大量使用合成 instruction data,模型会更会“回答问题”,但风格和事实分布会向 teacher model 靠拢。数据处理不是清洁工序,而是行为塑形。

可复现性不只需要发布 URL 列表

即使公开所有 URLs,如果没有 crawl time、HTML extraction version、过滤器权重、dedup hash、语言识别阈值和删除策略,别人仍然无法复现同一数据集。网页会变,robots.txt 会变,内容会消失,许可证会改。数据集复现比代码复现更脆弱。

术语表:数据处理方法

方法 做什么 什么时候会出问题
Language ID 判断文本语言,常用 fastText 等分类器。 多语混合、代码、专有名词、低资源语言会被误判。
Exact dedup 删除完全相同文档或段落。 只能去掉显式重复,模板改写和轻微变化仍保留。
Fuzzy dedup 用 MinHash/Jaccard 等检测近重复。 阈值太低误删,阈值太高重复训练。
Quality rules 按标点、词数、坏词、HTML 特征等过滤。 透明但粗糙,容易删掉代码、列表、非标准文本。
Quality classifier 用模型判断文本是否高质量。 继承训练正负例偏差,可能把“像某数据集”当成“好”。
PII redaction 删除邮箱、电话、地址、公开 IP 等个人信息。 规则漏检或误删真实技术内容。
Benchmark decontamination 移除与评测集重叠的训练文本。 近似匹配难,时间戳和复制传播会破坏假设。

为什么 Data I 值得单独一讲

模型能力常被解释为参数量、架构或训练 FLOPs 的结果,但这些变量背后还有一个更不透明的变量:模型到底读过什么。数据源决定知识覆盖,过滤器决定语言风格和价值偏好,去重决定记忆压力,许可证决定可持续性,PII/安全过滤决定社会风险。忽略数据,就无法真正解释模型行为。

现代 filtering:Dolma、DCLM、Nemotron-CC

Dolma 数据概览:Reddit、PeS2o、C4、Project Gutenberg、Wikipedia/Wikibooks 等组成。

读图:Dolma 的 pipeline

Dolma 的 Common Crawl 处理包括语言识别、Gopher/C4 规则过滤、toxicity filtering、Bloom filter deduplication。它体现了现代开源数据集的折中:不用强模型过滤以减少 bias,但仍大量依赖启发式。

DCLM:从 240T token DCLM-pool 中用 quality classifier 过滤出 baseline 数据。

DCLM quality classifier 与其他 filtering 方法的比较。

读图:model-based filtering 的优缺点

DCLM 使用正例 OpenHermes/ELI5、负例 RefinedWeb 训练 fastText classifier,在大池子上过滤。优点是质量提升明显;风险是 classifier 会继承正负例选择偏差,把“像某些高质量数据”误当成“真正有用数据”。

Model-based filtering 的机制

把一个小的人工/模型选定数据集当作“好文本”正例,把普通 web 文本当作负例,训练 classifier 后打分整个 Common Crawl pool。这个过程实质上是在定义“模型应该多学哪类文本”。因此 classifier 的训练集就是隐含的数据价值观。

Nemotron-CC:在不过度过滤的前提下保留更多 token,并结合 classifier ensemble 和 synthetic rephrasing。

读图:Nemotron-CC 的动机

FineWebEdu 和 DCLM 可能移除 90% 数据,质量高但 token 少。Nemotron-CC 试图“need more tokens but preserve quality”:用 Nemotron-340B-instruct 打分并蒸馏 classifier,结合 DCLM classifier,对低质量数据重写,对高质量数据生成任务。

合成数据和重写的风险

用 LM rephrase 低质量数据或从高质量数据生成 QA pairs,可以提高可学信号密度;但也可能引入 teacher model 的风格偏差、事实错误、重复模板和版权继承问题。合成数据应记录生成模型、prompt、过滤器和去重策略。

Code data:The Stack 与 Stack v2

The Stack 从 GitHub Archive 获取 repo names,git clone 大量 repositories,只保留 permissively licensed 代码,用 go-license-detector 检测 license,并用 MinHash/Jaccard 去重。Stack v2 扩展到 issues、comments、PRs、Software Heritage repos 和 docs crawls。

Stack v2 pull request 数据:把结构化 PR 对象线性化成 token sequence,并加入 diff 周边上下文。

读图:为什么 PR metadata 有价值

代码文件教模型语法和 API,PR/issue/comment 教模型软件工程过程:bug report、review、patch rationale、discussion。Agentic coding models 很可能受益于这种过程数据,但也要处理 PII、bot activity、malware 和 license。

代码数据的特殊性

代码不是普通文本:它有许可证、依赖、可执行语义、测试、提交历史和安全风险。高质量代码数据不只是 .py/.js 文件,还包括 README、issue、PR、review、diff context、CI log。面向 coding agents 的数据尤其需要过程信息。

CommonPile:只用 permissively licensed data 可行吗

CommonPile:收集 8TB permissively licensed data。

CommonPile/Comma results:只用 permissive data 可以做到不错,但 token 规模仍是瓶颈。

读图:permissive data 也有细节

License laundering 可能把 copyrighted work 重新包装成 permissive license;collection license 不一定延伸到单个文档;合成数据若来自未授权数据训练的模型,法律状态也不清楚。只说“permissive”不够,仍需 provenance 审计。

实操视角:设计一个训练数据管线要问什么

数据管线 checklist

  1. 来源:每个 source 是 live service、public dump、licensed corpus、synthetic data 还是 user data?
  2. 权限:是否有 license?ToS 是否允许?robots.txt 怎么处理?是否含 shadow-library 风险?
  3. 抽取:HTML/PDF/LaTeX/code/XML 如何转文本?转换器版本和失败率是什么?
  4. 过滤:使用手工规则、语言识别、quality classifier、toxicity filter 还是 PII filter?阈值怎么定?
  5. 去重:document-level、paragraph-level、MinHash、Bloom filter、benchmark overlap 分别怎么做?
  6. 混合:web、code、math、academic、books、Q&A、multilingual、synthetic data 的比例如何决定?
  7. 审计:能否追踪某条训练样本的 provenance?能否删除某类数据?能否复现实验?

数据配比不是静态表格

Pre-training 早期可能需要最大覆盖和多样性;mid-training 可能提高代码、数学、高质量学术文本或教育文本比例;post-training 则加入 instruction、preference、tool-use、RL trajectories。数据 mix 应服务训练阶段和目标能力,而不是一次性固定。

数据工作最容易隐藏在“清洗过”三个字里

论文常写“we cleaned and deduplicated the data”,但这句话可能包含数百个规则、多个模型过滤器、人工审计、legal review 和大量失败样本。对复现和安全来说,清洗规则和过滤器版本与模型 architecture 一样重要。

数据质量评估与反馈闭环

数据管线不是一次性脚本,而是一个需要闭环优化的系统。训练前可以用静态统计检查语料,例如语言分布、重复率、平均文档长度、域名分布、许可证比例、PII 命中率、毒性分数、代码/数学/学术文本比例;训练中可以看 loss 曲线和 domain-level loss;训练后再用 evaluation suite 反推哪些能力缺口对应哪些数据缺口。

从 eval 回到 data 的闭环

  1. 如果代码 benchmark 弱,检查代码数据比例、license 过滤是否过严、是否缺少 issue/PR/文档数据。
  2. 如果数学推理弱,检查是否有足够高质量 LaTeX、竞赛题、步骤化解答和去重后的合成数据。
  3. 如果多语能力弱,检查 language ID 阈值是否把 code-switching 和低资源语言误删。
  4. 如果模型幻觉强,检查高权威来源比例、重复低质网页、知识密度和事实性过滤。
  5. 如果安全性差,检查 harmful data、jailbreak data、refusal data 和 policy data 的覆盖及标注质量。

数据审计指标

指标 看什么 为什么重要
Domain mix web、books、code、academic、forums、Q\ A、news 的比例。 决定模型知识和风格来源。
Duplication rate exact/near duplicate 的比例和重复 token 权重。 重复会浪费 compute,也可能导致 memorization。
Document quality score 规则分、classifier 分、人审样本。 过滤策略是否过强或过弱。
License coverage permissive、unknown、restricted、licensed 的比例。 决定法律和发布风险。
PII/toxicity rate 隐私和有害内容命中率。 决定安全和合规处理需求。
Benchmark overlap 与 eval/test 集的 exact/fuzzy overlap。 避免评价污染和能力高估。

数据闭环也可能过拟合

如果只根据现有 benchmark 补数据,模型会越来越适合 benchmark,而不一定更适合真实用户。数据迭代应该同时看 held-out eval、fresh eval、private eval、真实使用反馈和安全审计。

本章小结

Lecture 13 的后半部分说明,同样叫“web data”可以有完全不同的数据哲学:C4 偏规则过滤,RefinedWeb/FineWeb 偏大规模 web,DCLM 偏模型质量分类器,Nemotron-CC 偏保留更多 token 和合成增强,CommonPile 偏许可可审计。数据集不是自然物,而是价值判断和工程约束的产物。

Data I 的根本观点

如果说前几讲讨论的是“如何更有效地训练模型”,这一讲讨论的是“训练目标从哪里来”。数据决定模型看见什么语言、知识、代码、价值观、错误、重复和法律风险。架构可以复现,GPU 可以租,优化器可以开源;但高质量、合规、目标明确的数据管线最难复制。

和下一讲的连接

Data I 主要讲来源、法律边界和经典/现代数据集谱系。下一步自然是更细的数据处理问题:如何做 dedup、contamination removal、PII filtering、quality classifiers、data mixing、curriculum、post-training data 和 evaluation-driven data iteration。

总结与延伸

Lecture 13 的核心是把“数据”从抽象名词还原成生产系统。网页不是直接可训练文本,Common Crawl 不是高质量数据,许可证不是一行元数据,过滤器不是中立工具。数据工程涉及来源、转换、过滤、去重、版权、隐私、质量和长期维护。

最终 takeaways

  1. Data does not fall from the sky;数据获取和清洗需要大量工程和人类判断。
  2. 模型公司常公开架构和训练流程,却隐藏数据细节,说明数据是核心竞争力。
  3. Public web 受动态内容、认证、robots.txt、ToS、rate limit 和法律限制约束。
  4. Copyright/fair use/licensing 是训练数据管线不可回避的一部分。
  5. Common Crawl 是 raw source,不是成品训练集;HTML extraction 和 filtering 会塑造模型。
  6. 现代数据集在规则过滤、模型过滤、合成重写、dedup、license 审计之间折中。
  7. 下一步数据课程自然会进入更细的 processing、mixing 和 post-training 数据设计。

拓展阅读

  • Common Crawl, C4, CCNet, RefinedWeb, FineWeb.
  • The Pile, Dolma, DCLM, Nemotron-CC, The Stack, CommonPile.
  • Copyright Act, Creative Commons, fair use, Terms of Service.
  • LLaMA, GPT-3, Gopher, OLMo 2, Tulu data reports.