跳转至

[CS 153] 技术驱动的儿童保护 — Thorn CEO Julie Cordua

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Stanford CS 153 课程内容整理
来源 Stanford CS 153
日期 2025

[CS 153] 技术驱动的儿童保护 — Thorn CEO Julie Cordua

引言:技术的双面性与 Thorn 的使命

本讲邀请了非营利组织 Thorn 的 CEO Julie Cordua,围绕“如何利用技术保护儿童免受在线性剥削”展开深入讨论。Cordua 拥有丰富的无线通信行业背景——她曾在 Motorola 工作,后参与将韩国电信的直播技术引入美国。13 年前,她接触到一家关注技术在儿童性虐待问题中角色的非营利组织(即 Thorn),从此投身这一领域。

Thorn 组织简介

Thorn 是一家专注于利用技术手段保护儿童免受在线性剥削的非营利组织。其核心使命是终结在线儿童性虐待(online child sexual abuse)。组织已运营 13 年,目前在约 60 家科技公司中部署了检测系统,过去一年处理了约 2000 亿个文件。团队主要由从私营部门招募的工程师和数据科学家组成。

Cordua 指出,技术是一把双刃剑:它既能改变世界、造福人类,也能被犯罪分子以最恶劣的方式滥用。她强调,每一位技术创新者都应该思考自己的技术“被最恶劣地使用”的可能性——这不是要阻止创新,而是要在设计阶段就将安全性纳入考量。

核心理念:创新者的责任

Cordua 呼吁每一位技术创新者:“I want all the innovation in the world... but I also want every innovator to think about the worst possible way that your technology could be used.” 创新本身是好的,但创新者必须预见并防范技术被滥用的可能。

本章小结

Thorn 的创立源于对技术双面性的深刻认识。在 iPhone 和社交媒体刚刚兴起的时代,儿童性虐待材料的在线传播就已经开始爆发式增长。Cordua 从无线通信行业转向公益领域,体现了技术人才投身社会问题解决的重要价值。

问题的规模:CSAM 的爆发式增长

什么是 CSAM

CSAM(Child Sexual Abuse Material,儿童性虐待材料)是指以图片或视频形式记录的对儿童的性侵犯。在美国及全球约 170 个国家,这类内容的制作、持有、传输、存储和浏览均属违法。

CSAM 的法律地位

CSAM 是世界上极少数在全球范围内被普遍认定为非法的内容类型之一。无论以何种理由,持有、观看、传播此类内容均构成犯罪。在美国,CSAM 曾是唯一一种被绝对禁止的内容类型。

数据增长的时间线

Cordua 描述了 CSAM 问题的演变历程:

  • 2004 年以前(前社交媒体时代):美国国家失踪与被剥削儿童中心(NCMEC, National Center for Missing and Exploited Children)每年收到数十万份举报文件,执法部门就已经感到不堪重负。
  • 2007--2010 年(iPhone 和社交媒体兴起):每个犯罪分子手中都有了摄像头和云存储上传按钮,CSAM 文件数量急剧飙升。
  • 近年:仅科技公司报告的文件就超过 1 亿份,这还不包括执法部门通过搜查令查获的 TB 级硬盘中的内容。

问题的双重困境

Cordua 指出问题的两个核心挑战:

  1. 科技公司端:在海量数据处理中,无法有效发现并删除 CSAM 内容。
  2. 执法端:面对超过 1 亿份文件,执法人员的专长是调查而非数据科学,他们无法高效筛选相关文件来推进案件。

本章小结

技术进步(智能手机、社交媒体、云存储)在为正常用户带来便利的同时,也极大地降低了犯罪分子制作和传播 CSAM 的门槛。问题的规模已远远超出传统执法手段的应对能力,迫切需要技术解决方案的介入。

生成式 AI 带来的新威胁

AI 生成的 CSAM

Cordua 指出,约两年半前生成式 AI 的出现带来了全新的威胁维度。犯罪分子往往是新兴技术的“首批用户”(first users)。在开源生成式 AI 模型发布后,Thorn 在暗网上的儿童虐待专属网站上观察到 AI 生成的虐待内容从零开始急剧增长。

生成式 AI 的滥用方式

Thorn 与 Stanford 合作的研究报告揭示了以下滥用模式:

  • 利用模型将成人图像逐步“减龄”,最终生成非法儿童材料
  • 从互联网获取真实儿童照片,通过 AI 转换为虐待材料(如 Disney World GoPro 案例)
  • 利用开源模型绕过商业模型的安全防护

AI 驱动的 Grooming 和 Sextortion

除了生成虚假图像,生成式 AI 还被用于构建虚假人设(personas)和语音克隆,以自动化地实施针对儿童的犯罪:

  • Grooming(诱骗):通过在线社交平台接近未成年人,建立信任关系,进而实施性剥削。
  • Sextortion(性勒索):诱骗受害者发送私密图片后立即进行勒索,要求支付金钱,否则公开图片。

有组织犯罪的规模化

Cordua 指出,sextortion 犯罪的来源已被追溯到尼日利亚和科特迪瓦的有组织犯罪集团。单个犯罪分子可以利用生成式 AI 同时运行数百个 sextortion 骗局,使用 AI 开发的人设和语音来模拟与儿童同龄的人进行对话。这是犯罪的工业化。

对执法的额外负担

AI 生成的虐待材料给执法带来了新的困境:这些图像如此逼真,以至于执法人员可能花费整整一年时间调查一个“受害儿童”的身份,结果发现这并非真实存在的儿童。同时,对于真实儿童而言,犯罪分子可以利用其公开照片生成新的虐待材料,造成持续的二次伤害。

Thorn 的研究数据显示:

  • 10% 的美国儿童接触过(制作或看到过)生成式 AI 生成的性虐待图像
  • 30% 的美国儿童曾被疑似成年人以性目的在线接触

地理屏障的消失

Cordua 引用其研究主管的话:“10 年前,地理距离还是一道保护屏障——如果你不住在施虐者附近,就不会被侵害。但互联网已经完全消除了这道屏障。” 如今,任何有网络连接的儿童都可能成为受害者。

本章小结

生成式 AI 为儿童保护领域带来了三重新挑战:(1)AI 生成的虚假 CSAM 大量涌现;(2)AI 人设被用于规模化实施 grooming 和 sextortion;(3)执法资源被虚假图像进一步分散。这些挑战要求检测技术必须同步演进。

Thorn 的技术解决方案:Safer 产品套件

Safer Match:哈希匹配

Thorn 最早的解决方案是 Safer Match——一套基于哈希匹配(hash matching)的系统。其工作原理如下:

  1. 维护一个全球已知 CSAM 文件的哈希列表(hash list)
  2. 科技公司将平台上的每一张图片和视频与该列表进行比对
  3. 匹配成功的内容立即下架并报告

哈希匹配的特点

哈希匹配的优势在于准确性极高——已知文件经过多重验证,“匹配即匹配”(a match is a match),无需人工复核即可自动报告。其局限在于只能发现“世界已经见过的”内容,无法检测全新的、从未被记录的虐待材料。适合作为初创公司的第一步安全措施。

Safer Predict:AI 预测模型

为了突破哈希匹配的局限,Thorn 开发了 Safer Predict——基于 AI 的预测分类器,能够对以下内容进行分类检测:

  • 图像分类:预测一张图片是否包含 CSAM 内容
  • 视频分类:分析视频内容是否包含虐待材料
  • 文本分类:检测对话中的 grooming 行为模式

预测模型的战略价值

Cordua 强调了预测模型与哈希匹配的关键区别:哈希匹配只能找到已知内容(通常对应已被解救的受害者),而预测模型能发现世界从未见过的新内容——这往往意味着一个正在遭受侵害的儿童,可以直接引导执法部门展开调查和救援。目前,Thorn 预测模型检测到的内容已超过其总检测量的一半。

Safer Review:保护审核员心理健康的审核工具

Thorn 产品套件的第三个组件是 Safer Review,一个专门为内容审核员设计的、充分考虑心理健康的审核界面:

  • 所有内容默认模糊处理(blurred),审核员不必直接面对完整图像
  • 每张图片附带 AI 生成的文字描述,审核员可以选择是否查看原图
  • 视频的声音默认关闭
  • 提供局部查看工具(cursor pen),审核员只需查看图像中做出判断所需的部分

内容审核的人力代价

内容审核的人力成本常被忽视。审核员被要求反复观看人类最恶劣的行为——不仅限于 CSAM,还包括仇恨言论、恐怖主义等内容。Cordua 指出,如何在大规模处理有害内容与保护审核员心理健康之间取得平衡,是产品设计中必须认真对待的问题。

本章小结

Thorn 的 Safer 产品套件提供了三层递进的防护:Safer Match 作为基础层快速阻止已知有害内容;Safer Predict 作为进阶层发现全新的虐待材料;Safer Review 则从人本角度保护执法和审核人员的心理健康。三者共同构成了完整的内容安全解决方案。

数据获取与模型训练的独特挑战

法律约束下的训练数据获取

训练 CSAM 检测模型面临一个独特的困境:CSAM 内容的持有和观看本身就是违法的。在美国,只有执法部门和 NCMEC 可以合法接触这些材料。Thorn 的解决方案是:

  1. 与 NCMEC 建立深度合作关系,将数据科学团队嵌入 NCMEC,在全球最大的 CSAM 数据库上训练模型
  2. Thorn 的数据科学家不能直接查看训练数据,而是依赖执法人员提供关于误报(false positives)的反馈来迭代模型
  3. 对于文本模型(grooming 检测),则使用实际的 grooming 对话数据进行训练

数据质量决定模型质量

Cordua 特别指出,其他尝试解决同一问题的团队由于缺乏对真实 CSAM 数据的访问权限,不得不使用色情内容和儿童图像的组合来训练模型,但效果远不如 Thorn 的模型。原因在于:“这不是色情——这是虐待,两者是不同的。” 真实训练数据的可及性是 Thorn 的核心竞争力之一。

与生成式 AI 公司的协作

约两年半前 OpenAI 发布产品后,Thorn 迅速与约 12 家主要的生成式 AI 公司建立了合作关系,包括 OpenAI、Anthropic、Inflection、Microsoft 和 Google。这些公司共同制定了一套 Safety by Design 原则,以降低其模型被用于制作 CSAM 的可能性。

Stability AI 的教训

Cordua 提到了一个反面案例:Stability AI 在发布其第一代模型时未清理训练数据集,导致犯罪分子大量使用该模型生成 CSAM。这一事件严重损害了公司声誉。Cordua 指出:“这对任何投资者都不是好事——以错误的方式做事不会创造价值。” 这个案例清楚地表明,Safety by Design 不仅是道德要求,也是商业上的明智选择。

NIST 标准与红队测试

Thorn 团队成员参与了美国 NIST(National Institute of Standards and Technology)标准委员会,协助制定了 AI 模型红队测试(red teaming)标准,专门确保模型不会生成 CSAM 内容。这些标准为行业提供了可操作的安全基准。

本章小结

CSAM 检测模型的训练面临独特的法律和伦理约束。Thorn 通过与 NCMEC 的嵌入式合作、与生成式 AI 公司的行业协作以及参与 NIST 标准制定,构建了一个从数据获取到模型部署的完整生态系统。

系统架构与商业模式

企业级部署架构

Thorn 的 Safer 系统采用企业内部部署模式:

  • 系统部署在客户公司自己的基础设施中(如 AWS S3 Bucket)
  • 哈希匹配和 AI 分类在客户环境内运行
  • 检测结果送达客户的内容审核团队
  • 内容审核团队根据公司的服务条款(Terms of Service)决定采取何种行动
  • 确认为非法内容后,通过与 NCMEC 的直连 API 进行报告

近期 Thorn 还推出了 API 模式,降低了小型公司的接入门槛——无需完整的企业级部署即可开始检测。

客户案例:X(原 Twitter)

X 是 Thorn 的客户之一。平台上的每一张图片和每一个视频都通过 Thorn 的系统进行扫描。这展示了系统的规模化能力——Thorn 在过去一年中为约 60 家科技公司合作伙伴处理了约 2000 亿份文件

执法端工具

除了面向科技公司的产品,Thorn 还将 AI 预测能力集成到了执法取证工具中:

  • 当执法部门查获嫌疑人的硬盘时,可以通过 Thorn 的预测工具进行扫描
  • 系统能将 TB 级硬盘中的海量文件筛选为约 2000 张需要人工关注的图像
  • 大幅提高了调查效率,使执法人员能专注于调查工作而非数据处理

混合商业模式

Thorn 采用慈善 + 营收的混合模式:

  • 前 6 年:传统非营利模式,依赖硅谷捐赠者的资金支持
  • 2019 年:赢得一项大型慈善竞赛,获得约 6000 万美元资金用于软件扩展
  • 当前:向科技公司销售Safer 软件,同时向执法部门提供付费或免费的工具

可持续的非营利模式

Thorn 的演变路径对社会企业具有参考意义:从纯慈善的研究与倡导,到获得战略性大额资金,再到建立可持续的软件销售收入模式。6000 万美元的慈善资金正是基于 Thorn 能够建立 earned revenue model(自有营收模式)的前提条件。

本章小结

Thorn 的技术架构兼顾了数据安全(客户端部署)和易用性(API 模式),覆盖了从科技公司到执法部门的完整链条。其混合商业模式证明了非营利组织也可以通过软件产品实现财务可持续性。

隐私与安全的平衡

端到端加密环境下的挑战

课堂讨论涉及了一个核心争议:在端到端加密(E2E encryption)环境中如何检测 CSAM。这与 Apple iCloud 照片扫描计划的争议直接相关——课程主持人曾在 Apple 参与相关工作。

Cordua 表达了明确的立场:隐私与安全可以共存

隐私与安全并非零和博弈

Cordua 的核心观点:“I don't think that privacy and safety can't live together.” 她提出的务实方案是:

  • 在非加密的公开环境中,必须进行主动检测——每家公司的服务条款都禁止非法活动,那么就应该有系统来执行这些条款
  • 在加密环境中,通过其他机制创造安全——例如扫描公开可见的个人资料图片(profile images)
  • CSAM 已在 Spotify、WhatsApp 等平台的用户头像中被发现

Telegram 案例

Cordua 提到了 Telegram 创始人被捕事件。逮捕后,Telegram 迅速调整了其政策,开始实施 CSAM 检测。这一案例表明,外部压力(无论是法律还是舆论)可以推动平台采取行动。

澳大利亚 eSafety 专员的新指南

澳大利亚电子安全专员(eSafety Commissioner)发布了新的指导原则:允许加密环境存在,但要求平台在其他环节建立安全机制。这代表了一种“既保护隐私又不放弃安全”的中间路线。

Meta 内容审核政策变更

当 Zuckerberg 宣布 Meta 调整内容审核策略时,引发了广泛担忧。但 Cordua 注意到一个关键细节:Zuckerberg 在声明中明确表示,儿童安全领域不仅不会削减投入,还会继续加大投资。这印证了 CSAM 问题的超越性——它跨越政治立场,在几乎所有利益相关方中都有共识。

本章小结

隐私与安全之间的张力是技术治理中的永恒话题。Cordua 的观点是务实的:在能检测的地方坚决检测,在加密环境中寻找替代方案。CSAM 问题的特殊性在于其不存在“灰色地带”——这是全球 170 个国家明确定义为非法的内容,因此在政策制定中更容易达成共识。

政策环境与政治动态

AI 安全行政令的撤销

讲座当天,前一天白宫刚撤销了 AI 安全行政令(AI Safety Executive Order)。Thorn 团队成员曾参与该行政令的制定过程,并在 NIST 标准委员会工作,帮助制定了 AI 模型的红队测试标准以确保不生成 CSAM。

Thorn 的超政治立场

Cordua 强调 Thorn 是一个“非常无党派的组织”(very apolitical organization),因为儿童保护问题超越政治。无论政治风向如何变化,保护儿童免受性虐待在两党中都有坚定支持。

为何政策变动影响有限

Cordua 认为行政令的撤销不会对儿童保护领域产生重大影响,理由如下:

  1. CSAM 不是需要“判断”的灰色内容,它在 170 个国家都是明确违法的
  2. AI 公司出于商业利益也会自律——没有公司愿意以“生产 CSAM 的公司”闻名
  3. Stability AI 的负面案例已经证明,忽视安全问题会直接损害公司价值

法律的局限:无检测义务

美国现行法律的一个关键缺陷是:科技公司没有义务主动检测 CSAM。法律只要求如果公司发现了此类内容,则必须报告给 NCMEC 并将其从平台删除。这意味着“不去看”就可以合法地规避责任。Thorn 的工作正是要推动公司主动“去看”。

本章小结

尽管政策环境不断变化,CSAM 问题因其跨越政治立场的共识性而具有相对的政策稳定性。真正的挑战不在于政策法规,而在于如何推动企业从被动合规走向主动防御。

预防:从检测走向提前干预

文本分析与 Grooming 模式检测

Thorn 正在将工作重心从“事后检测”扩展到“事前预防”。其文本分类模型能够识别 grooming 对话中的特定模式,在对话走向危险之前发出警告:

  • 分析对话文本中的语言模式,判断其是否可能发展为虐待性互动
  • 将可疑对话标记给平台的内容审核团队
  • 尽管 Cordua 坦承该技术“尚未达到 100%”,但方向已经明确

网络模式分析:Meta 的实践

Cordua 以 Meta/Instagram 为例,介绍了另一种预防手段——网络模式分析(network pattern analysis):

  1. Meta 发现了一个有组织犯罪集团在其平台上运营的模式
  2. 该犯罪集团创建大量虚假账户,以相似的模式与儿童建立联系
  3. 通过识别这种行为模式,Meta 一次性摧毁了整个犯罪网络

从个案检测到系统性预防

从单张图片的哈希匹配 \(\rightarrow\) AI 预测新内容 \(\rightarrow\) 文本对话模式识别 \(\rightarrow\) 犯罪网络模式分析,Thorn 和行业的演进方向是从被动响应走向主动预防,从单点检测走向系统性防御

家庭教育的不可替代性

在被问及如何保护儿童数据隐私时,Cordua 给出了一个坦诚而“略带沮丧”(jaded)的回答:

  • 生成式 AI 意味着任何人的肖像、声音和视频都可能被抓取并用于诈骗
  • 她告诫身边的人:“当你接到用你的声音说你被绑架了的电话,先挂断,然后打电话确认。”
  • 技术解决方案固然重要,但在当今时代,家庭对话和数字素养教育是不可替代的

新时代的育儿挑战

Cordua 指出,我们已经进入了一个需要“不同类型的育儿方式”的时代。家长必须理解技术的发展速度以及它被用于伤害的方式。软件解决方案和家庭对话需要双管齐下——仅靠技术不足以保护儿童。

本章小结

从检测到预防的转变是 Thorn 和整个行业的战略方向。技术手段(文本分析、网络模式识别)与社会手段(家庭教育、数字素养)需要协同工作。正如 Cordua 所言,“软件解决方案”和“对话”缺一不可。

创业公司的安全建设

实施安全的三大障碍

Cordua 总结了科技公司在儿童安全方面不作为的三大原因:

  1. 认知不足(Knowledge):许多公司根本不知道其平台可能被用于传播 CSAM。Cordua 断言:“任何有用户生成内容的地方就有儿童虐待内容。” 至今无人能反驳这一判断。
  2. 资金不足(Money):安全是成本中心(cost center),不直接创造商业价值。创业公司将所有资源投入产品开发和用户增长,安全建设被持续推迟。
  3. 优先级不足(Prioritization):即使知道问题存在并有预算,安全建设仍可能在产品路线图中排名靠后。

“先发展后治理”的代价

Cordua 基于 Thorn 的经验警告:如果在平台发展早期不实施安全措施,平台就会变成犯罪分子聚集的场所。当 Thorn 进入一个从未有过安全防护的平台进行首次扫描时,发现的有害内容量最大。“不是所有人都是坏人,只是少数坏人需要被找出来”——但如果你从不去找,他们就会留在你的平台上。

早期安全建设的价值

Cordua 强调,在产品开发早期就嵌入安全机制具有战略价值:

  • 防止平台被标记为“可以为所欲为的地方”
  • 初创公司可以从低成本的哈希匹配开始,逐步升级到 AI 预测
  • API 模式进一步降低了起步门槛

安全是设计问题,不是事后补救

Thorn 的核心倡导:Safety by Design。最有效的安全不是在问题爆发后被动应对,而是在产品设计阶段就将安全机制作为基础架构的一部分。对初创公司而言,这意味着在第一个版本就接入基础的 CSAM 检测,而非等到出事后再补救。

本章小结

对创业公司而言,儿童安全建设面临认知、资金和优先级三重障碍。但 Thorn 的经验表明,早期投入远比事后补救更有效、成本更低。从哈希匹配的“最低可行安全”开始,逐步升级到 AI 预测,是一条务实的路径。

使命驱动的组织管理

人才吸引与留存

Cordua 被问到如何在使命驱动型组织中留住技术人才时,给出了一个令人深思的回答:

使命感的力量

Cordua 描述了一个对比:在商业公司,工程师的成就感来自“你刚构建的东西让股价涨了一美元”;而在 Thorn,工程师接到的电话是“感谢你刚构建的东西,我们刚刚解救了一个孩子”。这种使命感是金钱无法衡量的留才因素。

Cordua 也现实地指出,她将在 Thorn 的工作比作“服役”(tour of duty)——“来试试格斗吧,看看你是否喜欢”——承认这份工作并非每个人都能长期承受,但即使是短期参与也极有价值。

组织的持续进化

在 13 年的发展历程中,Thorn 经历了四到五次组织重塑

  • 早期:纯研究和倡导型非营利组织,将科技公司的工程师聚集起来讨论问题
  • 中期:开始自建软件团队,因为没有人愿意构建所需的工具
  • 现在:运营模式更像一家小型软件公司,拥有专注于计算机视觉和机器学习的数据科学团队

SmugMug 案例:技术救人的真实故事

Thorn 的首个 beta 测试客户 SmugMug 实施了 Safer Predict 分类器。其内容审核主管在看到第一个检测警报时,本以为是误报,准备提供反馈帮助改进模型。然而打开文件后发现这是一个约 8-9 岁女孩的真实虐待图像。深入调查该账户后发现了约 200 张对同一女孩的虐待图像。自动报告后,24 小时内奥地利执法部门就上门救出了这个孩子,逮捕了多年来一直虐待她并将内容发布在公开网络上的父亲。

本章小结

Thorn 的组织管理经验表明,使命驱动的非营利组织能够吸引顶尖技术人才,但也需要持续的组织进化来适应不断变化的技术环境。13 年间四五次重塑,体现了面对快速演变的技术威胁所需的组织韧性。

总结与延伸

本讲通过 Thorn CEO Julie Cordua 的第一手经验,全方位展示了技术在儿童保护领域的应用。核心要点如下:

  1. 问题的规模令人震惊:每年超过 1 亿份 CSAM 文件被报告,30% 的儿童曾被在线性接触,生成式 AI 正在以指数级速度恶化局面。
  2. 技术既是问题也是解决方案:从哈希匹配到 AI 分类器,再到文本分析和网络模式识别,技术手段在不断进化以应对新型威胁。
  3. 数据获取是核心壁垒:在 CSAM 检测领域,高质量训练数据的合法获取渠道极为有限,Thorn 与 NCMEC 的嵌入式合作是其关键竞争优势。
  4. Safety by Design 是行业共识:Thorn 成功推动了 12 家主要生成式 AI 公司共同制定安全设计原则,预防优于补救。
  5. 隐私和安全可以共存:在非加密环境中主动检测,在加密环境中寻找替代安全机制,是一条务实的中间路线。
  6. 混合商业模式证明了可持续性:非营利组织也可以通过销售软件产品实现财务可持续性,不必永远依赖捐赠。
  7. 创新者责任:每一位技术创新者都应该在设计阶段就思考技术被滥用的可能性,并将安全作为产品的基础架构而非附加功能。
  8. 人的因素不可替代:无论技术多么先进,家庭教育、数字素养和内容审核员的心理健康都是不可忽视的人本维度。

拓展阅读

  • Thorn 官网https://www.thorn.org/ --- Thorn 组织的产品、研究和政策倡导
  • Stanford--Thorn 生成式 AI 研究报告:搜索 “Stanford Thorn generative AI child sexual abuse” 获取关于生成式 AI 滥用的合作研究
  • NCMEChttps://www.missingkids.org/ --- 美国国家失踪与被剥削儿童中心
  • Safety by Design 原则:Thorn 推动的生成式 AI 公司安全设计承诺
  • 澳大利亚 eSafety Commissionerhttps://www.esafety.gov.au/ --- 关于加密环境中安全机制的政策指南
  • PhotoDNA:Microsoft 开发的另一种基于哈希的 CSAM 检测技术
  • NIST AI 安全标准:美国国家标准与技术研究院发布的 AI 模型红队测试框架