算法的「美意」，险些毁了一位父亲的人生

来源：正大期货-正大国际期货-专业国际期货交易平台作者：网络时间：2022-08-24

家住旧金山的马克怎么都没想到，原本急着给自己儿子看病，给医生发了一张照片，效果却让自己险些身败名裂。

事情发生在去年年头，由于那时仍处在疫情岑岭期，一些非紧要医疗机构都关闭了服务，也包罗马克家选择的儿童诊所。马克发现自己儿子的私处泛起肿胀，急遽追求专业人士的辅助，和医生打视频电话。

在视频之前，护士让马克发一张照片给医生看下。马克照做了。

然而让他没想到的是，这张照片可给他惹了大祸了。

01、爱子心切的父亲，算高眼中的“恋童癖”

在照片发出的两天后，马克突然接到了谷歌的一纸通知。

由于涉嫌储存和流传有害内容，严重违反用户协媾和公司政策，而且涉嫌违法，他的谷歌账号被完全关闭。

由于马克是谷歌全家桶的忠适用户，谷歌这一决议的结果相当凄惨：

他不仅失去了自己的 Gmail 邮件、通讯录、日历，还由于是 Google Fi 虚拟运营商的用户，连手机号都被一起冻结了。

到了这里，噩梦还远未竣事。

谷歌不仅封了他的账号，还直接把这件事报到专门袭击儿童色情/性荼毒内容的监视机构那去了，该机构厥后又联系了旧金山警员部门。终于在去年年底，旧金山警方从谷歌公司那里调取了关于马克的所有资料和纪录，正式对马克睁开了观察。

长达一年的时间里，马克面临“恋童癖”的严重指控，事情生涯都难以开展，甚至险些“身败名裂”……

《纽约时报》形貌此事的文章提到，将马克置于尴尬田地的，正是谷歌少为人知的儿童性荼毒内容袭击系统。

凭证美国政府的界说，儿童性荼毒内容（Child Sexual Abuse Material，以下简称 CSAM），包罗照片、视频等，只要其中涉及未成年人露骨色情行为的画面，都属于此类内容。更详细来说，涉及包罗诱骗、勒索、展示/激昂/张扬性化 (sexualization) 未成年人、拐卖儿童性子的内容，都属于谷歌明令阻止的CSAM 局限。

图片泉源：谷歌

为了防止平台、产物和手艺被用于流传 CSAM，谷歌投入了大量资源，对 CSAM 举行扫描、阻止、移除和举报——然而这次让马克遭殃的并不是谷歌的扫描手艺，而是谷歌的人工检验流程出了疏漏。

在各大公司，CSAM 检索和事后举报的流程，都包罗了算法扫描和人工检验的双保险制度，谷歌也难免俗。然而在马克的遭遇当中，在算法发现了照片，并自动触发系统锁死马克的账户，并交由人工检验之后，核查员似乎并没有思量那时的场景，没有发现这张照片是发给医疗专业人士的。

事后，马克立刻举行了申诉。然而谷歌不仅拒绝复核之前做出的决议，甚至都不让他下载保留自己的数据。被关闭的账号，数据在两个月后就被自动删除了，马克失去了已往多年积累的许多主要信息。

事情就这样拖了整整一年，直到去年年底警方正式启动了观察。

在这一年里，马克几近“社死”，很难跟同事和同伙完整、忠实地注释，自己的电话号码、邮箱，为什么突然就凭空消逝了。

直到今年前不久，当地警刚刚完成了观察并予以了案。

效果毫无意外：马克无罪。

对于把自己的忠适用户推进深渊，谷歌用执法作为挡箭牌的注释，很通情达理，却也绵软无力。一位公司谈话人示意，美国的儿童珍爱相关执法要求像谷歌这样的公司必须对发现的 CSAM 事宜举行上报。

凭证谷歌的透明度讲述，仅在2021年度，公司就屏障了近120万个涉及 CSAM 的超链接，向美国相关监视机构“天下失踪与受虐儿童服务中央” (NCMEC) 提交了87万份讲述，涉及约670万条内容，关闭了约27万个账号。

遗憾的是，马克不幸成为了27万分之一。

身处这27万人中央，就像那些进了牢狱却高喊着无辜的人一样，那种有冤情说不出，说出也不被人信托的滋味，简直无法想象。

02、美意办坏事

在先容袭击 CSAM 事情的官方页面上，谷歌宣称，公司组建并训练了专门的队伍，使用最*的手艺来识别 CSAM。

现在在美国大公司的局限里，检索 CSAM 有两种手艺途径：哈希值匹配，和盘算机视觉识别。

哈希值匹配对照简朴，就是调取市面上第三方机构维护的数据库里的条目，和自己平台上的图片举行哈希值匹配，从而检测已知的 CSAM 相关内容。这方面早年谷歌曾经用过微软的 PhotoDNA。这项手艺已经存在了10年多的时间了，不止谷歌，包罗 Meta、Reddit、Twitter 等公司，以及 CSAM 领域的权威公共监视机构 NCMEC，都在使用它。

图片泉源：微软

以及，谷歌系的 YouTube 也在使用自研的 CSAI Match 手艺来，实现流媒体视频的哈希匹配。

固然，天天都有新的违法图片和视频降生，以是除了哈希匹配之外，谷歌还自研并部署了基于盘算机视觉手艺的机械学习分类器，从而检索“未曾见过”的相关内容。

谷歌将这一手艺整合到了 Content Safety API 当中，也开放给第三方使用。现在，包罗 Meta、Reddit、Adobe、雅虎等公司，也是谷歌自研 CSAM 检索手艺的用户和互助同伴。

图片泉源：谷歌

至于本次案件，谷歌似乎是从马克的 Google Photos 检索到了相关内容。

Google Photos 是谷歌推出的照片备份和云端相册服务，在自有品牌以及其它一些主流 Android 手机厂商的机型上都有预装。值得注重的是，用户在 Google Photos 里登录谷歌账号后，应用会提醒建议用户打开自动上传备份——马克可能就是在这里吃了亏。

若是打开了自动上传功效，除了在某些第三方应用（好比 Twitter、Instagram) 下载的照片之外，包罗相机照片集，以及手机上天生的其它照片，都市被 Google Photos 会自动上传到云端。

而凭证官方网站和公司谈话人透露的情形，谷歌不止明令限制用户通过 Google Photos 上传和流传相关内容，它的 CSAM 袭击系统，也会对 Google Photos 里的照片举行扫描和匹配。

问题在于，凭证谷歌谈话人的表述，CSAM 袭击系统的工具仅限于用户“自动行为” (affirmative action) 上传的图片。

从务实的角度来看，马克开启了 Google Photos 自动上传，效果由于急着给娃看病，拍了这张照片，自动上传了，忘了删，转头被谷歌找上穷苦——这样也要算作自动行为，未免有点牵强。

图片泉源：《纽约时报》

扫描 CSAM，能够珍爱儿童平安，有用地袭击恋童癖和种种变态，听上去怎么都是一件好事对纰谬？

然而现实上，近年来美国大型互联网和科技公司在做这件事的时刻种种问题故障和丑闻不停——效果就是，算法自动化袭击 CSAM 这件事，在手艺道德和隐私权方面已经引发了伟大争议。

若是把谷歌这次乌龙事宜形容为“人祸”的话，那么去年统一时间苹果出的事故，可以称得上“天灾”了。

去年8月初，苹果突然宣布，将要在 iOS 平台上推出一个专门扫描 CSAM 的客户端侧工具。

图片泉源：苹果公司

苹果突出的要害词在“端侧”上：和谷歌一直以来扫描云端服务器存储的用户内容的做法差异，苹果示意只会在用户装备上做这件事，系统会下载 NCMEC 的数据库，然后完全在内陆举行哈希值匹配。

然而，苹果所谓的“端侧”、“注重隐私”等，只是外面说辞。有专家发现，现实上用户发送到 iCloud 保留的照片也会成为检测工具。另有研究者发现苹果所接纳的匹配算法 NeuralHash 存在设计理念缺陷。而且这一手艺基本不是即将推出，而是良久以前就偷偷植入到公然版 iOS 里了，苹果还专门混淆了 API 命名，以便“隐姓埋名”。

效果，苹果宣布了这件事之后没出一个月，就有人对 NeuralHash 算法实现了哈希碰撞和“原像攻击”。

简朴来说，哈希碰撞就是找到两张哈希值相同的随机照片；而原像攻击，则是“刻意天生的碰撞”，也即先给定一张照片，然后天生另一张和其哈希值相同，但内容差其余照片。

甚至，有人直接在广受迎接的 ImageNet 标注图像数据库里，都能够找到几对自然的 NeuralHash “双胞胎”（两张差其余原视图片，哈希值相同）……

这些攻击测试的效果，从原理和逻辑上直接推翻了苹果的 CSAM 检索手艺，使其一文不值。