当前位置: 100md首页 > 医学版 > 医学资料 > 资料下载2021
编号:6299
被算法操控的生活.pdf
http://www.100md.com 2020年12月2日
第1页
第10页
第19页
第25页
第45页
第241页

    参见附件(15546KB,257页)。

     重新定义精准广告、大数据和AI

    对于非程序员和人工智能相关的人非常友好,深入浅出,对算法有一个比较全面和辩证的了解,被算法操控的生活:重新定义精准广告、大数据和AI一书帮助了解生活中的算法,但讲得有点不够利索,感觉还不如看《数学之美》+《智能时代》。

    被算法操控的生活预览

    推荐理由

    深入谷歌、脸书、推特、的算法黑箱,揭示科技巨头塑造的智能时代隐形秩序 ★类似人类的智能形式只会是人类自己;打破AI崇拜的诚意之作,颠覆大众对人工智能的流行认知 《智能时代》《AI·未来》没有透露的算法知识,任何人都能在这里看懂。

    内容简介

    这是一个“算法世界”:建立在数据之上的算法指导社会的运行、决定我们能在网上看到什么;它更是自动驾驶、智能管家、未来医疗以至智慧城市的基石。如果我们不了解算法如何使用数据,就无法知道人工智能将如何改变我们的生活。

    在本书中,大卫·萨普特将引领读者展开一段有关算法的趣味旅程,了解数学阴暗的一面。通过采访那些在算法研究领域工作的科学家,以及动手进行有趣的数学实验,他介绍了那些能够分析我们、影响我们,甚至会变得更像我们的算法。你将由此明白谷歌搜索是否存在种族歧视和性别歧视,为什么选举预测有时会与真实的选举结果间存在巨大的偏差,使用算法来找出罪犯是不是一个严重的错误,以及我们把决策权交给机器时,未来又会发生什么……

    萨普特还将深入浅出地告诉我们,到底是什么样的算法在支撑着最能聊天的 AI——水谷、围棋中的无冕之王阿尔法狗 - 零和传说中的写作机器人。他所道出的真相将刷新我们的观念:直到今天,AI 的智能都仅与大肠杆菌相当,和某些科技巨头的激进预测相反,取代人类的超级 AI 其实离我们非常遥远。

    作者介绍

    大卫?萨普特(David Sumpter)

    国际顶尖数学家和数学科普作家

    瑞典乌普萨拉大学应用数学教授

    英国皇家学会奖金获得者

    大卫?萨普特是瑞典乌普萨拉大学应用数 学教授。他出生于伦敦,在曼彻斯特大学

    完成了数学博士学位,并在牛津大学获得 了皇家学会奖学金。他的研究范 围非常广

    泛,尤其擅长跨学科研究,如机器学习、 人工智能、鱼群和蚁群的集体活动,以及

    足球运动背后的数学原理。

    萨普特还为《经济学人》《今日数学》《每 日电讯报》《当代生物学》和《4-4-2》(国际最重磅的足球杂志)等权威刊物撰稿。2015 年,为表彰萨普特在数学科学普及上做出的突出贡献,英国顶尖数学家成立的数学及应用研究所授予他凯瑟琳?理查兹奖。

    目录介绍

    第一部分

    算法在监视我们

    互联网对个人数据了什么?/1

    算法不停地旋转和降维你的数据集,直到它能读懂你、透视你。它使脸书能用点“赞”情况预测你的性格,从表情、照片甚至你与屏幕的互动来评价你的精神状态。算法的高维理解完胜你对自己的了解,但它们并不具备完美的预测能力和公平公正的态度。

    1 第 1 章|数学不仅大煞风景,还会败坏道德?

    1 谷歌人:统计数据越多越好

    5 “伯明翰 ISIS”:数学杀伤性武器引发的血案

    9 第 2 章|算法无处不在,我们却对它一无所知

    9 黑箱操控—互联网巨头不想说的事

    11 给重定向广告加点“噪音”

    13 算法也会歧视人

    16 第 3 章|你以为自己了解朋友?脸书比你更懂他们

    17 社交网络的黑箱世界

    20 主成分分析法:15个帖子就能让他人读懂我们的生活

    25 第 4 章|脸书比你更了解你的人格和行为

    26 你点的“赞”在暴露你的智商

    28 你的情绪已被脸书编号

    33 第 5 章|剑桥分析公司如何玩转总统选举

    34 人格决定选票

    37 为政治操控每一种情感

    40 算法告诉共和党,该去星巴克拉选票

    44 脸书很了解你,但它未必能预测你的行为

    49 第 6 章|要算法毫无偏见?不可能!

    50 定义偏见是道数学难题

    54 相同的误报率和相同的漏报率不可兼得

    58 只有悖论,没有公平

    61 第 7 章|数据炼金术士

    62 算法不知道的事情

    66 精准广告:互联网公司滥用了私人信息吗?

    68 人肉预测与模型预测,谁更胜一筹?

    第二部分

    算法想控制我们

    网络能否影响情绪和行为?/73

    脸书过滤我们的消息流,推特过滤我们的时间轴,谷歌过滤我们的搜索结果。我们越是点击某类信息,这些“过滤器”算法就越是推送相关内容。由此形成的回声室和气泡是否真如媒体所说,让我们只看到自己想看的东西,以至我们的行为也受控于它们?

    75 第 8 章|预测竞选结果的模型是怎么“炼”成的?

    76 选举结果只有两种,但概率世界并非如此

    82 群众的智慧 = 超级预言家

    88 不考虑市场的模型不是好算法

    93 第 9 章|互联网本质:“大家也喜欢”

    94 亚马逊推荐:“私人定制”的秘密

    98 另一个世界的音乐排行榜

    101 让“链接果汁”流动起来

    104 羊群效应:读者似乎永远不长记性

    107 第 10 章|人气竞赛

    108 时事造人,算法造 YouTube 网红

    112 被谷歌学术“劫持”的科学家

    118 美国陌陌 App 的速配秘诀

    122 第 11 章|过滤气泡在翻腾

    122 脸书、谷歌、推特在误导我们?

    127 一次点击,次次点击

    131 为什么阴谋论者比科学家更淡定?

    135 其实,负面信息很难左右你的情绪

    141第 12 章|网络回声室:互联网时代的信息闭塞?

    142社交媒体的气泡并非密不透风

    145推特上,你和反对者只隔六个人

    150 第 13 章|谁在看假新闻?

    150曼德拉效应

    155特朗普是天选之人?

    160虚假报道本身就写于气泡之中

    第三部分

    人工智能的未来

    算法越来越像人类了吗?/165

    既没有人类的规则手册,也没有专门的搜索算法,阿尔法狗 - 零通过无数局自我对弈成为围棋大师。这是否预示着,算法自行发明智能机器并系统迭代自身的奇点已经临近?为何埃隆?马斯克等顶级精英都愿意相信,超级人工智能将带来世界末日?

    166 第 14 章|“学”出来的性别歧视

    167算法决策:对付人类偏见的办法

    169谷歌搜索如何理解我们的语言 ?

    176无监督学习把算法变成“坏学生”

    183 第 15 章|计算机作家

    184一个智能作家的诞生

    188如何训练神经网络成为托尔斯泰?

    192苹果 Siri 与神经网络聊天机器人

    199 第 16 章|智能超级玩家

    200从游戏白痴到游戏天才,算法仅需自学数周

    203卷积神经网,卷积出奇迹

    205神经网络能够识别人脸,却无法规划全局

    209阿尔法狗 - 零:强人工智能离我们只有十年?

    213 第 17 章|细菌大脑

    214世界末日与超级电脑

    218人工智能 PK 微生物智慧

    223胃肠道细菌的“智能”为何让聪明人如临大敌?

    228 第 18 章|回到现实吧

    228“埃隆?马斯克是个白痴”

    231 推特的好友推荐让我们活得更美好

    被算法操控的生活截图

    图书在版编目(CIP)数据

    被算法操控的生活:重新定义精准广告、大数据和AI (瑞)大卫?萨普特

    (David Sumpter)著;易文波译.一一长沙:湖南科学技术出版社,2020.1

    ISBN 978-7-5710-0301-2

    I .①被…n .①大…②易…in.①数据处理②人工 -

    智能IV ?①TP274②TP18

    中国版本图书馆CIP数据核字(2019)第195197号

    Outnumbered: From Facebook and Google to Fake News and Filter bubbles - The Algorithms

    That Control Our Lives

    Copyright ? 2018 by David Sumpter

    Simplified Chinese edition copyright ? 2020 by Grand China Publishing House

    Published by arranged with Bloomsbury Publishing PLC through Big Apple Agency, Inc

    Lauban, Malaysia.

    本书中文简体字版通过Grand China Publishing House (中资出版社)授权湖南科

    学技术出版社在中国大陆地区出版并独家发行。未经出版者书面许可,本书的任何部分

    不得以任何方式抄袭、节录或翻印。

    BEI SUANFA CAOKONG DE SHENGHUO CHONGXIN DINGYI JINGZHUN GUANGGAO DASHUJU HE AI

    被算法操控的生活— —重新定义精准广告、大数据和AI

    著 者:[瑞典]大卫?萨普特(David Sumpter)

    译 者:易文波

    策 划:中资海派

    执行策划:黄河桂林

    责任编辑:汤伟武

    特约编辑:林晖陈彬

    岀版发行:湖南科学技术出版社

    社 址:长沙市湘雅路276号

    http:hnkjcbs.tmall.com

    湖南科学技术出版社天猫旗舰店网址:

    http:hnkjcbs.tmall.com

    印 刷:深圳市雅佳图印刷有限公司

    (印装质量问题请直接与本厂联系)

    厂 址:深圳市龙岗区布吉坂田大发埔村大发路29号C栋一楼

    邮 编:518116

    版 次:2020年1月第1版

    印 次:2020年1月第1次印刷

    开 本:710mm x 1000mm 116

    印 张:16

    字 数:R2干字

    书 号:ISBN 978-7-5710-0301-2

    定 价:59.80元

    (版权所有?翻印必究)计算机语言和开发平台日新月异,但万变不离其宗的是

    那些算法和理论……如果你把计算机的发展放到应用和数据

    飞速增长的环境下,你一定会发现:算法的重要性不是在日

    益减少,而是在日益加强。

    — —李开复OUTNUMBERED

    权威推荐

    《科克斯书评》(Kirkus Reviews )

    《被算法操控的生活》独具特色……对互联网数据操控的分

    析颇具洞察力和趣味性,对现在的流行观点抱有怀疑态度。

    《出版商周刊》(Publishers Weekly )

    —本给人启迪的书。

    《金融时报》(Financial Times )

    萨普特的专业分析和质疑观点因本书中的趣味案例而不再枯

    燥乏味,这些案例包括寻找街头艺术家班克西,以及训练神经网

    络玩《太空入侵者》游戏。

    《科技新时代》(Popular Science )

    《被算法操控的生活》传递了非常重要的讯息。

    《卫报》( The Guardian )

    萨普特对操纵我们数字生活的庞大系统进行了深入的思考,抽丝剥茧地解开了这些系统背后的数学秘密,清晰地向我们展示 了这些看起来十分高级的运算,这些运算控制着系统输出的结果,同时

    也制约着这些系统本身。

    约翰?默多克(John Bum-Murdoch )

    英国《金融时报》数据新闻记者

    当数以百万计的人慢慢意识到自己落入了陷阱,正在将数字生活的

    信息交给科技巨头时,萨普特通过采访算法研究领域的内部人士,结合

    引人入胜的亲自演示,向读者揭示了数据“炼金术士”们试图说服和预

    测我们的方法,并为我们验证算法是否真的像他们吹嘘的那样无所不能。

    蒂曼德拉?哈克尼斯( Timandra Harkness )

    《大数据》(BigData)作者

    你一定听说过有些算法能够操控你的生活,所以你很可能想要知道

    两件事:算法是如何操控你的生活的?对于这种操控,我们到底应不应

    该担心。萨普特以坦诚的态度和大多数人未曾接触的深度知识回答了这

    两个问题。

    凯特?耶茨(Kit Yates )

    英国巴斯大学数学科学系高级讲师

    《被算法操控的生活》是一本关于数学在现实世界中如何应用的一

    流作品,写得十分引人入胜。每一章都讲述了一个回味无穷的故事,而

    萨普特热情和诙谐的风格也表明,数学家不仅仅是一台把咖啡变成定理

    的机器。OUTNUMBERED

    推荐序I

    窥视我们隐私的互联网,背后有何真相?

    《科克斯书评》

    关于数据如何入侵我们的生活这一话题,本书中的深入研究

    让人由衷信服。

    专家们总是不厌其烦地警告我们:如今的数字技术能够窥探

    到我们内心最深处的秘密。本书的内容也与数字技术相关,而且

    写得极为精彩,但与其他同类书籍相比略显不同的是,作者萨普

    特(瑞典乌普萨拉大学应用数学教授,著有《足球数学》)认为上

    述看法虽然不无道理,但也存在着严重的缺陷。本书并非一场唇

    枪舌剑的论战,它更多的是在进行调查性研究,通过事实推导出

    结论,对人工智能中常用的数学方法和工具进行深入浅出地讲解。

    它向我们展示了社交媒体、搜索引擎和商业公司如何收集我们在

    网上留下的痕迹(这些痕迹往往能透露出我们的品味\个性和政

    治立场),并通过一系列的规则(也就是算法)对其加以利用。

    通过为自己量身走制的广告完成购买行为,或许让一些读者

    感到舒适便利,但在阅读本书之后,他们可能就会对这类广告退 避三舍了。因为他们将意识到,自己每一次

    103 让“链接果汁”流动起来

    106 羊群效应:读者似乎永远不长记性

    109第10章丨人气竞赛

    110 时势造人,算法造YouTube网红

    114 被谷歌学术“劫持”的科学家

    120 美国陌陌App的速配秘诀

    124 第章丨过滤气泡在翻腾

    124 脸书、谷歌、推特在误导我们?

    129 —次点击,次次点击

    133 为什么阴谋论者比科学家更淡定?

    137 其实,负面信息几乎不会影响你的情绪人工智能的未来

    算法越来越像人类了

    吗?

    既没有人类的规则手册,也没有专门的搜索算法,阿尔法狗-零通过无数

    局自我对弈成为围棋大

    师。这是否预示着,算法

    自行发明智能机器并系

    统性地迭代自身的奇点

    已经临近?为何埃隆?马

    斯克等顶级精英都愿意

    相信,超级人工智能将带

    来世界末日?

    143第12章|网络回声室:

    互联网时代的信息闭塞?

    144社交媒体的气泡并非密不透风

    147推特上,你和反对者只隔六个人

    152第13章丨谁在看假新闻?

    152曼德拉效应

    157特朗普是天选之人?

    162虚假报道本身就写于气泡之中

    169第也章丨“学”出来的性别歧视

    170算法决策:对付人类偏见的办法

    172谷歌搜索如何理解我们的语言。

    179无监督学习把算法变成“坏学生”

    186第15章丨计算机作家

    187 —个智能作家的诞生

    191如何训练神经网络成为托尔斯泰?

    195苹果Siri与神经网络聊天机器人

    202第16章丨智能超级玩家

    203从游戏白痴到游戏天才,算法仅需自学数周

    206卷积神经网,卷积出奇迹

    208神经网络能够识别人脸,却无法规划全局

    212阿尔法狗-零:强人工智能离我们只有十年?216第17章丨细菌大脑

    217世界末日与超级电脑

    221人工智能PK微生物智慧

    226胃肠道细菌的“智能”为何让聪明人如临大敌?

    231第18章丨回到现实吧

    231 “埃隆?马斯克是个白痴”

    234推特的好友推荐让我们活得更美好第一部分

    算法在监视我们

    互联网对个人数据做了什么?

    算法不停地旋转和降维你的数据集,直到

    它能读懂你、透视你。它使脸书能用点“赞”

    情况预测你的性格,从表情、照片甚至你与屏

    幕的互动来评价你的精神状态。算法的高维理

    解完胜你对自己的了解,但它们并不具备完美

    的预测能力和公平公正的态度。第1章丨数学不仅大煞风景,还会败坏道德2

    2016年3月,三位来自伦敦的研究员和一位来自美国得克萨斯州

    的犯罪学家在《空间科学} ( Journal of Spatial Science)期刊上发表了

    —篇论文。文章以枯燥、学究的方式呈现研究方法,但论文本身并不深

    奥和抽象。文章标题开宗明义:“寻找班克西(Banksy )——地理侧写

    (Geographic Profiling )①解开现代艺术之谜”。也就是通过数学来追踪

    世界上最负盛名的涂鸦艺术家。

    谷歌人:统计数据越多越好

    研究人员首先通过班克西的网站来找到他街头作品的位置。之后他

    们系统地造访班克西的所有画作,包括出现在伦敦和他家乡布里斯托的涂

    鸦,并用GPS记录下它们的位置。采集到这些数据后,研究人员绘制了

    —个热图。假定班克西通常在家附近进行创作,那么热图上色调更亮的区

    域就表示班克西很有可能曾在此生活。

    ①地理侧写其实是一种刑事调查方法,通过分析连环杀人或强奸案件发生的位置,以确定最

    可能的犯罪者所居住的区域。— —译者注(本书注释无特别说明皆为译者注,下同)被算法操控的生活

    OUTNUMBERED

    伦敦的地理侧写图上最热的点离一个人的女友曾经的住址仅500米,以前有人推测这个人可能就是班克西。而在布里斯托热点图上,颜色最亮

    的地方同样是这个人曾经的住处和他效力过的足球队的球场附近。文章因

    此推断,符合地理侧写特征的这个人极有可能就是班克西。

    刚读到这篇文章时,我的感受和看到同行做出一些成绩时的大多数

    学者一样五味杂陈,既觉得有趣,又感到嫉妒。这项研究是对数学的聪明

    应用。这正是我孜孜以求的应用数学:充分发挥想象力,然后合理运用数

    学方法。真希望做这项研究的是我本人。

    但接着读下去的时候,我开始有些不舒服了。我喜欢班克西,在我

    的咖啡桌上就放着一本他的涂鸦作品集,书中还有他的俏皮话语录。我还

    曾徜徉于伦敦的街头巷尾,寻觅他的墙上涂鸦。曾经有个视频展示的是他

    意义非凡的艺术作品在纽约中央公园货摊上无人问津的情景,我不禁对此

    开怀大笑。他在约旦河西岸(The West Bank )和法国加来(Calais )移民

    营的作品,让我对自己享有的特权深感不安,提醒我身在福中要知福。我

    无须某些情感冷漠的学者用算法告诉我班克西是谁。

    他之所以成为我们眼中的班克西,是因为他会在夜晚悄悄地潜入我

    们的街区,然后在天亮前留下艺术作品,揭示我们社会的虚伪,正所谓“事

    后拂衣去,深藏功与名”。

    数学在摧毁艺术。冷冰冰的逻辑统计在伦敦街头追踪穿着套头衫的

    自由斗士,这是荒谬的。寻找班克西应该是警察和小报记者的活儿,不应

    该是拥有自由思想的学者们该做的。他们自作聪明,以为自己是谁?

    当读到这片关于班克西的文章时,我的作品《足球数学{Soccermatics)

    快要出版了。我写这本与足球相关的书,目的是带领读者在这项奇妙的运动

    中开启一场数学之旅。通过这本书,我想说明一点:足球场上的结构和各种

    阵法里都隐藏着数学的影子。

    《足球数学》出版之后,媒体对它满怀兴趣,每天都要求我接受采访。

    4 ?鈴立1算法在监视我们 弟一口卩刀|互联网对个人数据做了什么。

    大多数情况下,记者们和我一样为足球里蕴藏的数学奥秘而着迷,但也不

    断向我抛出一个不那么容易回答的问题。记者们告诉我,读者很想知道我

    是否认为足球中蕴含的数学夺去了这项运动的激情。

    “当然没有!”我有些愤怒地回答。我解释,足球这项博大精深的运

    动有足够的空间让逻辑思维和激情并行不悖。

    但是通过数学找出班克西难道就没有夺走他艺术作品的一丝神秘感

    吗?可笑的是,我也将数学用在了足球上面。或许我对足球的所做的和那

    些空间统计学家加诸在街头涂鸦上的事情没有丝毫差别。

    2016年5月底,谷歌邀请我到他们的伦敦总部,做一个关于足球里

    蕴藏着的数学奥秘的演讲。演讲是由《足球数学》的编辑丽贝卡安排的,我们都很想参观一下谷歌的研究部门。

    谷歌果然没有让我们失望。他们的办公室非常好找,就坐落在白金

    汉宫街上,大堂里耸立着高大的乐高模型,冰箱里塞满了保健饮料和超能

    食品。他们称自己为“谷歌人”,显而易见,他们对自己的办公环境非常

    〕两忌、O

    我向一些谷歌人询问公司目前的情况。此前我就听说过自动驾驶汽

    车、谷歌眼镜、隐形眼镜、送货上门的无人机,以及向我们的身体注射纳

    米颗粒来检测疾病的传闻,我想知道有关它们的更多信息。

    但是谷歌人戒备心很强。谷歌的创新活动曾经因为采纳了一些过于

    疯狂的创意而招致批评,后续的公关活动还不太成功。在这之后,公司政

    策规定员工不能再向外界过多透露公司的情况。当时谷歌的高级技术项目

    负责人是雷吉娜?杜根(Regina Dugan ),此前她在美国国防部高级研究

    计划局(Defense Advanced Research Projects Agency, DARPA )担任同样

    的职务。她在谷歌推行“适度知情” (need to know )的信息共享原则。研

    究部门目前由许多小组组成,每个小组负责各自的项目,并在小组内部共

    享想法和数据。被算法操控的生活

    OUTNUMBERED

    —名谷歌人禁不住我们连番的追问,终于愿意和我们聊起一个项目。

    据他了解,谷歌正通过DeepMind①来对肾衰竭进行医疗诊断。他们计划

    利用机器学习来发现医生漏诊的肾脏疾病的模式。DeepMind是谷歌的一

    个研究部门,它已经让一台计算机成为了世界上最好的围棋选手,并开发

    了一种算法来精通《太空入侵者》(Space Invaders )等老式街机游戏的玩法。

    现在,它可通过检索英国国民医疗服务系统(National Health Service,NHS)的病人诊断记录,找岀疾病发生的模式。未来,DeepMind将成为

    医生的智能计算助手。

    和我第一次读到那篇关于班克西的文章时一样,我再次觉得五味杂陈,既嫉妒谷歌人又渴望自己成为他们当中的一员,利用算法发现疾病、改善

    医疗保健。想象一下,如果你能借助你所擅长的技能,通过自己获得的财

    力和数据来执行这样的项目以拯救生命,那将是一件多么了不起的事情。

    但丽贝卡不是那么激动,她说:“我不确定是否希望谷歌拥有我的一

    切医疗数据。想到他们可能将这些医疗数据和我的其他个人数据一起结合

    使用,我就忧心忡忡。”

    她的反应让我再度陷入思考。如今关涉健康和生活方式的数据库正

    在以前所未有的速度积累数据。谷歌过去一直遵守严格的数据保护原则,但泄密的风险始终存在。为了更加全面地了解我们以及我们生病的原因,未来的社会可能会要求我们将使用谷歌的搜索记录和我们的社交媒体及健

    康数据关联起来。

    在我演讲之前,我们没有太多时间来讨论被数据所驱动的医学研究

    有何利弊。而当我一打开足球的话匣子,我很快就忘记了整件事情。谷歌

    的员工们对我的演讲很感兴趣,并且提了不少问题:最新、最先进的摄影

    跟踪技术是什么?通过不断地改善策略,机器学习能够取代足球经理吗?

    ①DeepMind是一家英国人工智能公司,创建于2010年。最初名称是DeepMind科技(DeepMind

    Technologies Limited ),在2014年被谷歌收购。由这家公司研发的阿尔法狗打败了中国的围

    棋冠军柯洁。鈴—立1算法在监视我们 弟一口卩刀[互联网对个人数据做了什么?

    另外他们还提了一些关于数据采集和机器人足球的技术问题。

    谷歌人没有问我是否认为数据剥夺了足球运动的灵魂。依我看,他们

    高兴还来不及。只要让球员佩戴24小时的健康和营养监控设备,他们就能

    更全面了解球员的身体状况。对于谷歌人来说,他们获得的数据越多越好。

    “伯明翰ISIS” :数学杀伤性武器引发的血案

    我和谷歌人有一些共同之处,正如我和研究班克西的统计学家有一

    些共同之处一样。在电脑上查询国民医疗服务系统的病人数据库,或者通

    过空间统计学追踪罪犯,当然很酷。不论是在伦敦、柏林、纽约,还是在

    加利福尼亚、斯德哥尔摩,上海或东京,都有和我们一样的数学极客在收

    集和处理数据。

    我们设计算法来识别面孔、理解语言、了解我们的音乐品味;我们

    创建个人助理和聊天机器人来帮你排除电脑故障;我们预测选举和比赛结

    果;我们帮助单身人士找到理想伴侣,或帮助他们对现有的潜在交往对象

    ——筛选;我们尝试在脸书和推特(Twitter)上给你推送与你最为密切相

    关的新闻;我们确保你找到最佳的假日去处和廉价航班。我们的目的就是

    通过数据和算法让生活变得更美好。

    但事实真的如此简单吗?数学家正在让世界变得更加美好吗?我对

    空间统计学家解密班克西的反应,足球记者对我《足球数学》一书中数学

    算法模型的反应,以及丽贝卡对谷歌使用医疗数据库的反应,并非不正常

    或多虑。相反,这些反应非常自然。算法的使用无处不在,它帮我们更好

    地认识这个世界。但如果这意味着算法要剥夺我们所爱的东西并且夺走我

    们的道德品质,我们是否还愿意更透彻地认识这个世界?我们开发的算法

    真是社会需要的吗?还是只为一小部分数学极客以及他们效力的跨国公司

    服务?当我们开发出日渐完美的人工智能(AI)后,是否存在算法接管被算法操控的生活

    这个世界并且主宰我们命运的风险?

    现实世界和数学间的相互作用从来都不是非黑即白的。所有人,包

    括我在内,有时都会对数学产生一种误解,认为它是解决所有问题的万能

    钥匙。应用数学家职业性地以“数学建模循环”来看待世界。现实生活中

    的消费者给我们抛出一个他们想要解决的问题,这个循环就开始了。不管

    是找到班克西还是设计一个在线搜索引擎,我们都会拿起自己的数学工具

    箱,打开电脑,编写代码,找到解决方案。我们运行算法,并将其结果提

    供给客户。接着他们给我们反馈,然后循环继续。

    这种转动把手、模型循环的简单方式将数学家从现实世界中抽离,使谷歌人超然物外。在带有休闲玩具和室内运动场的办公楼里工作,谷歌

    和脸书里绝顶聪明的员工容易产生幻觉,认为一切问题尽在他们的掌控之

    中。象牙塔和外界的完美隔绝意味着我们的理论不会被现实挑战。这是大

    错特错的。现实世界存在实际问题,为这些问题提供实际解决方案是我们

    义不容辞的责任。除了计算,每一个现实问题都有其复杂的方面。

    在2016年5月参观谷歌之后的几个月里,欧洲和美国的时局充满了

    不确定性,而我也在报纸上见到了关于数学另外一面的报道:谷歌搜索引

    擎提供带种族偏见的搜索建议;推特上的机器人账号传播虚假新闻;斯蒂

    芬?霍金(Stephen Hawking )担忧人工智能的潜在危害;极右翼分子(极

    端保守主义者)在算法建立的过滤气泡①里结党聚集;脸书分析我们的个

    性并用于锁定目标选民。关于算法给我们带来危险的报道接二连三、层岀

    不穷。当统计模型对英国脱欧和美国总统选举的预测失败后,人们甚至开

    始质疑数学家的预测能力。

    —夜之间,媒体对数学的报道的话题全变了足球、爱情、婚礼、涂鸦

    及其他有趣的主题被性别歧视、仇恨、反乌托邦、民意调查的尴尬结果所取代。

    (D “过滤气泡”:这个词由互联网活动家埃利?帕里策在2010年发明。谷歌搜索引擎的推

    荐算法根据个人偏好提供不同的消息,阻碍了人们认识真实世界的某些层面,这种现象被帕

    里策称为“过滤气泡”。社交媒体的出现更加加深了这个问题。第—部分|暮齬飜翹据做了什么7

    重读那篇关于班克西的科学论文时,我读得更加仔细,并且发现文

    章几乎没有提供关于班克西身份的新证据。研究人员绘制了 140件艺术作

    品的确切位置,但他们只调查了一个怀疑对象的地址。英国著名小报《每

    日邮报》(Daily Mail)在8年前就已经判定这个怀疑对象就是班克西本人。

    《每日邮报》判断,我们的涂鸦艺术家来自郊区的一个中产家庭,而非一

    位如我们所愿的来自工薪阶层的英雄。

    文章的作者之一,史蒂夫?勒库默(Steve Le Comber )在接受BBC

    采访时坦陈他们重点关注《每日邮报》怀疑对象的原因。他说:“很快我

    们就发现,靠谱的怀疑对象显而易见只有一个,而且大家都知道是谁。如

    果你搜索一下班克西和怀疑对象名字,你会得到大约43 500条搜索结果。”

    在数学家着手此项研究很久之前,网络上就已经盛传班克西的真实

    身份。这次研究人员所做的只是将数字与这一信息联系起来,但未能真正

    说清楚这些数字的含义。这些科学家只验证了一个案例的一个怀疑对象。

    文章介绍了研究方法,但缺乏太多证据证实这些方法确实有效。

    可是媒体不关心研究的局限性。《每日邮报》一篇没有凭据的传闻

    成了一个严肃的新闻话题,《卫报MThe Guardian ).《经济学人》(厂呢

    Economist \ BBC竞相报道。数学使传闻合理化,而且让人们相信可以通

    过算法来找到罪犯。

    让我们将场景切换到法庭,设想一下,班克西不是因为他广受大众

    喜爱的街头艺术遭到指控,而是作为一个在伯明翰街道墙上绘制伊斯兰

    国恐怖组织宣传画的穆斯林被人控告。继续想象一下,警方在做了一点

    背景调查后,发现嫌疑人从伊斯兰堡搬到伯明翰后,涂鸦才开始涌现。

    但他们不能在法庭上采用这一调查结果,因为它不是证据。

    那么现在警方可以怎么做呢。很简单,他们可以叫数学家来帮忙。

    运用算法,警方的统计专家预测穆斯林班克西有65.2%的可能性就住在

    某栋屋子里,接着反恐特别行动队破门而入。一周之后,穆斯林班克西被算法操控的生活

    DUMBER-D

    就会根据预防恐怖主义方案遭到软禁。

    按照史蒂夫及其同事在他们的文章中提出的对研究结果的使用方法,上述情景的发生并非遥不可及。他们写道,寻找班克西“证明了以前的想

    法是可行的— —对涉及恐怖主义的轻微行为(比如涂鸦)进行分析,可以

    帮助我们锁定恐怖分子基地,将恐怖行动扼杀在摇篮之中”。数学武器一

    朝在手,穆斯林班克西被指控、定罪。过去在间接证据里都非常弱的统计

    数据现在却成了强有力的实证。

    然而,潘多拉的盒子这才刚刚打开。在成功找出穆斯林班克西后,私营企业会争先恐后地与警方签订合同,为其提供基于统计数据的建议。

    在获得首个合同后,谷歌会将警方的全部记录输入“DeepMind”(深度

    思维),以便找出潜在的恐怖分子。若干年后,政府将在公众的支持下引

    进“常识”措施,把我们的网页搜索数据和谷歌的警方记录数据库进行

    整合,“人工智能警官”就能够这样被创造出来。它们会通过我们的搜索

    和浏览数据推断我们的动机和未来行为。每个“人工智能警官”会配备

    —个行动小组,以便他们在深夜对潜在的恐怖分子发起突袭。这种黑暗

    的数学未来正以骇人的速度接近你我。

    在展开长篇大论之前,我们就已经察觉到数学不仅会大煞风景,还

    会侵蚀我们的道德品质。它在给花边小报的流言蜚语提供合法性,它在诬

    告伯明翰公民进行恐怖活动,它还在帮助大量不负责任的公司积累海量的

    数据,建立超级大脑,监视我们的行为。这些问题到底有多严重?这些场

    景到底有多现实?为了找出答案,除了应用我唯一掌握的方法之外,我别

    无选择。这个方法就是审视数据,统计数据,并且进行数学运算。第—部分)豔敢据做了什么,第2章丨算法无处不在,我们却对它一无

    所知

    从数学解密班克西身份的文章中回过神来之后,我意识到此前我对算

    法给社会带来的改变会产生多大规模认识不足。但我需要说明,我并没有

    错过数学的发展。机器学习、统计模型、人工智能都是我的研究范畴,也

    是我和同事们日常交流的话题。我阅读最新的文章,紧跟学科的各项重大

    突破。但我关注的是事物的科学一面,研究抽象的算法如何工作。之前我

    没有严肃地去考虑这些算法应用有可能带来的后果,也没有想过我开发的

    工具正在如何改变这个社会。

    黑箱操控— —互联网巨头不想说的事

    我不是唯一意识到这个问题的数学家,而且跟我对班克西身份被解

    密的杞人忧天比起来,我的一些同行发现了真正值得担忧的事情。2016

    年末,数学家凯西?奥尼尔(Cathy OWil )出版了她的书《算法霸权》

    (Weapons of Math Destruction),书中阐述了我们对算法无处不在的滥用,从评估老师的教学成果、在线推销大学课程,到提供民间信贷、预测回被算法操控的生活

    uuTpj.JMBEREO

    到社会的犯人再次犯罪的可能性。她的结论有些让人毛骨悚然:算法随

    心所欲地做出与我们有关的决定,根据的仅仅是一些可疑的假设和不准

    确的数据。

    —年之前,马里兰大学法学教授法兰克?帕斯夸里(Frank Pasquale )

    出版了他的书《黑箱社会( The Black Box Society )o他认为,一方面,我们的私人生活在逐渐公开化。我们在线分享我们的生活方式、我们的抱

    负、我们的行为举止和我们的在线社交。而另一方面,却没有人监督华尔

    街和硅谷公司用来分析我们的工具。黑箱影响着我们看到的信息、做着关

    于我们的种种决定,而这些算法的运作方式我们却无从知晓。

    在网上,我发现了一个由数据科学工作者组成的非官方组织。他们

    直面这些挑战,分析算法在社会中的应用方式。

    这些活动家最关注数据的透明性和潜在的偏见。当你上网时,谷歌

    会收集你浏览过的网站信息,并用这些数据来决定给你推送什么广告。如

    果搜索“西班牙”,过几天你就会收到吸引你去那里度假的广告;如果搜

    索“足球”,那么你将开始在自己的电脑屏幕上看到越来越多的博彩网址。

    而如果你在搜索引擎中输入“黑箱算法的危险”,那么你会被跳转到订购

    《纽约时报》(New York Times )的链接。

    随着时间的推移,谷歌会建立一幅你的兴趣全景图,并对它们进行

    分类。通过谷歌账户上的“广告设置”页面,你可以很容易地发现它是怎

    么推断出这么多关于你的信息的。当我打开这些设置的时候,我发现谷歌

    对我确实有所了解:足球、政治、在线社区和户外运动都被正确地走义为

    我喜欢的东西。但是谷歌推送的其他一些话题就没那么准确了 :它认为我

    喜欢橄榄球和骑自行车,但我对这两项运动并没有真正的兴趣。我觉得我

    必须改正它,于是在广告设置中勾选了我不想知道的运动,然后把我真正

    喜欢的话题一一数学添加到列表中。

    在美国宾夕法尼亚州的卡耐基?梅隆大学(Carnegie Mellon University箔—丸八1算法在监视我们 弟―口 D刀1互联网对个人数据做了什么。

    of Pennsylvania ),阿密特?达塔(Amit Datta )博士和他的同事们进行了

    —系列实验,以精确评估谷歌如何对我们进行分类。他们设计了一个自动

    化工具,它可以创建谷歌的“代理”,让它们打开预先设置的网页。然后,这些代理会访问与特定主题相关的网站,研究人员随后可以查看谷歌给代

    理显示的广告和广告设置中的变化。当代理们浏览与药物滥用有关的网站

    时,谷歌会向它们展示戒毒中心的广告。类似地,浏览与残疾相关网站的

    代理更有可能被展示轮椅广告。不过,谷歌对我们并不完全诚实。在任何

    情况下,谷歌都不会更新这些代理的广告设置,也不会告诉这些代理谷歌

    的算法对它们得出的结论。即使我们使用我们的设置,告诉谷歌我们希望

    被展示和不被展示哪些广告,它也会自作主张地决走向我们展示什么。

    —些读者如果知道谷歌并没有改变其展示给浏览成人网站的代理的

    广告,他们可能会很有兴趣。当我问阿密特,这是否意味着用户可以无所

    顾忌地搜索色情内容,而不增加其他时候在屏幕上弹出色情广告的可能性

    时,他建议还是小心为上「谷歌可能会在我们没有浏览过的其他网站上

    改变广告。因此,少儿不宜的谷歌广告可能会在你浏览其他网站时弹出。”

    包括谷歌、雅虎、脸书、微软和苹果在内的所有互联网巨头都会对

    我们的兴趣进行消费者画像,并利用这些信息来决定展示给我们什么广

    告。这些服务在一定程度上是透明的,允许用户查看他们的设置。虽然这

    些公司向我们了解他们是否正确理解了我们的品味,是对他们有利的,但

    他们绝对没有将他们对我们的全部了解和盘托出。

    给重定向广告加点“噪声”

    安吉拉?古拉马塔斯(Angela Grammatas )是一名市场分析程序员,她强调说目前重定向广告极其高效。重定向广告是一个技术术语,指的是

    采用搜索历史来决定展示给用户何种产品的在线广告。她告诉我,金宝汤(Campbell)公司①的SoupTube宣传活动采用了谷歌的沃冈系统,向用户

    展示同一个广告中最符合他们兴趣的一个版本,也就是说不同用户会看到

    不同版本的广告。谷歌表示,这个宣传活动将销售额提升了 55%。

    安吉拉对我说,谷歌的手段还算温和,相比之下,脸书点赞按钮的广告

    定向能力则蛮横得有些吓人,你的点赞行为透露了你很多个人信息。最令安

    吉拉担心的是美国更改了一项法律,容许互联网服务提供商(ISPs),也就是

    为你的家庭提供网络的电讯公司,存储和使用客户的搜索历史记录。

    与谷歌和脸书不同,互联网服务提供商几乎不会公开他们所收集的

    信息。互联网服务提供商可能会将你的浏览历史记录与你的家庭住址联系

    起来,并与第三方广告商分享你的数据。

    安吉拉对这项法律的更改忧心忡忡,因此创建了一个网络浏览器插

    件,以防止互联网服务提供商或其他任何人收集他们用户的有用数据。她

    称这个插件为“噪声”。顾名思义,它的作用就是产生浏览噪声。当她浏

    览她喜欢的网站时,“噪声”就会在后台工作并随机浏览排名前40位的新

    闻网站。如此一来,互联网服务提供商就没有办法知道安吉拉对哪些网站

    感兴趣,对哪些网站不感兴趣。使用了这个插件之后,她的浏览器中显示

    的广告发生了明显的变化。“突然间,我看到了铺天盖地的福克斯新闻(Fox

    News)的广告……”她告诉我,这与之前自由派媒体的”过滤气泡'简

    直是两个世界。”安吉拉婚姻幸福美满,却收到了大量的结婚礼服广告「噪

    声”让她的浏览器再也不知道她是谁了。

    我发现安吉拉的做法非常有趣。对于公司如何使用我们的数据,她

    的态度其实很分裂。安吉拉的日常工作是制作有效的重定向广告,而且她

    显然非常擅长自己的专业工作,并确信她是在帮助人们找到他们想要的产

    品。但在业余时间,她却创建了一个插件,屏蔽掉了这些定向广告,并将

    这个插件免费提供给任何想要使用它的人。“如果我们都使用'噪声

    ①金汤宝公司是美国的一家创办于1869年的首屈一指的罐头汤生产商。鈴—立R八1算法在监视我们 弟 口卩刀|互联网对个人發据做了什么。

    她在插件的网页上写道,“公司和各种利益团体就失去了透视我们的能力。”

    她告诉我,她这么做是为了增加人们对在线广告运作方式的认识和讨论。

    尽管安吉拉的做法看起来很矛盾,但我多少可以理解这一行为背后的

    逻辑。毫无疑问,许多不易察觉的歧视现象需要我们去发现并加以制止,—些关于短期借贷和野鸡大学文凭的走向广告也确实不合道德,而且我们

    的网页浏览器有时还会对我们做出一些奇怪的判断。但是通常情况下,重

    定向广告的效果还是相对较好的,我们大多数人并不介意收到一些我们可

    能感兴趣的产品的广告。在向我们介绍现代广告的运作方式这一点上,安

    吉拉做得很对。而认识向我们推销产品的算法并确保互联网服务供应商尊

    重我们的权利,则是我们自己的责任了。

    算法也会歧视人

    算法得出的结论也可能是歧视性的。为了调查性别偏见,阿密特和

    他的同事们让500名“男性”代理(它们的性别设定为男性)和500名“女

    性”代理浏览一组预先设定好的与工作相关的网站。上网结束之后,研

    究人员查看了浏览器向代理展示的广告。尽管浏览历史记录相似,但“男

    性”代理更有可能被展示来自careerchange.com网站上的一则特定广告,标题是“年薪20万以上的工作一一仅限高管”。“女性”代理则更有可能

    被展示一般招聘网站的广告。这类歧视明目张胆,而且可能违反了法律。

    运营careerchange.com网站的公司总裁华夫勒斯?皮?纳图斯

    (Waffles Pi Natusch )告诉《匹兹堡邮报》(Pittsburgh Post-Gazette ),他

    不清楚广告为什么会严重地偏向男性,但承认公司的一些广告偏好(有

    高管经验、年纪45岁以上、年薪10万美元以上)可能导致谷歌的算法

    朝这个方向发展。这个解释很奇怪,因为参与实验的代理除了性别不一样,薪水和年龄并无不同。所以答案要么是谷歌的广告算法直接或间接地将男性和咼管局薪关联,要么就是careerchange.com网站无意中勾选了将

    广告锁定男性的选项。

    阿密特和同事们的调查到这里结束了。他告诉我,到了他们发布研

    究论文的时候谷歌还没有回应。但这家网络巨头改变了它的界面,阿密特

    和他的同事们再也无法进行代理实验了。黑箱被永远地关上了。

    在过去的两年里:来自非营利性新闻编辑室ProPublica①的朱莉娅?安

    格温(Julia Angwin )和她的同事们在一系列关于算法偏见的文章中揭露

    了大量的黑箱现象。综合从佛罗里达州的7 000多名刑事被告身上收集到

    的数据后,朱莉娅证明,美国司法系统广泛使用的一种算法对非裔美国人

    持有偏见。即便该算法已经将罪犯的年龄、性别、犯罪史和未来的犯罪行

    为一并考虑在内,他们仍然发现这一算法将非裔美国人划分到高风险犯罪

    类别的可能性要高出其他族裔45%。

    这样的歧视并不仅限于司法系统。在ProPublica的另一项研究中,朱

    莉娅在脸书上投放了一则广告,目标是“首次购房者”和“可能搬家的人”,但与“非裔美国人” “亚裔美国人”或“拉美裔”具有“种族相似性” (ethnic

    affinity )的人则被排除在外。尽管这则广告违反了美国的《公平住房法》

    (Fair House Act),但脸书还是接受并发布了它。将某些群体排除在外;

    即使基于他们的“种族相似性”(脸书通过查看用户浏览的页面和参与互

    动的帖子来衡量)而不是他们实际所属的种族,也是一种歧视。

    许多数据新闻记者(data journalists )②和科学家们参与到调查这些问

    题的运动中,ProPublica的记者只是其中一分子。麻省理工学院(MIT)

    研究生乔伊?波拉姆维尼(Joy Buolamwini )发现现代面部识别技术无法

    识别她的睑,所以她开始收集更加种族多样化的面孔数据,用以训练和提

    升未来的识别系统;北卡罗来纳— —卡罗来纳伊隆大学的乔纳森?奥尔布

    ① ProPublica是一家针对美国社会公共兴趣进行调查报道的独立非营利机构。

    ② 数据新闻指的是用计算机辅助的新闻报道。在数据新闻中,观点通常有数据支撑,以数据

    可视化的形式来展示。第—部分I書齬飜翹据做了什么?

    赖特(Jonathan Albright)在调查谷歌的搜索引擎使用的数据:试图理解

    为什么它的自动完成建议(Autocomplete )①经常给出带有种族主义和冒

    犯意味的结果;加利福尼亚州伯克利大学的詹娜?伯勒尔(Jenna Burrell)

    对自己电子邮箱中的垃圾邮件过滤器进行了逆向工程,以确定它是否明确

    歧视尼日利亚人(在本次调查中它并没有歧视尼日利亚人)o

    这些研究人员和安吉拉?古拉马塔斯、阿密特?达塔、凯西?奥尼尔

    以及其他很多人一道,在坚定不移地监督网络巨头和安保产业所开发的算

    法。他们在线上资源库中公开分享他们的数据和代码,如此一来其他人就

    可以下载并了解他们是如何工作的。他们中的许多人在业余时间进行研究,利用他们作为程序员、学者和统计学家的专长来了解算法如何重塑世界。

    对算法进行解析或许不如街头巷尾的班克西作品那样广受人们喜爰,但这些活动家努力工作并将研究成果与大众共享,比谷歌伦敦总部的短视

    及其研究小组的故作神秘给我留下了更加深刻的E卩象。

    这个运动的效果立竿见影。脸书做出了一些改变,不再接受类似朱

    莉娅?安格温投放的那些广告。在《卫报》发表了一篇揭露算法偏见的文

    章之后,谷歌改进了自动完成建议,不再提供涉及反犹主义、性别歧视或

    种族主义的搜索建议。尽管阿密特?达塔的工作没有从谷歌得到积极的回

    应,但他已经和微软达成协议,帮助微软找到在线招聘广告中存在的歧视。

    实干正在带来变化。

    ①自动完成建议也称为自动补全搜索建议,这个功能可以根据用户的输入值对网站进行搜索

    和过滤,让用户迅速地从预设值列表中选择。第3章丨你以为自己了解朋友?脸书比

    你更懂他们

    我可能不是正统的活动家,我是一名应用数学教授,供职于科研机构。

    作为英国的一名中产阶级、两个孩子的中年父亲,早年间我为了逃离祖国

    的政治动荡,来到瑞典寻找平静的生活。我对算法的发展稍有贡献,这也

    是为什么我被邀请到谷歌演讲的原因。

    在每天的工作中,我都通过数学来更好地理解我们的社会行为,解释

    我们如何互动,并找出这些互动的结果,但我很少为政治问题发声。我不

    以自己的不作为自豪。和安吉拉?格拉玛塔斯以及像她一样的人交流,让

    我觉得我的思想被禁锢在了我的笔记本电脑里而置实际问题于不顾。算法

    的崛起正值欧洲和美国的政局越来越不稳定的时期。这些变化让许多人束

    手无策。几乎每一则新闻报道,从唐纳德?特朗普(Donald Trump )在他

    竞选期间利用政治顾问公司剑桥分析(Cambridge Analytica,简称CA )①来

    影响选民,到统计学家对英国脱欧公投预测的失败,这些重大事件无一不

    ①剑桥分析公司是一家进行资料勘探及数据分析的私人控股公司。2018年3月以不当方式

    取得5000万脸书用户数据而闻名。丑闻曝光后客户和供应商大量流失、内外部调查和诉讼

    费用不断上涨,2018年5月2日剑桥分析公司宣布“立即停止所有营运”,并在英国和美国

    申请破产。第—部分I豔高驛翹据做了什么?

    牵涉到算法。人们想知道在这些用来评估和影响我们的黑箱里到底发生了

    什么,而当我听我的朋友谈论或看到他们在推特(Twitter)上讨论这些问

    题时,我却发现自己无法给他们一个准确的答案。

    社交网络的黑箱世界

    “黑箱”这个词由法兰克?帕斯夸里在他的著作《黑箱社会》提岀,ProPublica在其关于算法的系列文章和视频短片《破解黑箱》(Breaking

    the Black Box )中也提到了它。它呈现了一个很有冲击力的画面:你输入

    数据,等待模型处理,得到答案,却看不见里面发生了什么。预测犯过罪

    的人是否会再次犯罪是由黑箱执行的,脸书和谷歌广告也是通过黑箱生成

    的,追寻班克西仍是由黑箱来完成的。

    以上事实会让我们产生一种无助感,一种我们无法了解算法对我们

    的数据到底做了什么的感觉。但这种感觉也可能存在误导性,我们可以,并且也应该看看算法内部的情况。就算法而言,我认为我应该有所作为,研究一下我们社会中使用的算法黑箱,看看它们是如何工作的。我可能算

    不上是一个活动家,但我可以回答人们关于社会变化的一些问题。

    说干就干。

    我想到安吉拉?格拉玛塔斯告诉过我脸书是最了解我们的网站,所

    以这家社交媒体巨头是我调查算法如何对我们进行分类的最佳起点。我需

    要从我自信完全了解的东西开始— —我自己的社交生活。通过创建朋友的

    黑箱模型,我应该能够了解在脸书和谷歌工作的数据科学家所采取的分类

    步骤。我将获得他们使用的技术的第一手经验。虽然我的模型在规模上要

    小得多,但方法和他们的一样。

    安吉拉言之有理,我朋友的脸书页面包含了大量生活信息。我打开

    我的脸书动态消息,看到一个教授的更新一一脾气暴躁、坐在火车上的 他在抱怨司机刹车刹得太急。

    此外,我还看到有人把25年前在学校舞厅拍摄的照片扫描并上传上来;

    我看到了假曰快照和工作之余的开怀畅饮;我看到了有关唐纳德?特朗普

    的笑话、旨在改善医疗和住房现状的运动,以及对政治决策的愤怒;我看

    到人们吹嘘他们在工作和养儿育女方面的成功;我看到婚礼照片以及婴

    儿和孩子们在游泳池里快乐嬉戏的照片;从极度私人的信息到公开的政治

    事件,我们的脸书动态消息无所不包,你可以在这里找到一切。

    我选择了 32个脸书上的朋友,看每个人最近浏览过的15个帖子。

    我把每一个帖子归类到13个常见类别中的一个:家庭伴侣、户外活动、工作、笑话段子、产品广告、政治新闻、音乐体育电影、动物、朋友、地方事件、思想观点、社会活动,以及生活方式。然后我做了

    —个矩阵------个32行、13列的电子表格,再填入我的朋友们在每一个

    分类中所发布的帖子的次数。例如,我大学期间相识的朋友马克那行有1

    个关于他工作的帖子、8个配有他与家人度假照片的帖子、3个关于脱欧

    (Brexit)政策的帖子(作为一个生活在巴黎的苏格兰人,他反对脱欧)、1

    个在纽约旅行的帖子、1个标记在2015年11月巴黎恐怖袭击中自己安然

    无恙的帖子。在我同事托尔比约恩(Torbj d rn )的那一行,最常见的帖子(其

    中5篇)是关于诺贝尔奖晚宴的,他不仅参加了这个晚宴,还接受了瑞典

    电视台的采访。我把这些都算为工作相关帖,另外两个关于他演讲的帖子

    也在这一类。除了两个有关家庭的帖子,托尔比约恩的其他帖子都分布在

    不同的类别中。

    为弄清楚马克、托尔比约恩以及我其他的朋友们如何平衡工作和家

    庭生活,我将他们的工作相关帖和生活相关帖的数量用黑点在二维坐标

    中做了标记,结果如图3.1所示:马克在左上角,他有8个家庭帖和1

    个工作帖;托尔比约恩在右下偏中的区域,他有7个工作帖和2个家庭帖。

    其他的每一个点都代表我的一个朋友,这幅图呈现了他们在这个工作和家庭伴侣的二维坐标系中的位置。

    我的一小部分朋友主要发工作相关帖,另一些朋友主要发家庭相关帖。

    但其中也有些人两种类型的帖子都发,还有少数人这两种类型的帖子都不

    发。如果将每一个帖子类型视为一个空间维度,我已经为大家展示了两个

    维度:第一个维度的工作帖和第二个维度的家庭伴侣帖,我还可以继续

    展示第三个维度的户外运动帖、第四个维度的政治新闻帖等。我的每一

    个朋友都是这13维空间中的一个点。

    但我遇到了一个问题,当维度增加时,数据变得更加难以具象化。

    在我的脑海中,我无法形成一个清晰的概念,13维空间中的一个点是什

    么样的。如图3.1所示,观察两个二维平面上的点不成问题。而三维空间

    也难不倒我:首先,我想象在一个立方体中放置的点,然后考虑当我旋转

    这个立方体时,这些点会如何改变位置,但我们却无法想象这些点在四维

    或更高维度的世界中是什么样的。我们的大脑只能想象岀二维或三维空

    间,因为我们日常生活中经历的就是二维或者三维。

    家庭

    伴侣

    马克

    托尔比约恩

    工作

    9

    6 8

    图3.1用工作和家庭伴侣坐标系对我的朋友们进行分类。每一个点代表某个人

    在他的脸书上就一个主题发布的帖子的数量被算法操控的生活

    QUTNUMBFR^^

    所以对于我们这些无法理解四维或者更高维空间中的点的人来说,最

    简单的处理方式是使用大量的二维快照。图3」是一张显示工作与家庭

    伴侣之间关系的快照。从其他类似的快照中,我可以看到,那些常发生活

    相关帖、食物相关帖和旅行相关帖的人很少发政治新闻帖。这两种兴趣

    呈负相关:如果一个朋友喜欢上传他刚刚去过的餐馆照片,那么他往往不

    会发表自己对时事的看法。但是有些类型的帖子呈正相关:我的朋友如果

    写作有关音乐、电影和体育的文章,那么他也会倾向于分享笑话或段子。

    主成分分析法5个帖子就能让他人读懂我们的生活

    将成对的数据进行比较,让我们开始对13维数据集的一些模式有了

    大概的了解,但这并不是一种特别系统的方法。我们共有多达78对关系

    要看,把它们全部绘制成二维图并加以研究需要时间。在某些情况下,关

    联性是多重的:一些分享笑话和段子的人,既写关于音乐和电影的文章,也分享新闻和政治,但倾向于不发生活相关帖。因此我需要一种这样的方

    法,它能够系统地对这些关联的重要性进行排序:找出那些最重要的、最

    能够体现我的朋友之间差异的关联。

    我将一种称为主成分分析的方法(Principal Component Analysis,简称PCA)用于研究朋友的数据。主成分分析法是一种统计方法,它可

    以对我原始的13维数据集进行旋转①以揭示帖子之间最重要的关联,其

    中每个帖子的类别都是单一维度。第一主成分(即数据中体现的最强相

    关性)是一条直线,往右依次为家庭伴侣、生活方式和朋友,往左依

    次为笑话段子、工作和政治新闻。这些是对我的朋友们进行区分的最

    ①“旋转” 一词在数据分析中指的是对多维数据集的数据进行浏览的过程中,通过改变维方

    向来从不同角度观察数据,其实也就是在多维数据集浏览器中对维度的拖动和替换。这种操

    作可以将多维数据集中的不同维进行交换显示,得到不同视角的数据,使研究者能够更加直

    观地观察数据集中不同维之间的关系。游—立R八1算法在监视我们 弟—口卩刀|互联网对个人数据做了什么。

    重要关系。有些人喜欢发布关于他们个人生活经历的帖子,有些人则喜

    欢分享这个世界上和他们工作中发生的事情。

    数据中第二重要的关系将工作与爱好区分开来,往上是工作和生活

    方式,往下是音乐体育电影、政治新闻和其他关于文化的帖子。从

    数学的角度来说,第二主成分是一条离数据点①最近的直线,与第一主成

    分的直线呈直角。我们很难想象如何在13维空间中画岀线条和旋转数据,但用计算机来绘制线条和执行所需的旋转则轻而易举。图3.2显示了我们

    如何在二维空间中查看13种不同的帖子类型。

    图3.2分析好友帖子得出的第一、第二主成分图。从左至右的横线是第一主成分,我标注为“公共”“个人”;垂直的竖线是第二主成分,我标注为“文化”“工作场

    所”。一个成分的贡献值(负或正)通过该成分在直线上的长度来体现。因此,家

    庭伴侣是第一主成分中最重要的帖子类型

    ①数据点是一个独立的信息单元。一般而言,任何单一事实都是数据点。在统计或分析中,数据点通常来自测量或研究,并用数字或图形表示。被算法操控的生活

    对第一主成分最大的正贡献(图3.2右侧)来自家庭伴侣类帖子,第二大则来自生活方式,第三和第四分别来自朋友和户外活动。这些帖子

    的共同点在于它们均与我们的个人生活息息相关,涉及的都是我们做的事

    情以及我们和谁一起做。对第一主成分做出负贡献的帖子来自笑话段子、工作、音乐体育电影以及政治新闻(图3.2左侧)。这些类型的帖子

    均与公共生活相关:或者与我们的工作相关,或者与新闻或时事相关。我

    将第一主成分称为“公共-个人”,因为它体现了我的朋友们使用脸书的

    差异:要么发布关于自己个人的帖子,要么对当今世界进行评论。

    对第二主成分贡献最大的帖子类型是工作,其次是生活方式(见图3.2

    上半部分直线)。我在脸书上看到的许多生活相关帖都是关于朋友们完成

    工作后的活动一-在会议结束后喝杯啤酒放松,或者在会议晚宴上拍照留

    念,因此,将这两类帖子归到一起也说得通。做出负贡献的则全都与更广

    泛意义上的文化领域事件有关:新闻、运动、笑话全都如此,社会活动和

    广告亦然。因此,第二主成分的最佳描述应该是“文化-工作场所”。

    请注意,虽然我将成分冠以“公共-个人” “文化-工作场所”的名

    称,但我只是在简单地给算法生成的类别命名而已。因此是算法,而不是

    我,认为这些就是描述我朋友的最佳维度。

    现在有了这些维度的定义,我就可以对我的朋友进行分类。他们中

    谁对公共生活或个人生活更感兴趣?谁更喜欢谈论与工作相关的话题,谁

    又更喜欢文化类话题呢?

    为了找到答案,我把我的朋友放在横轴标为公共-个人、纵轴为文

    化-工作场所的二维坐标系中(图3.3 )o当我看到这些名字弹出在我的屏

    幕上时,我立刻就知道这些成分的划分是有道理的。绝大多数在最右端、用小方框标记的人,比如杰西卡、马克和罗丝,都有孩子,并且很乐意分

    享他们孩子的信息。在我做主成分分析的时候,绝大多数在左下角、用小

    叉标记的人,都没有孩子,因此更多地发布关于各领域时事热点的帖子:給—佥R八1算法在监视我们 弟—口d刀[互联网对个人数据做了什么。

    图3.3我朋友们在两个主成分中的分布图。右侧的小方框代表发的帖子主要关

    注朋友、家人和个人生活的脸书好友;左下角的小叉代表发的帖子主要关注新闻、体育和时事的脸书好友;左上角的圆圈代表发的帖子主要关注工作的脸书好友

    阿尔玛关心文学、康拉德关心电脑游戏、理查德关心政治。以圆圈为标志

    的左上一组是典型的学者,他们的帖子关注自己的作品和最近发表的文

    章o这里出现的朋友托尔比约恩是一位数学生物学家,在本书后面的章节,我还会谈到来自瑞典哥德堡(Gothenburg )的古怪数学家奥勒,他的帖子

    中既有与工作相关的,也有与政治相关的。

    最让我惊讶的是,这种分类在很大程度上体现了我的朋友间真正的

    相似度和差异性。记住,我没有告诉算法我想要如何对这些人进行分类。

    我只是提供了 13个宽泛的类别,是主成分分析法将它们减少到两个最相

    关的维度:公共-个人和文化-工作场所。这些维度合情合理,我的朋友

    之间最重要的区别就隐藏在这些维度中。

    把我的朋友分成三种不同的类型(圆圈、小方框和小叉)也由一个

    算法来完成。我使用了一种叫作“k -均值聚类”(k-means clusteTing )的被算法操控的生活

    计算技术,根据不同的人在主成分分析法建立的维度里相互之间的距离来

    将他们分组,最终形成了三个类别:使用脸书专注于个人生活的人(小方

    框)、关注自己工作和与工作相关的生活方式的人(圆圈),以及用脸书来

    对社会事件发表评论的人(小叉)。我要求算法找出对我朋友进行分类的

    最有效方法,而这些就是这种方法给出的答案。主成分分析法使用数据而

    不是我们的先入之见对人进行分类。

    被我分类过的朋友大部分同意我主成分分析法得出的结论。在我眼里

    卡米拉是个专注工作的人,她说这分析的确反映了她使用脸书的方式— —

    主要分享与职业相关的信息,因为她使用其他社交媒体网站分享她与朋友

    的互动以及她的家庭生活情况。罗斯则恰恰相反,他告诉我:“正如你的

    图表所显示的那样,我的脸书只是用来分享一些家庭照片o ”

    托尔比约恩不喜欢我把他划为“只懂工作,不懂享乐”的人,但他

    承认在脸书上他主要关注工作圈,而不是个人生活。

    对我在脸书上关注朋友进行分类可供一笑,但把我的朋友抽象到两

    个维度来研究有着更严肃的意义。主成分分析和类似的数学方法是大多数

    对我们行为进行分类的算法的基础。预测曾经犯过罪的人是否会再次犯罪

    的模型中也使用了这种方法,通过被告提供的问卷调查预测他或她是否还

    会犯下更多罪行;推特用它来计算你赚了多少钱;谷歌用它来评估你的广

    告偏好。其中所涉及的数据量和用来对我们进行分类的维度比我这次研究

    的数据量和维度要大得多,但是方法和我的不无二致:不停地旋转和降

    维,直到算法开始读懂你,透视你。

    仅仅通过15个帖子就可以读懂我们的生活,多么不可思议。想象一下,手中拥有数十亿帖子的脸书会用它们做些什么呢?第—部分I議飜翹据做了什么,第4章|脸书比你更了解你的人格和行为

    脸书在全球拥有20亿用户,他们每小时发布数千万个帖子,记录着

    我们社交活动的方方面面。斯坦福大学研究生院商学院的迈克尔?科辛

    斯基(Michal Kosinski)教授是最早意识到我们可以根据人们上传至社

    交媒体的大量数据,利用主成分分析法对他们进行分类的研究人员之一O

    当他还是剑桥大学博士生时,他与大卫?史迪威(David Stillwell )—起

    创立了一个叫“我的个性” (myPersonality )的项目。

    他们获得了访问和存储超过300万脸书用户个人资料的许可,进而收

    集到了一个惊人的数据集。其中的许多用户随后参与了包括智力、个性和

    幸福感等主题在内的一系列心理测试,并回答了关于性取向、吸毒和生活

    方式等问题。这些数据为迈克尔提供了一个庞大的数据库,它将我们在脸

    书上的发布、分享和点赞的内容与我们的行为、观点和个性关联起来。

    迈克尔首先研究的是将我们对立起来的属性:共和党或民主党,同

    性恋或异性恋,基督徒或穆斯林,男性或女性,单身或正在发展一段关系

    等。他的目的在于研究能否通过我们的点赞来评估我们的身份:哪些点赞

    最有可能与某个属性相关联?被算法操控的生活

    你点的“赞乃在暴露你的智商

    迈克尔和同事们在他们的科技论文中提供了一张可以用来预测关联

    性的点赞的表格,列出了一些令人无比尴尬的刻板E卩象。在201011年

    这项研究进行的时候,男同性恋者给电视节目《欢乐合唱团》(G湮)中

    的苏?西尔韦斯特(Sue Sylvester )和选秀节目《美国偶像》(American

    Idol)中的亚当?兰伯特(Adam Lambert)点赞,并支持各种人权运动。

    直男们则给体育用品零售商福洛客(Foot Locker 纽约著名的嘻哈乐队

    武当帮(Wu - Tang Clan )、世界极限运动会(the X Games )和有关李

    小龙的帖子点赞。朋友少的人会点赞的帖子普遍与电脑游戏《我的世界》

    (Minecraft)①、硬摇滚音乐,以及和朋友一起散步再突然把他们推向某

    个人的恶作剧有关。朋友多的人则会给珍妮弗?洛佩兹(Jennifer Lopez )

    点赞。智商低的人会给幽默杂志《国家讽刺》(National Lampoon )②里的

    角色克拉克?格里斯沃尔德(Clark Griswold). a婆婆妈妈”(Kbeing a

    mom”)和哈雷摩托的相关帖子点赞。智商高的人会给和莫扎特、科学、电影《指环王》(The Lord of the Rings )与《教父》(The Godfather )相

    关的帖子点赞。非裔美国人给涉及凯蒂猫(Hello Kitty ).巴拉克?奥巴

    马(Barack Obama )和说唱歌手尼基?米娜(Nicki Minaj )的帖子点赞,但他们对露营或米特?罗姆尼(Mitt Romney )③的兴趣不如其他种族。

    当然这些观察结果并不意味着某人给苏?西尔韦斯特点了一个赞,我们就应该论断他是同性恋,或者某人给讨论莫扎特的帖子点了赞,我们

    就能够说他很聪明。嘿嘿,你喜欢玩《我的世界》,你肯走是孤家寡人一个。

    这种推理不仅招人讨厌,而且通常是错误的。

    ① 《我的世界》是一款风靡全球的高自由度沙盒游戏。

    ② 《国家讽刺》是一本美国幽默杂志。

    ③ 米特?罗姆尼是美国商人和政治家、第70任马萨诸塞州州长,2012年美国总统选举的共

    和党提名候选人,败于寻求连任的巴拉克?奥巴马。鈴—立R八1算法在监视我们 弟--邛刀|互联网对个人数据做了什么。

    与此相反,迈克尔发现虽然每个“赞”仅仅提供了关于一个人的点

    滴信息,但大量的“赞”累积起来就可以让他的算法得出可靠的结论。为

    了整合我们所有的“赞”,迈克尔和他的同事使用了主成分分析法。他收

    集了成千上万个不同类型的“赞”,并使用主成分分析法来找到它们中的

    哪些对同一个成分做出了贡献。比如说,披头士、红辣椒乐队(Red Hot

    Chili Peppers )和电视剧《豪斯医生} ( House )都是在一个维度上被发

    现的,我们可以把它标记为“中年摇滚音乐和电影”。另一个维度则可以

    被我们标记为广告产品”,包括迪士尼-皮克斯(Disney Pixar).奥利

    奥和YouTube,不一而足。迈克尔发现,对我们进行精确分类需要40到

    100个维度。

    迈克尔强调说,相比人类,电脑能发现更微妙的关系。“显而易见,那些去同性恋俱乐部、购买同性恋杂志的人更有可能是同性恋。”但他告

    诉我,电脑可以针对那些对我们而言不那么显著的信号做出预测。事实上,在被他的算法贴上“同性恋”标签的用户中,只有5%的人赞了一个明显

    的同性恋脸书页面。为确走用户的性取向,算法需要结合从“小甜甜”布

    兰妮(Britney Spears )到《绝望主妇》(Desperate Housewives )等众多不

    同的点赞数据。

    虽然迈克尔对脸书数据的大规模分析别岀心裁,但他对主成分分析

    方法的运用却并不新鲜。在过去的50年里,社会学家和心理学家一直利

    用主成分分析法对我们的个性、社会价值观、政治观点和社会经济地位进

    行分类。我们喜欢把自己想象成多维的人,把自己看作是复杂的个体,有

    着众多不同的性格侧面。我们告诉自己我们是独一无二的,我们一生中发

    生的数以百万计的独特事件塑造了独一无二的我们。但是主成分分析法可

    以将这些百万计的复杂维度减少到极少的维度,少到可以把我们“放到小

    盒子里”,或者用一个更形象的比喻来形容,少到可以用少量的不同符号

    来代表我们。主成分分析法告诉我们,我们可以或多或少地把我们的朋友 被算法操控的生活

    outnumbered

    看作是一组圆圈、小方框和小叉。

    这个方法将我们视为一组符号,我们也由此得岀了心理学家所谓的

    五大人格特质。

    心理学家对人格的研究基础是我们对朋友和熟人的日常了解。我们

    都认识一些友善健谈、喜欢与人交往的人,我们称他们为“外向者”。我

    们也认识一些喜欢阅读和电脑编程的人,他们喜欢独处,在群体中很少说

    话,我们称他们为“内向者”。这些概念绝非牵强附会,而是行之有效的

    描述人的方式。

    然而我们对他人的许多直觉缺乏科学严谨性。我们可以用很多词

    语来形容我们的朋友和同事:好辩、随和、能干、顺从、理想主义、自

    信、自律、压抑、冲动……这个清单可以无限长。面对这样的形容词长

    单,心理学家有些焦头烂额。他们进行了广泛的问卷调查,被调查者基

    于大量不同的表述来对自己进行评级,比如“我及时完成家务” “在聚

    会时我跟许多不同的人聊天”等,然后他们拿起主成分分析工具,以期

    找出我们人格的潜在模型。研究者得出的结果惊人地一致:在大多数情

    况下,通过旋转所有的人格形容词维度,心理学家都能不依赖于所提问

    题的类型就得到同样的五大人格特质:经验开放性(openness ).尽责性

    (conscientiousness )、夕卜 向 性(extroversion )、 亲 和 £生(agreeableness )

    和情绪不稳定性(neuroticism )。

    五大特质的提法并非信口雌黄,而是经得起反复检验的、用来归纳

    人之所以为人的重要理论工具。

    你的情绪已被脸书编号

    在迈克尔看来,如果五大人格特质这一理论是站得住脚的,并且脸

    书的点赞可以用来评估智商和政治观点,那么通过我们脸书页面的资料来推测我们的人格也是可能的。

    事实也的确如此。脸书的外向用户喜欢跳舞、看戏、投杯球游戏①。

    害羞用户喜欢动漫、角色扮演和特里?普拉切特(Terry Pratchett)②的书。

    神经质者喜欢科特?科本(Kurt Cobain)x情绪摇滚(emo music)③,并且

    喜欢说“有时我恨我自己”。冷静的用户喜欢跳伞、足球和商业管理。许

    多刻板E卩象都被人们的“赞”所证实,但也有一些例外。我是一个相对冷

    静的人,钟爱足球,但不管有没有降落伞我都肯定不会自己从飞机上往下

    跳。揭示我们人格的,不是某一次鼠标单击的“赞”,而是众多不同的赞

    的组合。

    通过点击鼠标,我们在不停地将我们的人格输入脸书,日复一日,年复一年。微笑符号、大拇指、“赞”、皱眉、爱心……我们在告诉脸书我

    们是什么样的人,我们在想什么。我们在向一个社交网站展示着自己的点

    滴细节,而这些细节我们通常只会展示给最亲密的朋友。朋友往往会忘记

    这些细节,并对他们得出的有关我们的结论更宽容。可脸书却不同,它正

    在系统地收集、处理和分析我们的情绪状态。它在数百个维度上旋转我们

    的人格,因此能够找到最冷静、最理性的角度来审视我们。

    脸书的研究人员已经掌握了减少我们维度的技术。在对自己朋友的

    研究中,我借助算法在不到一秒的时间里将32个人、13个维度的帖子减

    少到了两个维度。迈克尔借助类似的算法,在一个小时左右的时间内,将

    成干上万人的55 000个“赞”减少到预测他们人格所需的大约40个维度。

    跟我的研究规模相比,脸书处于一个完全不同的量级上。它运用目前的方

    法,可以在仅仅不到一秒钟的时间里,将10万个人点的100万个不同类

    别的“赞”减少到几百个维度。

    ① 投杯球是一个由美国人发明的桌上游戏。

    ② 特里?普拉切特,英国知名作家,擅长奇幻文学。至今他共写过65本书,被翻译成其他

    33种语言,其作品总销量已达5 500万册。

    ③ 情绪摇滚是由硬核朋克延伸出来的一种极具另类艺术气质的音乐形式。我的研究因为只有15个类别,数据旋转很快,而脸书采用的方法基

    于随机数学①,将100万个类别不同的“赞”的数据旋转100万次需要很

    长时间。因此开始运算时,脸书的算法会随机选取一组维度来描述我们。

    然后,算法会评估这些随机维度的运行情况,从而找到一组新的维度来改

    进它的描述。反复这么做几次之后,脸书就能找到知道哪些是描述用户的

    最重要成分。

    虽然脸书可以将数百万个“赞”减少到几百个成分,但我们很难图

    像化这些成分。我们的大脑在二维或三维空间中运转,而不能在几百个维

    度中运转,因此很快就会达到它的极限。所以为了帮助我们理解它是如何

    看待我们的,脸书为其算法所发现的类别进行了命名。要了解该公司如何

    描述你,你必须先登录脸书,然后点击右上角的“下拉菜单”,点击“设

    置”。在“设置”中,选择“广告”,点击“基于我偏好的广告”的编辑按

    钮,然后点击“访问广告偏好”。最后点击“生活方式和文化”菜单。

    《纽约时报》刊登了一篇文章,告诉人们如何找到这些脸书归纳的广

    告偏好。读者们随后发现了五花八门、非常有趣的类别。这些分类根据用

    户的兴趣将用户分到了欲考面包”“拖船”“脖子”和“鸭嘴兽”的类别。

    我能理解其中的幽默所在,对于脸书如此误解他们,发现这些类别

    的人着实可以大笑一番。也许脸书对他们确实有误解,但重要的是当我们

    看到这些类别时要明白,脸书基于算法对用户建立的深度了解远非文字描

    述所能穷尽。算法并不依赖于文字对我们进行分类,文字的使用只是为了

    帮助我们理解人们各种兴趣间的统计学关系。事实上,这些关系不能用欲考

    面包”和“鸭嘴兽”这样的词来表达,而且它们根本无法用文字来解释。

    我们根本就无法理解脸书对我们的高维了解。

    当我和迈克尔交谈时,他再三提起这一点。他强调,人们看待别人时,①随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机

    过程、数理统计、随机运筹。概率论是后三者的基础。鈴—立I算法在监视我们 弟--口D刀|互联网对个人数据做了什么。

    仅通过极少数的几个维度,即年龄、种族、性别,而如果我们关系更近一些,还会包括人格的维度。但算法已经在处理数以十亿计的数据点;并在数

    百个维度上对我们进行分类。所以当我们不了解脸书如何做到这一点的

    时候,可笑的是我们,而非算法。我们已经不再有能力完全理解我们创

    建的算法所给出的结果。

    迈克尔告诉我我们比电脑更擅长一些无关紧要,但出于某种原因我

    们认为很重要的事情,比如说四处走动。但是电脑却可以做一些我们永远

    也做不到的智能任务。”在迈克尔看来,主成分分析是对人类人格实现计算

    机化的高维理解的第一步,这种高维理解将完胜我们目前对自己的理解。

    脸书已经获得了一系列专利,因此能够将对我们的多维理解应用到

    商业领域。其中最早的专利之一是相亲配对,脸书的策略是通过分析朋友

    的朋友的资料找到匹配的对象。我们自己经常也会想到,我们的一些单身

    朋友,虽然或许不认识彼此,但可能会缔结一段好姻缘。脸书的系统可以

    根据用户个人资料所建构的人格特征,为我们提供这些建议。该专利声称

    单身用户可以在他们朋友的朋友中“定位符合你理想特质、兴趣或经历的

    潜在约会对象”,然后询问共同的朋友是否愿意成为媒人。

    如果脸书能帮你找到伴侣,那么它肯定也能帮你找到工作。2012年,研究人员唐纳德?克鲁恩佩尔(Donald Kluemper )和他的同事在对586

    名学生(主要是白人女性)的脸书个人资料进行人格测验后发现,这些

    测验结果可以很可靠地评估他们在职场受聘的可能性。一些第三方公司

    已经申请了使用脸书和其他社交网站的数据,将这一发现应用到自动化

    匹配工作的领域中去。无论如何对于使用脸书的雇主来说,脸书较包括

    领英(Linkedln)在内的纯专业服务网站的优势在于,你在脸书上的个

    人资料更有可能揭示真实的你。

    脸书也在研究如何从你的帖子、你照片中的面部表情以及你与屏幕

    互动的程度来评价你的精神状态。学术研究已经证实,这些技术可以让我们对自己的精神状态有一定了解。例如,用户在日常电脑使用中移动鼠标

    的速度可以透露他们在屏幕上所看内容的情感成分。主成分分析法可以拆

    解并分析你与手机或电脑互动的方式,以了解你的情绪状态。

    这些发展意味着将来脸书会追踪我们的每一种情绪,并在我们的消

    费选择、人际关系和工作机会中不断地操纵我们。

    如果你经常使用脸书、Instagramx色拉布(Snapchat)①、推特或其他

    社交媒体网站,那么你的信息就会被他们哄抢。你允许它们将你的人格置

    于拥有数百个维度的空间中,你的情绪被它们编号分类,你未来的行为被

    它们建模和预测。而这一切都是以一种你我大多数人都难以理解的方式高

    效、自动地运行的。

    ①色拉布是一款“阅后即焚”照片分享应用。第5章丨剑桥分析公司如何玩转总统选举

    在2016年美国总统大选之后,—家名为剑桥分析的数据分析公司宣称,它们用数据来指导竞选活动的服务对唐纳德?特朗普获胜起到了重要作用。

    该公司网站首页上曾播放了一组由CNN、CBSN、彭博社(Bloomberg )和

    《天空新闻MSkyNews )拍摄的内容精选剪辑而成的视频,展示它如何利用

    网络定向营销和小范围民意调查数据影响选民。在结尾时,视频弓I用了政治

    民意调查专家弗兰克?伦茨(Frank Limtz)的一句话:“剑桥分析公司之外,别无专家。作为特朗普的团队,他们找到了制胜法宝”。

    在它的宣传材料中,剑桥分析公司对五大人格模型做了浓墨重彩的

    介绍,声称它曾收集关于大量美国选民的数以百万计数据,而且能利用这

    些数据绘制一幅选民的人格画像,其丰富程度远远超过了性别、年龄和收

    入之类的传统特征所能完成的分析。在第4章中提到的负责进行脸书人格

    研究的迈克尔?科辛斯基与我交谈时,向我明确表示他与剑桥分析公司没

    有任何瓜葛,但他也坦承剑桥分析公司可以采取与他科研中所使用的相似

    方法来研究目标选民。只要有权限访问选民的脸书个人资料,剑桥分析公

    司就可以确走哪些类型的广告会对他们产生最大的影响。人格决定选票

    仔细一想,这让人恐惧万分。脸书的数据可以用来揭露我们的喜好、智商和个性。至少从理论上来讲,这些维度可以帮助剑桥分析公司提供

    投我们所好的信息,例如,低智商的人可能会被灌输有关希拉里?克林

    顿(Hillary Clinton )电子邮件账户的阴谋论,而这种观点是无法被证实

    的;高智商的人可能会被告知,唐纳德?特朗普是一个务实的商人;与

    “非裔美国人有着种族相似性”的人(如脸书所称的那样)可能被告知市

    中心平民区的复兴;失业的白人工人可能被告知要建造一堵墙来阻扌当移

    民,而有“拉美裔特征”的美国选民可能会被告知要对卡斯特罗(Castro )

    领导的古巴采取强硬路线。神经质的人可以被恐吓,富有同情心的人可

    以被共情,外向的人则会被告知一个进行信息分享的有趣方式。

    在这样的竞选活动中,候选人可能不会把重点放在传统媒体的核心

    信息上,而是把注意力集中在对记者和新闻机构的诋毁上,因为这些新闻

    机构在努力让人们对这场竞选形成整体印象。在大众媒体被人质疑的同

    时,被量身定制的信息将被直接推送给个人,为他们提供符合他们现有世

    界观的宣传信息,进而操纵他们的选票。

    在2017年秋季我开始研究剑桥分析公司的时候,该公司对它在特朗

    普胜利中所扮演的角色做出了更加谨慎的表态。《卫报》(卩舱Guardian )

    和《观察家报》(Observer)已经就剑桥分析公司如何收集和共享数据展开

    了多方面调查,包括操纵美国总统大选和英国脱欧公投。这些调查报道导

    致剑桥分析公司现在正努力淡化它在竞选活动中对心理学的应用。该公司

    将自己的业务描述为使用人工智能进行受众细分,而不再使用“人格”这

    个词。

    我多次联系剑桥分析公司的公共关系办公室,询问那里的工作人员

    我能否向技术人员了解算法的工作方式。我得到的回复总是很有礼貌, 但不知为何我要找的人总在“休假”。使用了一长串的借口之后,他们不

    再回复我的邮件请求。

    因此,我决走自己找出答案,弄清楚这种建立于政治人格基础之上

    的方式是如何运作以帮助候选人获得选举胜利的。

    右翼政客利用了美国选民100维的数据,我们在被这一消息震惊前

    需要思考的是,计算机里的维度如何准确地代表作为人的我们。

    如果我想要幼稚地侮辱计算机的“思考”能力,我可能会提及它以

    二进制运行的事实,即用1和0来描述这个世界。但这种指责是大错特错

    的。事实上人类才会通常在非黑即白的二元对立状态下看待事物,例如我

    们几乎条件反射地说“他太蠢了,这都不懂”,“她是典型的共和党人”,或者那个人在推特上啥都分享”。用二元论看待这个世界的是人类。

    精心设计的算法很少将事件简单地划归为两类中的一种,它们给出

    排序或概率。脸书的人格模型为每个用户分配一个内向外向的排序,或

    者给出一个用户“单身”或“恋爰”的概率。通过考量一系列的因素,这

    些模型给出一个数字,这一数字与某人的某一情况为真的可能性呈正比。

    将大量的维度转化为概率或排序的最基本方法是回归(regression )。

    统计学家对回归模型的使用已长达一个多世纪,具应用从生物学开始逐步

    扩展到经济学、保险行业、政治学和社会学。回归模型利用我们已有的关

    于某人的数据以预测我们尚不知道的关于他或她的事情。要实现这个被称

    为“模型拟合n ( fitting the model)的过程,我们首先需要找到一群人并

    且提前知道我们预测之事的结果。这些事都与这群人有关。

    举个例子,年龄和英国脱欧投票之间会存在怎样的关系。在英国人投

    票决走是否应该退出欧盟的10天前,市场研究和数据分析公司YouGov进

    行了一项民意调查,询问人们将如何投票。调查对象包括4个不同的年龄组:

    18 ~ 24岁,25?49岁,50?64岁和65岁以上。调查发现,不同年龄段的

    交访者的回答有所不同。图5.1是我将选民意愿进行拟合的回归模型。随着 年龄的增长,人们投票离开欧盟的可能性也在增加。

    数据分析公司会使用一组人的拟合模型来推断其他人的偏好,以便

    做出预测。知道了一个人的年龄,他们就可以通过图5.1这个图表来查看

    投票脱欧的概率

    图5.1根据回归模型得出的不同年龄段选民投脱欧票的概率。在投票前夕,YouGov为英国是否应该在2016年退出欧盟进行了民意调查,圆点为取自该民意

    调查的数据。实线是拟合出的关系,它呈现出了年龄与投票脱欧的概率的关系

    那个人投票脱离欧盟的概率。根据这里做出的回归模型,他们可以推断出

    —个“典型的” 22岁年轻人想要离开欧盟的概率约为36%,而一个“典

    型的” 60岁老人想脱离欧盟的概率是62%。

    然而,回归模型并不能完美地代表真实的数据。在脱欧的民意调查中,18?24岁的人群里只有25%的人表示支持英国脱欧(图5.1),所以这个

    模型稍微高估了年轻人想要脱欧的概率。这种不一致在试图用单一方程式

    呈现大量数据点(比如本例中人们的年龄和投票意图)的回归模型中很典

    型。但这只是一个提醒,并非严重的问题。这种不一致并不意味着模型是

    错的,它只是反映了回归方法的一般限制。小的不一致并不是大问题一一 所有的模型在某种程度上都是错误的。但在当前的例子中,“错误”的数

    量尚在可接受的范围内。

    只输入年龄信息给模型带来了些许预测能力,然而可供使用的输入

    越多,预测就会越准。民意测验专家发现,在英国脱欧公投中,接受较少

    正规教育和有着工人阶级背景的老年人更可能投票脱欧。脱欧运动团体所

    雇用的机构如果必须选择一个目标群体来鼓励他们出去投票,就应该关注

    这些人。支持留欧的活动家则会更希望大学生参加投票。

    政治学家长期以来都在使用回归方法。在1987年英国大选后的一

    项研究中,研究人员调查了选民的性别、年龄、社会阶层和对通货膨胀

    的看法,看这些因素如何影响选民偏向工党(the Labour Party )而非保

    守党(the Conservatives )的概率。研究人员随后发现,老年人和男性更

    倾向于投票给保守党,而认为通货膨胀高居不下的工薪阶层人士更倾向

    于投票给工党。只要将性别、年龄、阶层和对通货膨胀的看法一一导入

    到模型中,回归模型就会输岀一个人投票给工党的概率。

    为政治操控每一种情感

    剑桥分析公司和其他现代数据分析公司使用的统计方法与19世纪80

    年代使用的大同小异,只不过主要区别在于他们手中所掌握的数据的规

    模。现在他们可以将脸书的“赞”、在线投票问题的答案以及我们购物的

    数据导入到回归模型中了。剑桥分析公司声称,他们使用这些大数据集而

    不仅依靠年龄、阶层和性别,来对我们的人格和政治立场做出全面了解。

    在过去,当政治学家研究选民的政党偏好时,他们通常会分析选民的社会

    经济背景。剑桥分析公司声称:“我们会考虑每一个个体(选民)的行为

    制约因素,从而对他们的未来行为未卜先知。”

    为了对我们的政治人格进行大规模的回归分析,剑桥分析公司需要 获得大量数据。2014年,剑桥大学的心理学家亚历克斯?科岗(Alex

    Kogan )通过一个名为“机械土耳其人”(Mechanical Turk )①的在线众包

    市场(crowd - sourcing marketplace )为他的科研收集数据。在我面前,亚历克斯将“机械土耳其人”形容为“一大群做任务换钱的人”。他请那

    些人在他的科学研究中完成一项看似无关紧要的工作:回答两个关于他们

    收入的问题,以及他们使用脸书的时间跨度,然后让他们点击一个按键授

    权亚历克斯及其同事访问他们的脸书个人资料。

    这项研究淋漓尽致地展示了人们多么愿意让研究人员访问他们自己

    和朋友的脸书资料,以及那时候研究人员在社交网站上获得数据访问权限

    是多么的容易。经过这群“机械土耳其人”的许可,研究人员也能获取他

    们朋友的位置和“赞”的数据。在亚历克斯的研究中,80%的人为了换

    取1美元而提供了他们的个人资料和朋友的位置数据。这些人平均有353

    个朋友。在只有857名参与者的情况下,亚历克斯和他的同事茯得了总计

    287 739人的数据。这就是社交网络的力量:从一小撮人那里收集数据就

    能够让研究人员接触到庞大的朋友圈数据。

    就是在这个时候,亚历克斯与SCL的代表们展开了谈判。SCL是一

    家为全球客户提供政治和军事分析的集团公司。最初,SCL感兴趣的是

    让亚历克斯帮忙设计问卷。但是,当该公司的代表们意识到数据收集在“机

    械土耳其人”身上展现出来的力量时,双方谈判的焦点转向了访问海量

    脸书个人数据的可能性。SCL蠢蠢欲动地准备启动政治咨询服务,利用

    性格预测来帮助客户赢得选举,该服务后来发展成为剑桥分析公司。亚

    历克斯的数据收集方法正好满足SCL的需要。

    亚历克斯向我承认他还是太单纯了。他在加州大学伯克利分校获得

    本科学位,在香港大学获得博士学位,目前在剑桥大学做研究,以前从来

    ①“机械土耳其人”是亚马逊的一个众包互联网市场,使个人和企业能够协调人类智能的使用,以执行计算机当前无法完成的任务。鈴―却八1算法在监视我们 弟—口卩刀1互联网对个人数据做了什么?

    没有和一家私营公司合作过。他对我说,“我真的不敢恭维生意人的做事

    方式”。

    他和同事们考虑了与SCL合作的伦理问题和伦理风险,确保不将数

    据收集与大学研究工作混为一谈。他们意识到从“机械土耳其人”那里收

    集如此规模的数据缺乏可靠性,而且“机械土耳其人”也没有能力完成这

    项任务。因此,他们使用了 Qualtrics公司①的在线客户调查服务。亚历克

    斯告诉我,就像他们之前的研究一样,他们请求对方允许使用受访者的睑

    书个人资料,并遵守了当时奉行的所有访问规则。

    亚历克斯那时没有考虑到其他人听说他收集脸书数据时的感受和看

    法。他说:“你仔细想想,这是相当讽刺的。我研究的很多东西都跟情感

    相关,如果我们想过人们是否会质疑甚至反感我们的人格预测,或许我们

    会做出不同的决定。”

    《卫报》随后发现,亚历克斯在SCL的资助下建立了一家公司,这家

    公司收集了 20万美国公民的脸书数据以及他们参与的问卷调查结果,而

    这些仅仅是他们直接调查的人。由于脸书平台当时的运作方式允许人们获

    知参与此项研究的志愿者的朋友的点赞情况,而且志愿者也同意第三方获

    取朋友的数据,SCL得以拥有3 000多万人的数据。这是一个巨大的数据

    集,可能全面描绘了许多美国人的政治人格。

    在2016年的康考迪亚峰会(Concordia Summit)上展示公司的研究

    成果时:剑桥分析公司的首席执行官亚历山大?尼克斯(Alexander Nix )

    似乎并不特别担心别人“反感”他的公司预测他们的政治人格。剑桥分析

    公司刚刚帮助特德?克鲁兹(Ted Cruz )从籍籍无名的总统候选人变成共

    和党党内初选的领先者。他介绍了他的公司如何做到“不依据种族、性别

    或社会经济背景来寻找目标人群,预测美国每一个成年人的人格”。“第二

    修正案是一项保险政策”这一信息可能会定向发送给高度神经质和谨小慎

    ①Qualtrics是一家私人经营管理公司,总部位于美国犹他州普罗沃和华盛顿州西雅图。 微的选民。传统、随和的选民可能会被告知“世代延续携带武器的权利非

    常重要”。他声称,他可以利用目标受众的“成百上千个个人数据点,来

    准确地理解哪些信息将吸引哪些受众”,并暗示特朗普的竞选团队正在采

    用他所介绍的方法。

    剑桥分析公司的起源囊括了现代阴谋论故事的所有要素。它涉及特

    德?克鲁兹,唐纳德?特朗普、数据安全、人格心理学、脸书、报酬过低

    的“机械土耳其人”、大数据、剑桥大学学者、右翼民粹主义者和剑桥分

    析公司董事史蒂夫?班农(Steve Bannon ).右翼金融家和剑桥分析公司

    最大投资人之一罗伯特?默瑟(Robert Mercer )、美国前国家安全顾问和

    剑桥分析公司顾问迈克尔?弗林(Michael Flynn )以及传闻提到的受俄罗

    斯资助的网络巨魔①。杰西?艾森伯格(Jesse Eisenberg )就像在一部精彩

    的电影中扮演心理学家一样,他逐渐揭开了他所供职的剑桥分析公司的真

    实动机:出于政治目的操纵我们每一种情感。

    从这个意义上来说,这是一件让人不寒而栗的事情。但当我把注意

    力集中在这些预测投票结果的模型的细节时,我觉得其中缺失了一个重要

    元素:算法。我想自己弄明白尼克斯振振有词地声称的内容是否真的能够

    站得住脚。

    算法告诉共和党,该去星巴克拉选票

    我没有权限访问亚历克斯?科岗收集的数据(我将在下文中介绍这些

    数据后来发生了什么),但迈克尔?科辛斯基和他的同事做了一个教程包,允许心理学学生利用一个由两万名匿名脸书用户的数据构成的数据库来练

    习回归模型的创建。我下载了这个教程包并把它安装在我的电脑上。在这

    个数据集所涵盖的19 742名美国脸书用户中,只有4 744人表达了对民主

    ①网络巨魔指在网络上发表煽动性言论,以期搅动大众情绪和民意,从而达到自己目的的人。第—部分I書沁居做”

    党或共和党的偏爰,其中31%是共和党人。剑桥分析公司在2007—2012

    年收集数据期间,脸书上民主党人士的数量呈压倒性优势。我输入了 50

    维的脸书数据以拟合一个回归模型,这个模型输出的结果是某个人身为共

    和党人士的概率。

    在利用数据进行了模型拟合后,下一步就是测试模型的表现。测试

    —个回归模型准确性的好方法是随机挑选两个人:一位共和党人和一位民

    主党人,然后要求模型根据他们的脸书个人资料预测两人其中谁是共和党

    人。这是测试准确性的直接方法。想象一下,你遇到了这两个人,他们容

    许你询问他们的品味和爱好,之后你必须判断哪个人支持哪个政党,那么

    你觉得你每次都猜对的可能性有多大?

    基于脸书数据创建的回归模型拥有很高的准确度。在九次测试

    中,回归模型有八次准确地判别出脸书用户的政治观点。可以判断一

    个人是民主党的主要点赞内容是奥巴马和米歇尔?奥巴马(B^ack and

    Michelle Obama)、国家公共广播电台(National Public Radio)、TED

    演讲(TED Talks )、哈利?波特(Hairy Potter )、网站“我太热爱科学

    了 ”( I Fucking Love Science ),以及类似《科尔伯特报道》(The Colbert

    Report)和《每日秀》(The Daily Show )这样的自由主义时事节目。共

    和党人则喜欢乔治?W.布什、《圣经》、乡村和西方音乐,以及露营。

    民主党人喜欢奥巴马和《科尔伯特报道》,共和党人喜欢乔治?W.

    布什和《圣经》,这并不令人惊讶。于是我从模型中拿掉一些显而易见是

    民主党人标记的“赞”,然后做了一个新的回归模型,想测试一下它现在

    的准确性。令我惊讶的是,这个模型的表现与前面一个的差距并不大,准确率仍然达到了 85%。现在,它使用了 “赞”的组合来确走政治立场。

    例如,一个喜欢Lady Gaga.星巴克和乡村音乐的人更有可能是共和党

    人,但一个也喜欢艾丽西亚?凯斯(Alicia Keys )和哈利?波特的Lady

    Gaga粉丝则更有可能是民主党人。使用大量“赞”所获得的多维理解产生了意想不到的有用结果。

    这种类型的信息对一个政党来说可能大有用处:民主党不应该把注

    意力集中在传统的自由媒体上,而应把精力集中在获取哈利?波特迷们的

    投票上;共和党人则可以把目标锁定在喝星巴克咖啡的人和去野营的人身

    ±o至于Lady Gaga的粉丝,双方都应该小心翼翼地对待。但基于脸书的

    回归模型的准确性似乎超越了传统方法,虽然它们很难进行直接比较。例

    如,在上文提到的对1987年英国大选的研究中,研究人员发现,一个认

    为通货膨胀率处于低位的65岁中产阶级男性选民,倾向于支持保守党而

    非工党的概率是79%o所以一个认为这些典型的工党支持者(Tories)会

    拥护保守党的模型,其出错率至少是21%。

    到目前为止:对亚历山大?尼克斯和剑桥分析公司来说,一切都还

    算顺利。但在我们继续下一步之前,我们需要更仔细地审视回归模型的一

    些局限。

    首先,所有的回归模型都有一个最根本的局限性。请记住,算法输

    出的不是非此即彼的结果。正如我们在图5.i中所看到的,它也不能完

    美地呈现数据。我们不能指望一个模型能百分之百准确地揭示你的政治

    观点。不管剑桥分析公司还是其他任何一个人,都不可能通过查看你的

    脸书数据,得出万无一失的结论。除非你碰巧就是巴拉克?奥巴马或特

    雷莎?梅(Theresa May )本人。换言之,分析师能做的最多就是用回归

    模型,对你持有某一个特走观点的可能性给出一个概率。

    虽然回归模型能够比较精准地对铁杆民主党人和共和党人做出判

    断— —正如我之前所述,准确性大约是85%——然而关于这些选民的预

    测在政治竞选中用处并不是很大。已知的政党支持者,其选票或多或少

    是板上钉钉的,因此他们没有必要成为拉票的目标。事实上,在我的回

    归模型使用的数据中,有76%的人并未登记他们的政治偏向和党派忠诚

    度,但我用来拟合脸书数据的回归模型并未对此做出反应。虽然数据显第—部分I骗黠翹据做”

    示民主党人倾向于喜欢哈利?波特,但这并不一定意味着其他的哈利?波

    特迷们也喜欢民主党。这是所有统计分析所固有的问题,那就是潜在的

    因果混淆问题。

    第二个局限关乎做出预测所需的“赞”的数量。只有一个人已经点了

    超过50个“赞”的时候,回归模型才能产生效果,而要做出真正可靠的

    预测,“赞”的数量还需达到几百个。在脸书的数据集里,只有18%的用

    户在50多个网站上点“赞”。在收集了这些数据之后,脸书增加了用户点“赞”

    的网站数量,这样它就可以更好地发布定向广告。但仍然有很多人,包括

    我自己,不怎么在脸书上点赞。具体来说,我一共只在4个网页点了 “赞”:

    我自己的“足球数学”网页、本地的一个自然保护区、我儿子的学校,以

    及欧盟的研究。不管回归模型如何神奇,只要没有数据,它就是一个摆设。

    尼克斯想利用我们的政治人格锁定目标受众,这就是第三个局限性

    的核心所在:算法真的能够根据点赞情况精准地识别出神经质或富有同

    情心的人吗?我使用的数据集涵盖了一份五大人格测试结果,我用它来

    检验回归模型是否能够在随机选择的一对测试样本中确定哪个人更加神

    经质进行了检验,结果它根本无法完成这项任务。我从数据集随机挑选

    了两个人,查看他们在人格测试中的情绪神经质程度的评分。比较了它

    们与基于脸书点赞情况而制作的回归模型后,我发现只有在60%的情况

    下,人格测试和回归模型对测试对象给出了同样的结果。而如果我将分

    数设定为随机,只有在50%的情况下回归模型能够得到正确的结果,也

    就是说这个模型只比随机选择准确一些而已。

    但是这个回归模型在对人们的开放性进行分类时表现得更好一些,准确性大约为三分之二。但当我对外倾性、尽责性和亲和性做同样的测

    试时,我得到了与神经质测试类似的结果:这个模型在10次中对了 6次,而如果我们随机选择测试对象的话,10次中我们只会对5次。

    也就是从这时候起,我开始与剑桥大学心理学家亚历克斯?科岗讨被算法操控的生活

    0! ITMLiHRPO匚!

    论我的研究结果。他最初曾帮助剑桥分析公司收集数据。起初科岗一直不

    愿和我交谈,因为他认为《卫报》和一些网络博客对剑桥分析公司的描述

    有失公允。但就在我告诉他我用脸书数据预测人格能够得到什么结果时,他终于开始畅所欲言了。

    科岗也得出了和我类似的结论。他不相信剑桥分析公司,或者其他任

    何人,能够编写出一种将人类人格进行有效分类的算法。他正在研究如何结

    合计算机模拟和从推特获取的数据,来证明尽管我们可以通过网上足迹对

    人格的某些方面做出判断,但这种数据还没有强大到可以对我们做出可靠

    的预测。说起亚历山大?尼克斯,科岗毫不客气地说:“尼克斯竭力推广人格

    算法,因为他有很强的经济动机去宣传剑桥分析公司拥有秘密武器。”

    虽然科学研究发现某一组特定的脸书点赞情况与人格测试的结果相

    关,但这和根据这一发现设计可靠算法、创建方程式准确预测你是哪种类

    型的人,存在很大区别。科学发现或许是正确而有趣的,但是除非这种关

    系非常强烈(在人格预测中往往并非如此),否则它无法让我们对一个人

    的行为做出特别可靠的预测。

    脸书很了解你,但它未必能预测你的行为

    科研成果和算法的应用之间的界限日渐模糊,其中一个原因在于媒

    体对此类科研成果的大肆渲染。2015年1月,《连线》(Wired)杂志刊登

    了一篇名为“脸书如何比你的朋友更了解你”的文章,英国的《每日电讯》

    (The Telegraph )更加夸张,发布了 “脸书比你的家人还更了解你”的头

    条。结果《纽约时报》(Nqw York Times )用“脸书比任何人都更了解你”

    这个标题从一众媒体中脱颖而出,吸引到最多关注。

    所有这些头条新闻都是对同一篇研究论文做出的报道。这项研究是

    由吴悠悠(Wu Youyou)、迈克尔?科辛斯基和大卫?史迪威主导的。他帶—立R八1算法在监视我们 弟—口卩刀f互联网对个人数据做了什么?

    们此前要解决的问题是脸书点赞情况对人格测试结果的预测能够准确到何

    种程度,但这次他们在科研中将基于点赞情况做出的回归模型与一份问卷

    调查结果进行比较。这份问卷列出的是有关脸书用户的10个问题,上面

    的内容由用户的同事、朋友、亲人及伴侣填写。研究结果显示,他们的统

    计模型与人格测试的相关性要比朋友和家人给出的10个答案更高,于是

    各大报纸试图在五花八门的头条里竭力渲染的科硏发现就这样出来了。

    更好的相关性意味着更好的预测,但这是否意味着脸书比任何人都

    更了解你呢?当然不是。布赖恩?康奈利(Brian Connelly )是多伦多大

    学土嘉堡分校(University of Toronto, Scarborough )管理系副教授:从事

    工作场所人格的研究。我问他对这项研究的看法,他说迈克尔?科辛

    斯基的研究很有趣,也很鼓舞人心,但我认为媒体在报道这些研究发现时

    夸大其词了。而一个恰如其分的标题至少应该这样拟:初步调查结果表

    明,脸书对你们其中一些人的了解就如同你们的熟人一样(但脸书是否能

    预测你的行为还有待我们验证)。”一言以蔽之,布赖恩想说的是科学很有

    趣,但是目前尚没有证据证明脸书可以确定你的政治人格并利用这一成果

    发送定向广告。

    剑桥分析公司的故事促使我深入阅读博客和隐私维权人士的网站。

    通过这些链接,我发现了一段YouTube视频。在视频中,一位工作于剑

    桥分析公司的年轻数据科学家正在讲解他实习时所做的一个研究项目,并

    以电影《她MHer)引出后面的演示。在这部电影中,电脑对华金?菲

    尼克斯(Joaquin Phoenix )饰演的主角西奥多(Theodore )的人格形成了

    深刻的理解,于是男主角与他的操作系统(OS)谈起了恋爰,人类和操

    作系统双双坠入爱河。年轻的数据科学家用这个故事引出了五分钟演讲的

    主题:电脑能比我们自己更了解我们吗?

    这位数据科学家认为可以,并且向我们一步步讲解他对在线活动和人

    格的研究:描述五大人格特征;概述如何用脸书的个人资料来取代调查;被算法操控的生活 i - 1 i :■ n 二匚二;

    解释他的回归模型如何揭示我们的责任心和情绪波动水平;阐述如何针对

    个人性格发送定向的政治信息。最后他宣称,我的模型如果掌握了你脸

    书的点赞情况以及你的年龄和性别,就可以预测你和你的配偶到底有多般

    配。”他说,有一天,我们可能会爱上一台比我们的伴侣更了解我们的电脑。

    我开始怀疑视频中的这位数据科学家是否真的相信他自己所说的话。

    我甚至都不确定他有没有指望过他的听众能够被他说服。他所谓的研究是

    —项为期8周、由ASI数据科学公司(ASI Data Science )为志向远大的

    数据科学家提供的项目,所以他不太可能像自己所描述的那样实施了所有

    步骤。而开展和他一样的项目时,迈克尔?科辛斯基、大卫?史迪威和他

    们的众多同事是花费了数年时间才完成的。即使这个科学家所做的只是一

    个演讲练习,我也对这一幕深感不安。这是一个经历过最高水平科学训练

    的年轻人:剑桥大学的理论物理学博士。因此我很难相信他没有产生过

    和我一样的怀疑。我想问问他“你的研究基于哪些数据?你是否测试并

    验证了你的模型?” “通过点赞来识别神经质的人只比随机瞎蒙稍准一点,你怎么看待这个事实。”

    看来是ASI公司的奖学金引诱他在演示研究项目时把这些疑虑统统

    抛在一边。这样做的结果是剑桥分析公司给他提供了工作机会,而他也

    欣然接受。

    我不认识这个年轻人,但我认识很多像他这样的人。他们作为我的

    博士生、研究生或本科生接受我的训练并与我共事。当我观看这段视频时,我产生了一种深深的挫败感。剑桥分析等公司在要求大学为他们培养这

    样一群野心勃勃的年轻人:既能做研究又能将研究成果以简单易懂的方

    式呈现出来的人。

    我们生活在一个振奋人心的时代。在这个时代里,我们可以利用数

    据帮助我们做出更好的决策,并让人们了解对他们来说重要的问题。但伴

    随着这种能力而来的是仔细解释我们能做什么和不能做什么的责任。当我鈴—立R八1算法在监视我们 弟—口卩刀I互联网对个人数据做了什么。

    和同事们培训研究人员时,我们会让他们认识到他们所拥有的力量,但我

    们常常忘记提醒他们要明白自己所背负的责任。似乎我们已经把这项重要

    的工作交给了行业顾问,但他们正忙于指导数据科学家调整科研方向以实

    现最大的商业效果。

    视频中的年轻人要么是无法认识到他所演示的方法有何局限性,从而

    被相关公司蒙骗了;要么就是他故意忽视这些限制,并试图蒙骗观众。一

    位严谨的科学家不会声称“我的算法就像你的伴侣一样了解你”,而会说饭寸

    于经常使用脸书的人而言,迈克尔?科辛斯基及其同事们所做的一项研究表

    明,这些人点的“赞”可以被用来预测人格特征的分数,但目前还不清楚

    这项发现对以人格为基础所进行的市场营销具有什么样的意义。”不幸的是,就像布赖恩?康奈利所拟的新闻标题那样,后面一种表态同样没有噱头可

    言,况且这也不是我们年轻科学家的未来雇主希望他在短短5分钟的方法

    演示中呈现的要点。严谨的科学无法成功销售政治咨询服务。

    在特朗普就任总统几个月后,剑桥分析公司从他们的网页中删除了“五

    大人格模型”的信息。有可靠消息说,脸书曾告诉剑桥分析公司,在开始

    参与特朗普的竞选活动之前,要删除他们已经收集到的所有用户的“赞”

    的数据。剑桥分析公司声称他们已经按照脸书的要求行事,因此他们甚至

    不太会为特朗普的竞选锁定目标受众,而这却与亚历山大-尼克斯在康科

    迪亚峰会上所说的完全不同。自那以后,剑桥分析公司表示,它没有使用

    从亚历克斯?科岗那里得到的任何脸书数据为特朗普的竞选活动提供服务,也没有在竞选活动中广泛地使用人格定向广告。

    2017年1月,纽约帕森设计学院(Parsons School of Design )副教授

    大卫?卡罗尔(David Carroll)向剑桥分析公司提交了数据保护申请。剑

    桥分析公司回复了卡罗尔,并展示了他们所掌握的有关他的个人信息,包

    括他的年龄、性别和居住地。剑桥分析公司有一个电子表格,显示了卡罗

    尔曾经在哪些选区投过票,其中一栏表明他曾经在民主党总统候选人初选被算法操控的生活

    中投过票。剑桥分析公司利用这些数据来评估他们所认为的卡罗尔对各种

    问题重要性的排序,比如环境、医疗保健和国家债务。他们的分析结果认

    为卡罗尔“很可能不是一个共和党人”,而且在选举中进行投票的倾向“非

    常高”。在极尽夸大其词之能事后,剑桥分析公司却使用了基于年龄和居

    住地的传统回归方法来预测大卫的投票。他们所采用的数据和方法与亚历

    山大?尼克斯之前吹嘘的人格定向政治广告相差十万八千里。

    在我看来,剑桥分析公司的故事基本上就是一次炒作①,他们夸大了自

    己能够用数据做的事情,但这只是众多案例中的一个。从脸书和声田②到

    旅行社和体育顾问,他们都声称能够创建对我们进行排序并解释我们行为

    的算法,所以我需要更多地了解这些算法的准确性。这些算法到底有多了

    解我们?它们是否正在犯着其他更危险的错误。

    ① 在本书付梓时,剑桥分析公司的炒作已经被大规模地揭露了。— —作者注

    ② 声田是一个正版流媒体音乐服务平台,2008年10月在瑞典首都斯德哥尔摩正式上线。第—部分I書齬黠翹据做了什公

    第6章丨要算法毫无偏见。不可能!

    分析人格的算法改变了我的认知,只是它的方式并非是我所期望的。

    我不太担心算法会对我们做出精确得可怕的预测,而是更担心人们推销算

    法的方法。

    我对剑桥分析公司的判断与我在阅读了关于班克西的文章后得出的

    初步结论类似。在班克西的案例中,研究人员需要知道他是谁才能来追

    踪他;在政治竞选或刑事调查中,算法能够起到整理数据的作用,但这

    不仅仅是按下按钮再找到一名涂鸦艺术家或一群神经质的共和党人那么

    简单。

    人们推销算法的时候,经常说它们能够洞察我们是什么样的人,并

    能够预测我们未来的行为。社会用它们决定我们是否能够得到一份工作、申请到贷款或者是否应该被送进监狱。

    我认为自己需要更多地了解这些算法的内部机制以及它们可能犯下

    的错误的类型。被算法操控的生活

    定义偏见是道数学难题

    在美国的一些州,通常会在刑事被告请求假释时用COMPAS算法

    对他们进行风险评估。一些媒体报道称,COMPAS是一个黑箱,这意味

    着人们很难,甚至无法对其内部一探究竟。我联系了 COMPAS算法的发

    明人蒂姆?布伦南(Tim Brennan ),他也是该算法的供应商N orthpointe

    公司的董事。我问他是否愿意解释这个模型的运作方式,几封邮件往来

    之后,他给我发了一些内部报告,解释了他的算法如何得岀刑事被告中

    的风险评估分数。当我后来采访他时,他相当坦诚地与我讨论了这个模型,并告诉我为了理解它,需要熟悉哪些方程。

    蒂姆的模型结合了刑事被告的犯罪记录、第一次被捕的年龄和现在

    的年龄、教育水平和一个小时的问卷调查来预测他们是否会再次犯罪。接

    着他用这些数据来拟合根据过往犯人再犯情况做出的一个统计模型。有过

    违法或暴力记录的人更容易再次犯罪,教育水平较低或吸毒的人也是如

    此,而有经济问题或经常搬家的人则没那么容易再次犯罪。这个模型正是

    用人口宏观层面上的信息来做出预测的。

    COMPAS算法中采用的方法与我目前看到的如出一辙:首先使用主

    成分分析法旋转和降维数据,然后使用根据过往记录做出的回归模型来预

    测某个犯人是否会再次犯罪。作为一个局外人,要理解这里面的细节绝非

    易事。技术报告长达数百页,但对模型进行了完整记录,而且蒂姆向我指

    出了最重要的部分。对比我和剑桥分析公司来往的经历,Northpointe的开

    放性给我留下了深刻的印象。

    然而算法的发明者公开细节这一事实并不意味着他们的算法就会万

    无一失。2015年,朱莉娅?安格温在一篇文章中称,该算法对非裔美国

    人存在偏见。朱莉娅的ProPublica团队使用了唯一的自动防故障措施来检

    验算法是否公正,那就是看它预测的准确性。COMPAS会从1到10中取笛—斗呑I算法在监视我们 弟 口D刀【互联网对个人数据做了什么?

    —个分值来表征犯人将来由于再次犯罪而被逮捕的概率。朱莉娅和她的

    同事们的研究结果很清楚,得分较高并因此有可能入狱的黑人犯人中有

    45%的概率被置于过高的风险类别中,相比之下白人犯人被赋予过高分

    值的概率仅为23%O所以没有继续犯罪的黑人犯人更有可能被算法错误

    地归类为高风险罪犯。

    朱莉娅和同事的文章发表后,蒂姆和Northpointe很快做出了回应。

    他们写了一份研究报告,反驳ProPublica的分析是错误的。他们认为,COMPAS遵循的标准和其他久经检验的算法相同。他们声称,他们的算

    法对白人和黑人罪犯都进行了 “精心校准”,而朱莉娅和她的同事们都对

    算法犯错这一概念产生了误解。

    Northpointe和ProPublica之间的争论让我意识到偏见问题的复杂性。

    这些人都很聪明,他们在洋洋洒洒近百页的文章中你来我往地抗辩与驳

    斥,并辅以计算机代码和更多的统计分析。随后,博客、数学家和记者都

    对双方的辩论进行了热烈讨论,发表了自己对算法偏见的看法。定义偏见

    是一道数学难题,想弄明白就需要仔细研究它。

    为此我下载了 ProPublica收集的数据,开始了我的研究。ProPublica

    收集的这些数据如表6.1所示,它们来自佛罗里达州布劳沃德郡(Broward

    County )o为了理解ProPublica的论点和Northpointe的反击,我重新制表

    以便展示COMPAS算法将白人和黑人罪犯进行分类的方式,以及他们是

    否会因为再次犯罪而被捕。歹U,显示的是被COMPAS算法归为高风险和

    低风险的人数;行,显示的是再次犯罪和没有再犯的人数。

    让我们花一分钟看看这张表,问下自己是否认为这个算法存在偏见。

    首先我们比较一下有多少黑人和白人被归为高风险罪犯。3 615名黑人罪

    犯中有2 174人被列为高风险,概率是21743615 ^60%o对白人罪犯的情

    况进行同样的计算后,我们发现他们被归类为高风险的概率仅为34.8%o

    所以黑人比白人更容易被视为潜在的犯罪分子。被算法操控的生活

    OUTNUMBERED

    表6」白人与黑人罪犯再犯罪风险评估

    此分解表显示了 COMPAS算法中的风险评估项目(列)和两年内犯人是否会

    再次犯罪的预测情况(行)。关于“高风险”和“低风险”的定义及其他细节请参

    见ProPublica的分析报告

    黑人罪犯 咼风险 低风险 总计

    再犯 1 369 532 1 901

    未再犯 805 990 1 714

    总计 2 174 1 522 3 615

    白人罪犯 高风险 低风险 总计

    再犯 505 461 966

    未再犯 349 1 139 1 488

    总计 854 1 600 2 454

    这种差异本身并不意味着该算法存在偏见,因为在黑人和白人犯人

    中,再次犯罪的比例有所不同:52.6%的黑人罪犯在两年内因另一项罪行

    被逮捕,而仅有39.4%的白人罪犯因另一项罪行被抓。归类为高风险或

    低风险的犯罪者,其总体比例差异并不构成ProPublica对该算法的批评基

    础。朱莉娅和她的同事们意识到黑人罪犯的惯犯率比白人罪犯高,于是认

    为这个算法一定犯了某种类型的错误。

    在评估算法时,我们用“误报”(False Positive称假阳性)和“漏报”

    (False Negative,也称假阴性)来思考通常都是有效的。对于COMPAS

    算法来说,误报指的是一个不会在未来犯罪的人被列为高风险罪犯的情

    况,也就是说模型做出了肯定却错误的预测。误报率指那些没有再次犯

    罪却被列为高风险罪犯的人数除以未再犯的总人数。

    黑人罪犯的误报率是805 1 714=46.9%,白人罪犯则是23.5%,因

    此黑人罪犯的误报率比例比白人被告高很多。如果警察拘留了你,并且法官正在借助算法来评估你,那么你得到的最

    坏结果就是误报。真ffitt(True Positive)的判断是公平的:算法预测你存

    在犯罪风险,而你也确实如此。但误报却意味着你可能被拒绝假释或者被

    判比应得刑期更长的监禁时间。这种情况更多地发生在黑人罪犯而不是白

    人罪犯身上,可是被贴上高风险标签的黑人罪犯几乎有一半没有再次犯罪。

    与此相反,发生在白人罪犯身上的则更多地是漏报,即某个人被归入

    了低风险人群,但他却再次犯罪。白人罪犯的漏报率是461966-47.7%,黑人罪犯则是5321 901—28.0%o咼漏报率意味着很多本应被拘留的人却

    重新获得自由并犯下了罪行,这对于社会来说是一个严重问题。几乎有一

    半再次犯罪的白人在评估中被算法贴上了低风险的标签。

    就误报率和漏报率来看,这个算法的表现确实很令人失望,黑人有可

    能因为它被无辜地判以更久的刑期,而会犯下更多罪行的白人则被释放。

    Northpointe公司针对这一指责回应道,人们应该根据预测结果是否

    公正地对待黑人和白人来评价他们的算法。事实上他们的算法的确做到了

    —碗水端平。

    看一下表6.1的第一列,我们会发现,在2 174例案件中有1 369名

    被列为高风险的黑人罪犯继续犯罪,其比例为63.0%。相应地,854名白

    人罪犯中,505名被归为高风险罪犯的人继续犯罪,其比例约为59.1%。

    这两组比值差不多,因此该算法对黑人罪犯和白人罪犯所做的校准是恰当

    的。不管某个特定罪犯属于哪个种族,交到法官手中的风险值都反映了这

    个人再次犯罪的概率。

    这两种评估偏见的方法产生了矛盾的结果。朱莉娅和她在ProPublica的

    同事关于误报和漏报的论证铿锵有力,但是蒂姆和他的团队关于算法校准的

    回应也理直气壮。针对同样的数据表,两支不同的专业统计学家团队得出了

    相反的结论。他们两支团队的计算都没有错误,那么到底谁是正确的?

    这个难题被斯坦福大学的两位博士生萨姆?科比特-戴维(Sam被算法操控的生活

    Corbett - Davie )、艾玛?皮尔森(Emma Pierson )和两位教授阿维?费

    勒(Avi Feller )、沙拉德?戈埃尔(Sharad Goel)—起合作解决了。他们

    证实了 Northpointe的说法,即表6.1显示COMPAS算法给出了不分种族

    的公平预测。接着,就像数学家们喜欢挑战难题一样,他们指出了一个更

    具普遍性的问题:如果一个算法对于两个群体来说同样可靠,并且一个群

    体比另一个群体更有可能再次犯罪,那么这两个群体将不可能有相同的误

    报率。如果黑人罪犯更频繁地再次犯罪,那么他们被错误地归于高风险类

    别中的概率就更大。任何其他结果都表明这个算法对这两个种族做了不公

    平的校准,因为那意味着它必须对白人和黑人罪犯使用不同的评估方法。

    相同的误报率和相同的漏报率不可兼得

    为了更好地理解这一点,我们先来进行一个思想实验。假设我想在脸

    书上发布一个在线招聘广告,为我的研究团队招聘一名计算机程序员,那

    么很简单地,我只要在研究小组的脸书页面上发布一个招聘启事,然后点

    击“速推帖子”(boost post)按钮来定向发布这个广告。通过使用寻找受众”

    (create audience )功能,我可以找到爱狗人士、退伍老兵、游戏机玩家或

    摩托车骑手。我还可以找到拥有表演、舞蹈和吉他演奏等爱好的人。

    脸书没有一个可以让我单独定向男性或女性的选项,我也不认为它

    应该提供这样的选项。但我知道,由于男女生在高中和大学做出了不同的

    教育选择,有更多男性而非女性对编程工作感兴趣。我们出于论证需要假

    设,1 000名女性中有125人对程序员的工作感兴趣,而1 000名男性中

    有250人对此感兴趣。

    编辑招聘广告的时候,我决定勾选几个我认为能够吸引计算机程序

    员的选项:角色扮演游戏、科幻电影和漫画。这些应该足够了。我记得自

    己攻读计算机科学专业时的学生时代是什么样的,因此知道很多程序员都生—立R八1算法在监视我们 弟―口b刀I互联网对个人数据做了什么。

    喜欢这些东西。通过这种方式,我可以吸引到一些优秀的申请者,而且不

    需要把广告费浪费在对这份工作不感兴趣的人身上。

    于是我发布了招聘启事并开始等待。

    —天之后,脸书将我的广告推送给了 500个人,包括100位女性和

    400位男性。

    当我告诉你结果时,你也许会震惊。在这之前,你可能会跟我说,“你

    在宣传招聘广告的时候带有偏见。角色扮演。科幻小说。你勾的那些选项

    不仅吸引电脑迷,而且通常情况下吸引的男性比女性多。你的算法不公平! ”

    “但你看,”我说「我已经做了统计。我的算法是公正的。”接着,我

    会拿出表6.2给你,并用高人一等的语调一板一眼地说「在被算法推送

    了广告的100位女性中,有50位对这份工作感兴趣,并将继续申请这个

    岗位。”在400名看到它的男性中则有200人对此感兴趣。因此,对于看

    到了它的人来说,这份广告不存在性别歧视。

    表6.2我的(思想实验)脸书宣传广告所针对的男女人数详表

    女性 被展示广告 未被展示广告 总计

    对职位感兴趣 50 75 125

    对职位不感兴趣 50 825 875

    总计 100 900 1 000

    男性 被展示广告 未被展示广告 总计

    对职位感兴趣 200 50 250

    对职位不感兴趣 200 550 750

    总计 400 600 1 000

    “但是比女性多三倍的男性看到了它! ”你喊道,对我蛮不讲理的数被算法操控的生活

    OUTNUMBERED

    字命理学感到绝望,“而且你从一开始就知道,对这份工作感兴趣的女性

    至少是男性的一半。你是在夸大已有的社会偏见。”

    当然,你是对的。我制作了一个广告,看到这个广告的男性数量是

    女性的四倍,这不公平。但我会运用和Northpointe同样的逻辑去证明自

    己的算法是正确的。就对这项工作感兴趣的两组人来说,我们做出正确预

    测的比例是一样的,这就是我所使用的无偏差校准的定义,而无偏差校准

    也是蒂姆?布伦南证明COMPAS算法对黑人罪犯和白人罪犯做了公平预

    测时所使用的依据。我的广告特别注意消除校准偏差。

    现在,你在脸书广告的算法中多勾选了一些选项。我们运行了这个

    模型之后得到了表6.3所示的结果。现在,该算法向100名可能会有意愿

    申请这份工作的女性以及200名可能会对此次招聘感兴趣的男性做了推

    送。100比200的比例反映了潜在的对该职位感兴趣的男女的数量比(125

    比250 ),此外男性和女性两组人的漏报率(五分之一)也是一样的。

    表6.3修改后(虽然只是实验性质)的脸书广告的男女受众详表

    女性 被展示广告 未被展示广告 总计

    对职位感兴趣 100 25 125

    对职位不感兴趣 200 675 875

    总计 300 700 1 000

    男性 被展示广告 未被展示广告 总计

    对职位感兴趣 200 50 250

    对职位不感兴趣 200 550 750

    总计 400 600 1 000然而即使我接受了你的处理方式,还是忍不住要指出这里的一个陷阱。

    看到这则广告的女性中,只有三分之一的人对这份工作感兴趣,而看到这

    则广告的男性中有一半对此感兴趣。如果再考虑到那些没有看到广告的人,我们可以说这是在歧视男性。在没有看到这则广告的男性中,每11个人中

    有1个人对这份工作感兴趣,而在没有看到这则广告的女性中,每27人中

    只有1个人对此感兴趣。我们校准后的新算法变得对女性有利了。

    可见不公平的现象就像游乐场里的打地鼠游戏,按下葫芦浮起瓢:

    你把地鼠从一个地方敲下去,它就会从另一个地方窜出来。你可以自己试

    着做两个2乘2空表,试一试以一种不带偏见的方式把1 000名女性(其

    中有125名对这份工作感兴趣)和1 000名男性(其中有250名对这个工

    作感兴趣)填入这四个格子里。结果是你做不到。在群体之间进行校准和

    使男女上班族得到相同的误报率及漏报率这两件事不可兼得,总有一些人

    会受到歧视。

    数学的美妙之处在于我们可以通过它证明普适的结论。这正是康奈

    尔大学计算机科学家乔恩?克莱因贝格(Jon Kleinberg )、曼尼什?拉加

    万(Manish Raghavan )与哈佛大学经济学家森德希尔?穆莱纳坦(Sendhil

    Mullainathan )—起用很多类似表6.2和表6.3的2乘2频率分布表所做

    的事情。在我的例子中,我用了具体的数字组合,但是乔恩、曼尼什和

    森德希尔都证明了,一般而言,我们不可能在消除两组的校准偏差的同

    时得到相同的误报率和漏报率。这个结果与我们输入表中的数字无关,除了一个明显的例外一一各组的基本特征完全相同。因此,只有当佛罗

    里达州布劳沃德县的黑人和白人被告的再犯罪率相同或学习计算机编程

    的女性和男性一样多时,我们才有希望做出完全没有偏见的算法。当我

    们生活在一个方方面面都不公平的世界中时,我们就不能指望我们的算

    法完全公平。被算法操控的生活

    只有悖论,没有公平

    这个世界上不存在公平的方程式。公平只是人类的美好愿望,它是我

    们的一种感觉。当你改变我的广告算法时,我觉得你是对的。就广告宣传

    活动而言:我本能地更喜欢表6.3甚于表6.2。当你试图为一个岗位找到最

    佳合适人选时做了一个吸引男性申请者远多于女性申请者的广告,我们感

    觉这是不公平的。我们理应投入时间来做出能够更好地找到合格女程序员

    的算法,即使这意味着它在寻找男性程序员方面有所欠缺,我也会觉得公平。

    我还认为,蒂姆?布伦南和COMPAS算法的其他发明者在预测中强

    调消除校准偏差是错误的。如果Northpointe能够创造出一种能更准确地

    识别黑人是否是高风险再犯罪者的算法,即使它对白人起不到同样的效

    果,我也不会认为这种算法存在种族歧视。因为它能够解决社会中的一个

    重要问题。

    在对ProPublica数据集的调查中,我发现了一个有趣的线索,可能有

    助于创建一个误报率更小的算法。为什么布劳沃德县的黑人罪犯比白人罪

    犯更频繁地再次犯罪。围绕COMPAS算法的争论很少能够抓住关键原因。

    其实真相非常简单:黑人罪犯在被捕时通常更年轻,而总的来说,年轻人

    更有可能再次犯罪。因此,如果Northpointe能找到一种更好的方式识别

    那些因为犯罪被捕但在未来不太可能再次犯罪的年轻人,那么我们大多数

    人都会认为这是一件好事。这样的方法会在不经意地造成白人和黑人之间

    的校准偏差:由于黑人罪犯比白人罪犯年轻,所以在年轻人身上表现得更

    好的算法整体上来说也会在黑人身上表现得更好。

    我想问蒂姆一个问题,校准他的算法对他来说真的就那么重要吗。

    他更应该考虑的难道不是如何减轻年轻黑人男性和女性的牢狱之苦吗。他

    们可能只是因为一次愚蠢的失足而被关进了监狱。

    在完成这些分析的几天后,我设法采访了蒂姆,问他对我的看法有 什么观点。他耐心地听着我说话,并且同样认为罪犯年龄加上犯罪记录以

    及是否吸毒,是预测再犯的最重要因素。但他强调,美国有“种族平等的

    宪法要求”。根据最高法院的一项裁决,除非公众对某一特定问题有非常

    强烈的关切,否则模型必须对所有群体都同样准确(也就是必须进行偏差

    校准)。因此,他和他的同事们在提高准确性和遵循这些要求之间一直在

    “走钢丝”。

    蒂姆确信,统计测试证明他的模型是没有偏见的,并引用了几份独

    立的报告来支持这一说法。他告诉我,ProPublica的报告让人们更多地进

    行批判性思考,但也让人们忽视了在量刑时使用严格的统计方法这一更重

    要议题。他告诉我:“如果将量刑法官的准确率一并进行考量,那么算法

    的风险评估水平远远超出了人类的判断水平,在对黑人罪犯造成不公平影

    响的误报方面尤其如此。”

    在ProPublica对刑事判决中所使用的算法进行研究之前,加州大学伯

    克利分校戈德曼公共政策学院的教授珍?斯基姆(Jen Skeem )全面评估

    了一个名为PCRA的判决算法。她的结论是,该算法对黒人和白人被告

    都是公平的,不应该被贴上偏见的标签。她对我说,这些围绕偏见的争议

    并不新鲜,不过人们对这种“有偏见的算法”才刚刚表现出愤怒。

    珍告诉我:“人们往往忽视了最重要的问题「偏见'比起现有实践来,谁的弊端更大呢少”而这就是她现在正在研究的课题。

    我意识到很难在这件事情上厘清孰对孰错。我出于自己的经历和价

    值观支持消除算法偏见。即便从道德意义上来说我的观点刚好就是对的,它在数学证明上也是不正确的。数学不停地告诉我,没有计算公平的公

    式。毫无疑问,珍和蒂姆对算法的使用与第2章里提及的朱莉娅?安格温、凯西?奥尼尔和阿米?特达塔一样满腔热忱,所有人都在努力地做正确

    的事,都希望自己站在正义的一边。

    每当我们为了做正确的事情而向数学求助的时候,它给我们的答被算法操控的生活

    OUTNUMBERED

    案始终如一:公平不止源于逻辑。在数学史上,还有许多其他证明公平

    难以定义的例子。肯尼斯?阿罗(Kenneth Arrow )的不可能性定理”

    (impossibility theorem )告诉我们,不存在一个制度能够让人们在三个政

    治候选人之间进行选择时,又公平地反映所有投票者的喜好。佩顿?杨

    (Peyton Young )的著作《公平》(Equity )利用数学博弈论来探讨了这一

    问题,不过作者自己都“承认”该书“堆砌了许多例子,以说明为什么公

    平不能简单粗暴地被当作包治百病的灵丹妙药。”辛西娅?德沃克(Cynthia

    Dwork )和她的同事们于2012年发表了著作《意识唤醒公平》(Fairness

    Through Awareness ),试图在群体平权运动和个体公平之间探索最佳平衡。

    但就像乔恩?克莱因伯格和他的同事们关于偏见的研究一样,这些作者通

    过数学计算找到的只是悖论,而不是合理的确走性。

    我想起了谷歌员工曾经引以为豪的一句格言“不作恶”(Doiftbe

    evil),但现在谷歌公司却不怎么提它。难道因为它的一个数学家发现没有

    公式可以确保百分之百不做错事,谷歌就因此抛弃了它的座右铭吗?

    我们可以全力以赴,但永远无法确定我们所做的事情就是正确的。第7章丨数据炼金术士

    和我交谈过的很多研究人员和活动家都理所当然地认为算法很聪明,并且在迅速地变得更加聪明:算法在数以百计的维度中“思考”,处理海

    量数据,并了解我们的行为。

    这些观点常常来自乌托邦主义者,比如蒂姆?布伦南。他是

    COMPAS的创造者,认为能够预测未来的算法将帮助我们做出关键决定;

    同样地,它们也来自更倾向于反乌托邦主义的人,比如那些在博客上对剑

    桥分析公司愤愤不平的人。双方都认为目前计算机的表现优于我们,或者

    它们很快就会在大量的工作中比我们做得更加出色。

    媒体不遗余力地渲染说,我们正在经历一场巨变,算法将大有作为。

    从COMPAS算法、剑桥分析公司到谷歌和脸书的定向广告的威力,所有

    报道无不提到人工智能(AI)的潜在危险。

    然而到目前为止我发现的却是另外一番景象。更仔细地研究了剑桥

    分析公司和政治人格之后,我发现算法的准确性存在一些根本局限。这些

    局限与我自己对人类行为进行建模时所看到的问题如出一辙。我在应用数

    学领域耕耘了 20多年,使用过回归模型、神经网络、机器学习、主成分被算法操控的生活

    ■ )!

    分析法以及许多其他媒体日益关注的工具。也就是在这段时间里,我逐渐

    意识到,当需要理解这个世界的时候,数学模型通常战胜不了人类。

    算法不知道的事情

    我的观点听起来可能让人意外,因为我所从事的工作就是用数学来

    预测世界。在写作本书的同时,我经营着一家用模型来理解和预测足球比

    赛结果的公司。此外我还领导着一个学术研究小组,用数学解释人类、蚂

    蚁、鱼类、鸟类和哺乳动物的集体行为。我对模型的作用深信不疑。所以,从我的立场来说,过多质疑数学的作用不太可能给我带来什么好处。

    然而与读者坦诚相对对我来说更重要。在我研究足球的过程中,我

    遇到了一些顶尖俱乐部的球探和分析师。当我告诉他们某个球员在比赛中

    创造机会或做出贡献的数据时,他们凭直觉就能解读出这些数据背后的原

    因,这让我颇为惊叹。我可能会说“在同一位置上,球员X要传出威胁

    球的机会比球员Y高34%。”

    这时球探就会说,“好吧,让我们来看一下他们对防守的贡献……有

    了,球员Y对防守的贡献更大。教练要求他在这个位置上加强防守,因

    此他创造的进球机会就少了。”虽然计算机非常善于收集大量统计数据,但人类更善于洞悉这些数据之所以产生的根本原因。

    我的一位足球数据分析师同行加里?热拉德(Garry Gelade )最近开

    始着手解构足球分析里的一个核心模型,即所谓的“期望进球” (expected

    goals )o期望进球背后的统计理念非常清晰可靠。在顶级足球比赛中,每

    —次射门的数据都会被收集:它们来自禁区内还是禁区外;来自头球射门

    还是脚射门;来自于快速防守反击还是阵地进攻;射门时对方的防守严不

    严密等。然后,分析师会根据这些数据为每一次射门打出期望进球值。正

    对球门的射门、禁区内射门和面向球门射门将得到更高的期望进球值。斜 着射门或者在禁区外射门的期望进球值则会比较低。球队的每次射门都会

    自动得到一个从0 (不可能进球)到1 (必进球)的值。

    期望进球统计行之有效,是因为它让我们能够评估一支球队在低得分

    球赛中的表现情况。一场比赛可能会以0 : 0结束,但是创造了很多机会的

    球队将得到更高的期望进球值。这些数字能够起到预测作用,在之前的比

    赛中创造更多期望进球的球队往往会在随后的比赛中收获更多的实际进球。

    当加里在2017年夏天用模型进行分析时,期望进球的概念在主流媒

    体流行起来。天空体育(Sky Sports )和BBC播放了英格兰足球超级联

    赛(English Premier League )夏季转会球员的期望进球值的统计数据;《卫

    报》《每日电讯》和《泰晤士报》也竞相刊文解释这一概念。而在美国,关于期望进球的统计数据在职业足球大联盟(MLS )和全国女子足球联盟

    (NWSL )的主页上被广泛展示。人们日渐将期望进球视为衡量一支球队表

    现的“客观”方法。

    加里将期望进球与另一种更人性化的评估足球进球机会质量的方法

    进行了比较。分析体育竞技表现的公司Opta收集了一种它称之为“好机

    会”(big chance)的指标。一次机会是不是“好机会”,由训练有素的人

    类操作员做判断。他们会观看整场比赛并仔细观察每一次射门。如果操作

    员认为这次射门很有可能转化为一个进球,那么他们就将其标记为“好机

    会”。如果他们认为这不太可能是一次进球机会,他们就把它标记为“欠

    佳机会”。通过比较“好机会”和“期望进球”,加里就可以比较人类和计

    算机评估进球机会质量的能力。

    我们可以从两方面评估“好机会”的准确性。首先,我们可以看一

    下那些没有进球得分但被操作员认为是一个“好机会”的射门占多大比例。

    这个值就是误报率,是我们在第六章中已经遇到过的概念。误报率是指被

    认为是“好机会”的未进球的射门所占的比例。其次,我们可以看一下那

    些进球得分的“好机会”射门占进球数的比例。这是真阳性率,也就是说被算法操控的生活

    OUTNUMBERED

    操作员做出正确的预测的比例。加里的分析显示,“好机会”在7%的情

    况下(误报)错误地预测了进球射门机会,在53%的情况下正确地预测

    了哪些射门实现了进球(真正类)。

    加里发现,期望进球模型无法得出和“好机会”同样的准确度。不

    管他对模型怎么调整,后者要么产生更多漏报,要么产生更少的正确预测,始终比不上“好机会”的预测能力。期望进球模型使用了大量数据,但是

    它们(还)没有打败人类。我们有了可以衡量绿茵场上球员表现的算法,这乍一听可能让人兴奋,但这种方法并不比一个记录球队每次进球机会的

    资深球迷强,而前面提到的操作员通常招募自足球球迷。

    加里告诉我,他曾经看到一篇文章将“期望进球”鼓吹为“完美”

    的足球比赛预测模型,在这之后他就着手开始了自己的分析。尽管这样的

    炒作可能会给他的生意带来短期利益,但从长远来看却会损害足球数据分

    析的声誉。加里曾担任过多个俱乐部的顾问,包括切尔西、巴黎圣日耳曼

    和皇家马德里。他认为,模型虽然可以帮助人类做岀决策,但至少就现在

    而言,它还取代不了人类。他给我举了一个例子来说明数据分析技术在比

    赛中是如何被用来观察守门员,并训练他们的站位和移动的。这种方法非

    常可靠、实用。赛场上的方方面面都可以找到模型的用武之地,但是不存

    在“完美”的足球比赛模型。

    为音乐流媒体服务商声田工作的格伦?麦克唐纳(Glenn McDonald )

    是另一位对工作实事求是的数据专家。在向听众建议新歌曲以及创建有趣

    的播放列表等方面,声田希望能够做得比TIDAL和Apple Music等竞争

    对手更优秀。这家公司通过了解我们的收听模式来实现这一目标,而且

    它提供的每一个建议,从“歌曲电台”(song说io)到“为你推荐” (just

    for you )播放列表,都采用了格伦和他同事开发的音乐分类系统。

    声田的音乐分类系统将每首歌视为13维空间中的一个点,并将距

    离较近的点归为一个种类。这些维度即包括客观的音乐属性,如“响度”鈴—立1算法在监视我们 弟一口D刀|互联网对个人数据做了什么?

    (Loudness )和每分钟节拍(Beats per minutes ),也包括更主观的情感

    属性,如“活力” (Energy 有『(悲伤)和“舞蹈性” (Danceability )o

    主观属性可以通过听歌环节进行量化,在这个过程中人类实验对象会聆听

    成组的歌曲,并说出他们认为最悲伤或最适合跳舞的一首歌。算法学习并

    领会其中的差异后,将自行对其他歌曲进行适当的分类。

    格伦创造了一种叫作“一眼识风格(Every Noise at Once )的交互式

    视觉化技术,它将声田所有1 536种音乐类型都放在一个二维的云里:垂

    直方向上,最底端的是“深度歌剧”(deep opera ),最顶端的是“高科技舞曲”

    (re: techno );水平方向上,最左边的是“维京金属”(Viking metal ),最

    右边的是“非洲打击乐(African percussion ),它把每一种你可以想到的

    音乐形式汇集到一起,而且那些风格相似的音乐在这个二维平面中相距很

    近。这是一项了不起的技术成就,也是纵览世界音乐财富的一种非常简洁

    的方式。

    为了完成一篇《经济学人18431843 )杂志的约稿,我

    和格伦进行了第一次交谈。在采访之前,我有点担心会忍不住表露自己

    对声田听歌建议的看法。我曾经常使用声田的每周发现”(Discover

    Weekly )服务来寻找新的音乐,但经常颇感失望。我喜欢忧郁的歌曲,但

    当我听从Spotify的建议欣赏它们推荐的歌曲时,它们产生的情感效果比

    不上我所收藏的悲伤歌曲。事实上,声田推荐的歌曲往往很无聊,而它的

    许多其他用户也抱怨相同的问题:相比于他们自己真正喜欢收藏的歌曲,声田推荐的歌就像兑了白开水,寡然无味。

    我告诉格伦,我经常收听声田的推荐歌曲,但每一首都只能浅尝辄止,没有哪首歌能够做到让我单曲循环。我原本以为他会产生一些挫败感,没

    想到他却很乐意承认自己算法的局限性。“我们无法洞察你喜欢一首歌的

    缘由,”他告诉我。

    格伦解释说,声田播放列表最适合用在派对上。“因为这是一个集体被算法操控的生活

    活动”,他告诉我,“我们在给社交场合生成播放列表方面做得很好,在集

    体活动中被人跳过不放的歌曲数量也很少。而为你个人推荐新歌的时候,每10首歌中你如果能够喜欢1首,我们就已经很满意了。”他说的没错。

    当我们在家招待朋友的时候,我和妻子经常会选择播放声田上一个大众化

    歌曲列表。这样就避免了在歌曲选择上的分歧,而且我们也确实经常喜欢

    它的推荐歌曲。

    格伦告诉我推荐歌曲的过程远非纯粹的科学,“我有一半的工作是检

    查电脑做出的推荐中有哪些是合乎情理的。”当格伦为自己的职责选择头

    衔时,他要求人们称他为“数据炼金术士”,而不是“数据科学家”。他认

    为自己的工作不是寻找音乐风格的绝对真相,而是提供合乎情理的音乐分

    类。而这个过程需要人类和计算机协同工作。

    考虑到“一眼识风格”这个口号的影响范围多么巨大,格伦的谦逊

    强烈地触动了我。和我交谈过的许多数据科学家一样,他认为自己的工作

    是在极高维的空间中探索。但在和我交谈过的人当中,他第一个公开承认

    我们思想中存在着极其私人及不可知的维度。他谈起了我们听到让自己初

    闻倾心的那首歌时我们的感觉,以及在我们第一次摸方向盘时听到一首歌

    的感受。格伦还谈论了那些让我们对生活有所感悟的歌,以及改变我们对

    待同性恋或种族主义者态度的歌曲。他承认这些都是他无法解释的东西。

    精准广告:互联网公司滥用了私人信息吗?

    数据炼金术这个概念完美地体现了现代数字营销的运作方式。在和

    格伦交谈后不久,我采访了途易集团北欧分公司(TUI Nordic)的品牌

    和绩效主管约翰?于德林(Johan Ydring )o途易集团掌控着数千家旅行

    社和在线门户网站,经营着数百架飞机和酒店,客户多达2 000万。约

    翰的工作是确保公司收集的所有客户数据以及从脸书和其他社交媒体网第—部分)瞬呱做了什灯

    站获取的数据物尽其用。

    约翰形容他的工作是假装聪明”。他的团队会提出四五种向特定目

    标群体进行营销的方法,并一一尝试。如果某种方法起到了作用,他们就

    会在更大的群体身上进行试验。

    最简单的方法往往就是最好的。如果一位顾客连续两次假期预订了

    前往西班牙的旅游服务,那么约翰的团队就会确保他每年预订来年夏天

    假期旅行的时候,其消息流中会适时地出现一则脸书广告。这则广告可

    能会建议去葡萄牙,一个顾客从未去过的地方。这可能会让用户感到阴

    魂不散,他们会觉得脸书已经学会了读心术。前几天他们刚刚和一个朋

    友在脸书上谈论葡萄牙的阿尔加维(Algarve)地区,现在关于阿尔加维

    的广告就出现在了他们的屏幕上。其实,用在他们身上的不过是一个简

    单的统计花招:数据炼金术士们已经计算出了人们通常预定假期旅行的

    时间,并找到了在西班牙和葡萄牙之间旅行的关联。

    我们大多数人都有过这样的感觉:脸书或谷歌已经读懂了我们的想

    法。有个晚上,我的儿子在吃晚饭之前被YouTube ±的广告“轰炸” 了,那是他最喜爰却是市面上最不健康的面包的广告。最近,我妻子在本地商

    店里第一次买了某个品牌的巧克力,结果突然之间,这个品牌的广告就开

    始出现在她的脸书消息流中。

    在经历了定向广告的“轰炸”后,我经常听到家人和朋友说,他们

    怀疑互联网正在窥探他们。他们开始猜测WhatsApp是否会出售他们的私

    人信息,或者iPhone是否会记录他们的对话。

    关于公司滥用私人信息的阴谋论不太可能站得住脚。更合理的解释

    是,数据炼金术士们发现了我们行为中的统计关系,并帮 ......

您现在查看是摘要介绍页, 详见PDF附件(15546KB,257页)