失败者还是啦啦队长？ AI能识别自拍照给人分类

2019-10-21 10:25网易科技 - 小小

早在2009年，美国斯坦福大学和普林斯顿大学的科学家就曾提出设想，希望教授计算机识别世界上的任何物体。为了实现这个目标，他们需要很多图片，除了猫、狗、苹果、叉子、勺子等，还需要无数人类的图片。

这些图片被划分为不同的类别，然后被展示给机器学习算法。随着时间的推移，算法将慢慢学会如何分辨出勺子和叉子的区别。研究人员建立了包含1400多万张图片的数据集ImageNet，所有这些图片被分成2万多个类别，每个类别平均有1000张图片。

如今，ImageNet已经成为世界上被引用最多的物体识别数据集，在研究论文中被引用超过1.2万次。不过，ImageNet不仅仅包括物体对象，它还有近3000个专门用于人的类别，包括使用相对无害的术语描述这些人类，如“啦啦队长”或“明星”。

但是，通过亚马逊平台Mechanical Turk使用人力众包，许多分类描述令人深感不安。这些类别包括“坏人”、“伪君子”、“失败者”和“懦夫”等，而且每个类别中都有大量图片，它们是从Flickr和其他社交媒体网站上收集而来的，且未经图片所有者的同意就被使用。

ImageNet和其他类型训练数据集是米兰普拉达基金会(Prada Foundation)新展览的主题。这个名为“训练人类”的展览由特雷弗·帕格伦(Trevor Paglen)和教授兼研究员凯特·克劳福德(Kate Crawford)策划。它展示了组成ImageNet等数据集的图片，并向访问者展示了为计算机视觉和面部识别系统提供支持的各类图片。

其中ImageNet受到特殊对待，它在画廊里有自己的展厅，人们的照片在那里被粘贴到卡片上，而卡片上印有它们的类别标签。这与过去制定科学卡片目录的方式相似，就像昆虫标本被定在印有它们学名的卡片上那样。

对于不能访问米兰的人，帕格伦和克劳福德创建了名为ImageNet Roulette的在线工具，该工具针对ImageNet的人类分类功能进行培训。它可以让你用网络摄像头拍摄照片，使用链接或者上传某个人的任何照片，然后它向你提供ImageNet对该照片中目标人物的分类。

帕格伦和克劳福德在今年早些时候奥斯汀的South by Southwest会议上演示了该工具，并附上了一些照片。里奇是帕格伦工作室的开发者，但他的一些照片被认为是“马屁精”，克劳福德的头像则获得了“女英雄”的分类。

当我（本文作者，Fastcompany记者凯瑟琳·施瓦布（Katharine Schwab））用电脑的网络摄像头亲自尝试时，ImageNet认定我是个“心理语言学家”，原因尚不清楚。帕格伦说：“我认为，总体上来说，对人类进行分类是一件值得进行更多审查的事情。”

帕格伦将机器学习的兴起和人们对其算法是否客观的看法比作19世纪末20世纪初的摄影史，当时许多人认为这些新奇的图像天生就是中立的。他说：“当摄影被发明时，人们认为它是客观和中立的，并鼓励我们现在认为的那群伪科学学者测量人们的面部，以确定他们是不是罪犯。”

当然，如今我们已经可以确定，摄影带有主观意识，帕格伦和克劳福德希望揭示当今人工智能（AI）系统的真相，改变人们的普遍看法，即它们在某种程度上是中立的，因为它们是用数学模型构建的。克劳福德解释称：“无论构建什么样的系统对人类进行分类，它总是具有主观性，并有一种内在的观察方式。”

这次展览可能是许多人第一次瞥见算法系统的基础训练图像，但有些最重要的照片却不见了。虽然“训练人类”展览包括开源或可供研究使用的数据集，但它排除了我们这个时代某些最强大数据集中的图像，如Facebook上的大量图像。

克劳福德还想强调，这些复杂的技术系统的根源在于人们日常生活中的世俗形象。他说：“它们不是那些没有人能理解的极其抽象的数学系统，而是我们日常生活中的真实反映，它们已经被摄取到这些大型系统中，以使AI更好地进行面部识别或进行‘情感检测’。”

但这并不意味着它们是无害的。面部识别是极具争议性的，而情感识别的真相也开始被科学家揭穿。

展览中包括的数据集之一是1997年的日本女性面部表情数据集，其中有213张照片，被分为六种面部表情，这些表情被认为与内心的情绪状态相对应，分别是喜悦、惊讶、悲伤、厌恶、愤怒和恐惧。克劳福德指出，这是个典型例证，表明仅仅用六个类别来表达人类情感绝对不够。

另一个被称为FERET的数据集是由美国中情局在20世纪90年代末资助创建的，它使用了在德克萨斯大学奥斯汀实验室工作的研究人员、实验室助理和看门人的图像来训练检测人脸的算法。

虽然许多机器学习数据集都有很大的缺陷，但无论是学术研究人员还是公司都在部署它们。但克劳福德对于如何更好地对数据集的固有偏差进行编目有自己的想法，这样未来的AI科学家使用它们时，他们至少会意识到这个问题。

2018年，克劳福德与其他八名研究人员合作进行了一个项目，该项目为训练集创建标签，其中包括关于图像来自何处、人口统计学划分、创建者、图像受试者是否同意、任何隐私问题以及数据集的原始意图等信息。这些“数据集的数据表”已经在行业中得到了部分采用，这是研究人员向理解他们AI数据含义迈出的一小步。

对于帕格伦来说，可以做些什么来减少机器学习训练集的简单化和完全不准确是个更大的问题，因为他相信技术永远不可能是中立的，他认为这些系统的设计者应该质疑对人类进行分类是否真的是他们想要做的工作的一部分。他说：“你想生活在一个什么样的世界里？这是首先需要弄清楚的问题。”（选自：Fastcompany作者：Katharine Schwab编译：网易智能参与：小小）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。