人工智能和机器学习中数据集的3大问题 - 图书行业

TUhjnbcbe - 2024/9/1 16:52:00

数据集为人工智能模型提供燃料，就像汽油（或电力，视情况而定）为汽车提供燃料。无论它们的任务是生成文本、识别物体，还是预测公司的股票价格，人工智能系统都是通过筛选无数的例子来"学习"，以辨别数据中的模式。例如，计算机视觉系统可以被训练成通过观察某些类型的服装（如大衣和围巾）的不同图像来识别该服装。

除了开发模型，数据集还被用来测试训练有素的人工智能系统，以确保它们保持稳定--并衡量该领域的整体进展。在某些开源基准上名列前茅的模型被认为是该特定任务的技术水平（SOTA）。事实上，这是研究人员确定一个模型的预测强度的主要方式之一。

但这些人工智能和机器学习数据集--就像设计它们的人类一样--并不是没有缺陷的。研究表明，偏见和错误给许多用于训练、基准和测试模型的图书馆蒙上了阴影，突出了对未经彻底审查的数据给予过多信任的危险性--即使这些数据来自于知名机构。

1.训练的困境

在人工智能领域，基准测试需要比较为同一任务设计的多个模型的性能，比如在语言之间翻译单词。在理论上，这种做法--起源于探索人工智能早期应用的学者--具有将科学家围绕共同问题组织起来的优势，同时有助于揭示已经取得了多少进展。

但是，在数据集选择方面变得也有风险。例如，如果相同的训练数据集被用于多种任务，那么数据集就不可能准确反映模型在现实世界中看到的数据。错误的数据集会扭曲对科学进步的衡量，导致研究人员认为他们做得比实际要好--并对现实世界中的人们造成伤害。

加州大学洛杉矶分校的研究人员和谷歌在最近发表的一项题为"减少、重复使用和回收"的研究中调查了这个问题。机器学习研究中数据集的寿命"。他们发现，在机器学习中存在"大量借用"数据集的情况--例如，从事一项任务的社区可能会借用为另一项任务创建的数据集--这引起了对错位的担忧。他们还表明，只有十几所大学和公司负责创建机器学习中50%以上时间使用的数据集，表明这些机构正在有效地塑造该领域的研究议程。

"追逐SOTA是不好的做法，因为有太多的混杂变量，SOTA通常并不意味着什么，而科学的目标应该是积累知识，而不是特定玩具基准的结果，"谷歌大脑团队的前驻场人员丹尼-布里茨在之前的采访中告诉媒体。"已经有了一些改进的举措，但是寻找SOTA是审查和评估论文的一种快速而简单的方法。像这样的事情已经嵌入到文化中，需要时间来改变"。

对于他们的观点，ImageNet和OpenImages--来自斯坦福和谷歌的两个公开可用的图像数据集--在很大程度上是以美国和欧洲为中心的。在这些数据集上训练的计算机视觉模型在来自第三世界国家的图像上表现更差。例如，与来自美国的新郎相比，这些模型对来自埃塞俄比亚和巴基斯坦的新郎的分类准确率较低，而且当这些图像来自第三世界方时，它们不能正确识别诸如"婚礼"或"调味品"这样的物体。

甚至南北半球太阳路径的差异和背景景物的变化也会影响模型的准确性，相机型号的不同规格如分辨率和长宽比也会影响模型的准确性。天气条件是另一个因素--如果一个无人驾驶汽车系统只在阳光明媚的热带环境的数据集上进行训练，那么它在遇到雨雪天气时的表现就会很差。

麻省理工学院的一项最新研究显示，包括ImageNet在内的计算机视觉数据集包含有问题的"无意义"信号。在这些数据集上训练的模型受到"过度解释"的影响，这种现象是它们以高置信度对缺乏细节的图像进行分类，以至于它们对人类来说毫无意义。这些信号在现实世界中会导致模型的脆弱性，但它们在数据集中是有效的--这意味着过度解释无法用典型的方法来识别。

"麻省理工学院博士生、该研究的主要作者布兰登-卡特（BrandonCarter）在一份声明中说："有一个问题是，我们如何能够以一种方式修改数据集，使模型能够被训练成更接近于模仿人类对图像分类的思考方式，因此，希望在这些现实世界的场景中，如自动驾驶和医疗诊断，能够更好地进行概括，以便模型不会有这种无意义的行为。

历史上充满了部署使用有缺陷的数据集训练的模型的后果的例子，比如虚拟背景和照片剪裁工具，这些工具不喜欢皮肤较黑的人。年，一名软件工程师指出，谷歌照片中的图像识别算法将他的黑人朋友标记为"大猩猩"。非营利组织AlgorithmWatch显示，谷歌的云端视觉API曾一度将黑人持有的温度计标记为"枪"，而将浅肤色人持有的温度计标记为"电子设备"。

模糊的数据集还导致了使性别歧视的招聘和雇用、年龄歧视的广告定位、错误的评分以及种族主义的累犯和贷款审批长期存在的模式。这个问题延伸到医疗保健领域，其中包含医疗记录和图像的训练数据集大多来自北美、欧洲和中国的患者--这意味着模型不太可能对代表性不足的群体产生良好的效果。这种不平衡在入店行窃者和武器识别的计算机视觉模型、工作场所安全监控软件、枪声检测系统和"美化"过滤器中很明显，它们放大了训练数据中存在的偏见。

专家们将面部识别、语言和语音识别系统中的许多错误也归因于用于训练模型的数据集的缺陷。例如，马里兰大学的研究人员发现，亚马逊、微软和谷歌的面部识别服务更有可能在年龄较大、皮肤较黑的人和那些不太"女性化"的人身上失败。根据算法正义联盟的声音消除项目，苹果、亚马逊、谷歌、IBM和微软的语音识别系统对黑人声音的单词错误率合计达到35%，而对白人声音的错误率为19%。而且，语言模型已被证明表现出对种族、民族、宗教和性别的偏见，将黑人与更多的负面情绪联系在一起，并与"与黑人结盟的英语"作斗争。

"加州大学洛杉矶分校的BernardKoch和JacobG.Foster以及谷歌的EmilyDenton和AlexHanna是"减少、再利用和回收"一书的共同作者，他们通过电子邮件告诉媒体，"数据[在某些情况下]是从网络上的许多不同地方刮来的，而这些网络数据反映了与霸权主义意识形态（例如白人和男性主导地位）相同的社会层面的偏见和偏差。"更大的......模型需要更多的训练数据，而且一直在努力清理这些数据，防止模型放大这些有问题的想法。"

2.标签的问题

标签是许多模型学习数据关系的注释，它也带有数据不平衡的特征。人类对训练和基准数据集中的例子进行注释，在狗的图片上添加"狗"这样的标签，或者描述风景图片中的特征。但是注释者会带来他们自己的偏见和缺点，这可能会转化为不完美的注释。

例如，研究表明，一般的注释者更有可能将非裔美国人方言英语（AAVE），即一些美国黑人使用的非正式语法、词汇和口音的短语标记为有毒。在另一个例子中，麻省理工学院和纽约大学的万张微小图片数据集--该数据集于年下线--的一些标注者贡献了种族主义、性别歧视和其他攻击性的注释，包括近张标注有N字的图片以及"强奸嫌疑人"和"儿童骚扰者"等标签。

年，《连线》报道了亚马逊MechanicalTurk等平台--许多研究人员在这里招募注释者--对自动机器人的易感性。即使工人是可核实的人类，他们的动机是报酬而不是兴趣，这可能会导致低质量的数据--特别是当他们受到恶劣的待遇和低于市场价格的报酬。包括NiloufarSalehi在内的研究人员已经尝试通过Dynamo这样的开放性工人集体来解决亚马逊MechanicalTurk的缺陷，但他们能做的只有这么多。

作为人类，注释者也会犯错误--有时是重大错误。在麻省理工学院对包括ImageNet在内的流行基准的分析中，研究人员发现了错误的图像标签（如一个品种的狗被混淆为另一个品种），文本情感（如亚马逊产品评论被描述为负面，而实际上是正面），以及YouTube视频的音频（如ArianaGrande的高音被归为口哨）。

一个解决方案是推动建立更具包容性的数据集，如MLCommons的人民语音数据集和多语种口语语料库。但是策划这些数据集既费时又费钱，其价格往往高达数百万美元。Mozilla努力建立一个开源的转录语音数据集，自年推出以来，只审核了几十种语言--说明了这一挑战。

创建一个数据集如此昂贵的原因之一是高质量注释所需的领域专业知识。正如Synced在最近的一篇文章中指出的那样，大多数低成本的标签器只能注释相对"低语境"的数据，不能处理"高语境"的数据，如法律合同分类、医学图像或科学文献。事实表明，司机往往比没有驾照的人更有效地标注自驾游数据集，医生、病理学家和放射科医生在准确标注医疗图像方面表现更好。

机器辅助工具可以在一定程度上帮助消除标签过程中的一些重复性工作。其他方法，如半监督学习，有望减少训练模型所需的数据量，使研究人员能够在为特定任务设计的小型定制数据集上"微调"模型。例如，在本周发表的一篇博文中，OpenAI说，它设法对GPT-3进行了微调，通过复制人类在网上研究问题的答案（例如，提交搜索查询、跟踪链接和上下滚动页面）来更准确地回答开放式问题，并引用其来源，允许用户提供反馈以进一步提高准确性。

还有一些方法旨在用部分或完全的合成数据取代真实世界的数据--尽管在合成数据上训练的模型是否能与真实世界的数据对应的准确性相媲美，目前还没有定论。麻省理工学院和其他地方的研究人员已经试验过在视觉数据集中单独使用随机噪声来训练物体识别模型。

从理论上讲，无监督学习可以一劳永逸地解决训练数据的难题。在无监督学习中，一个算法被置于"未知"数据中，这些数据不存在先前定义的类别或标签。但是，虽然无监督学习在缺乏标签数据的领域表现出色，但这并不是一个弱点。例如，无监督的计算机视觉系统可以在未标记的训练数据中发现种族和性别的定型观念。

3.一个基准问题

人工智能数据集的问题并不停留在训练上。在维也纳人工智能和决策支持研究所的一项研究中，研究人员发现多篇人工智能研究论文的基准不一致--在许多情况下，可归因于没有强调信息指标的基准。Facebook和伦敦大学学院的另一篇论文显示，在"开放领域"基准上测试的自然语言模型给出的60%到70%的答案隐藏在训练集的某个地方，这意味着模型只是记住了这些答案。

在纽约大学AINow研究所的技术研究员DeborahRaji共同撰写的两项研究中，研究人员发现像ImageNet这样的基准经常被"错误地抬高"，以证明超出其最初设计的任务的说法。据Raji和其他合著者称，这还不包括"数据集文化"会扭曲机器学习研究的科学性--缺乏对数据主体的关怀文化，造成恶劣的劳动条件（比如注释者的低工资），同时对那些数据被有意或无意地卷进数据集的人没有充分保护。

一些针对特定领域的基准问题的解决方案已经被提出，包括艾伦研究所的GENIE。与众不同的是，GENIE同时包含了自动和手动测试，让人类评估人员根据预定义的、针对数据集的流畅性、正确性和简洁性的准则来探测语言模型。虽然GENIE价格昂贵--提交一个模型进行基准测试的费用约为美元--但艾伦研究所计划探索其他支付模式，例如要求科技公司支付费用，同时为小型组织提供费用补贴。

在人工智能研究界也有越来越多的共识，即如果基准要发挥作用，特别是在语言领域，必须考虑到更广泛的道德、技术和社会挑战。一些语言模型有很大的碳足迹，但尽管对这个问题有广泛的认识，相对来说，很少有研究人员试图估计或报告他们系统的环境成本。

"Koch、Foster、Denton和Hanna说："只