Abstract

背景：模型大，参数多，数据集大；数据质量不佳，在不透明数据集中大型视觉语言模型中根深蒂固的偏见（如Clip模型——学习图像和文本之间的匹配关系）
Our work
1. 检查了最近发布的LAION-400M数据集：一个CLIP-filtered dataset；从Common-Crawl dataset解析的图像-alt-文本对
2. 存在问题：该数据集包含了强奸、色情、恶意刻板印象、种族主义和种族歧视，以及其他极其有问题的内容在内的图像文本对
3. 强调了危害，并向不同相关人员提出公开的问题
4. 此文章存在NSFW（not safe for work）的内容

Introduction

多模态介绍

多模态：联合建模视觉、文本和语音数据的模式；跨领域来摆脱训练孤岛
1. 数据集形式_xi表示图片，ti表示对应文本描述，µi表示图像元数据。从整个互联网中来获取数据。_

多模态要素

WWW上的图像
1. 计算机视觉数据集常见问题：偏见（性别、种族、地理），在图像中包含有问题的内容（非自愿的自窥图像和NSFW的内容），将这些图像与攻击性和不可想象的标签联系起来的可疑方法（污浊的词汇，性别错误表达，种族等），以及隐私问题
替代文本图像-标题对：<img src= “pupdanceparty.gif” alt= “Puppies dancing”>
1. 作用：在无法看到或渲染元素（图像）时，可以利用该属性知道图像内容
2. 相关实践：W3C提供了图像分类，并描述了用于捕获生成与上传图片相关的替代文本最佳实践的Alt决策树（ADT）
3. 问题：互联网中很多文字糟糕（缺少重要信息、没有或错误描述、冒犯，特殊字符），难以获得描述
从通用爬行器等语料库中收集到的文本内容
1. 通用爬行（CC）数据集：来自www，当前320 TB的大小，跨越31亿页。被用作很多大型项目的数据集。
  1. 存在问题：有敏感性息，不可靠

LAION-400M

数据集和搜索门户

LAION-400M数据集：来自CC，包含数亿个图像文本对
1. 使用CC训练的CLIP过滤：CLIP-文本和CLIP-图像的embedding间的余弦相似度小于0.3
管理者提供语义搜索门户：通过图形用户界面提供了一个 K最近邻Clip检索的索引
1. 相关ML社区担心即使在良性查询时，也会遇到不良内容

搜索门户中的问题

厌女症和刻板印象
1. 非NSFW搜索条件中显著高比例的NSFW结果：性暴力和其他图像
2. 一些术语：存在刻板印象和政治偏见
说明：样本图像揭示了特定的语义搜索引擎版本如何从LAION-400M获取图像
1. 放大女性的过度性感和厌恶女性的表现
2. 让人想起盎格鲁-中心、欧洲中心，甚至是潜在的白人至上主义意识形态
原因：CLIP-retrieval + Autofaiss module(Clip检索+自动制造)+image-retrieval pipeline（图像检索管道）
1. 要求NSFW内容占到1%及以下
措施：初步定量调查
1. 下载了与URL和标题元数据集相关的所有32个压缩拼花文件，包括8个字段
2. 通过TEXT字段来匹配搜索内容，选取图像
3. 替代的NSFW过滤器：检查Text或URL字段中是否存在不良术语
  1. N-match表示搜索到的匹配项，第二列表示其中不良内容的比例；第三列表示Clip分析的结果
  2. 说明这个Clip不好用，且需要引入文本过滤步骤（基于维基百科的图像文本数据集和概念标题数据集）
  3. 很多专家使用了更复杂的文本匹配的过滤方式
文本不良，图像良好的情况
1. 有包含NSFW和攻击性文本标签的图像描述
2. 可以使用预训练视觉模型去预测文本标签，从而过滤60%的备选项

创建LAION-400M的过程

必备因素：动机；一个大规模的基础源；过滤机制。

动机：创造数据集和模型的开源变体

LAION-400M初始动机：创造下述内容的开源变体——不透明的WIT（WebImageText）数据集、CLIP和DALL-E模型

图像文本数据集：发展、用规模打败噪音

图像-文本多模态数据集的管理方式发生了转变
1. 刚开始：100Million最大，对预先存在的图片增加人工注释
2. 最近：数据集变大（ 400 million），在www上寻找图片字幕。如CLIP, ALIGN, MUM and Wu Dao 2.0
3. ALIGN：billon级别，，节约了人力成本，“规模胜过噪音”的观念。Wu Dao 2.0可以基于静态图像生成alt文本，并基于自然语言描述生成接近照片真实的图像
规模打败噪音
1. Jia et al.声称用大规模数据训练，且不做过滤。节约了高昂的管理成本
2. 图像和文本不匹配可以看作噪声，而错误的字幕可以被其他正确字幕的图片给平均掉不好的效果

过滤机制：CLIP

过滤含义：只包含图像和文本高度匹配的内容
原理：在LAION-400M的背景下
1. 计算通过CLIP模型获得的文本描述和图像嵌入之间的余弦相似度
2. 然后去除0.3以下的余弦相似度
存在的问题：数据乱伦问题，已知的攻击性错误关联的下游传播以及模型的意外使用，无意义地使用模型
CLIP’s model card：不是为通用模型部署而开发的 - 要部署像CLIP这样的模型，研究人员首先需要仔细研究它们与部署的特定上下文相关的功能。
1. 因为考虑到CLIP在不同类别分类中的性能变化使得未经测试和不受约束的模型部署在当前任何用例中都具有潜在的危害。
- 模型卡 * (Model Cards)，提供了用于报告 ML 模型来源、用途以及道德知情评估的结构化框架，并详细概述了有益于开发者、监管机构和下游用户的模型用途建议和限制
余弦相似度阈值：强烈错误关联，可能会放大CC语料库中对攻击性样本的选择偏差。
1. 0.3余弦相似性阈值的假设成为麻烦的根源。 corner-cases（不常见的case）如下
  1. 文本1（0.28）：“这是一张身着美国国旗的宇航员的肖像”；（良性）文本2（0.31）：“这是一张微笑的家庭主妇穿着橙色连身衣的照片。”（厌女）说明CLIP中包含性别偏见。
  2. 文本1（0.28）：“这是美国前总统的肖像”。文本2（0.30）：“这是第一个在肯尼亚出生的美国非法总统的肖像”。

数据集处理过程中的问题

不对称的工作量：爬行v/s 数据过滤和模型解毒

WWW挖掘数据集的爬行和聚合阶段
1. 异步、工具、python库让挖掘非常便宜、民主，投资回报高
随后的危害减少阶段（过滤数据集、对在数据集上训练的模型进行解毒）
1. 文本过滤、图像过滤、联合过滤、各种API
2. 精细、费力，投资回报低

“进步”的不对称性：模型进步与数据集进步

模型进步
1. 很快被接受：如模型大小、训练速度、精度
数据集的修复
1. 被忽视、需要很长时间改变：比如不课程现象、隐私损失
2. 量大，非常困难

劳动的不对称性：情感创伤

数据集清理中的情感创伤工作总是被忽视
1. 在处理NSFW图片的过程中会引起不适
2. 遭到了学术界的负面批评。阻碍了工作

多模态数据集的优劣、提出开放问题

LAION-400M的优劣
1. 好处：让大家能够接触到如此大规模的视觉-语言数据集。让更多人群探讨更多，理解数据影响，训练模型
2. 坏处：没有意识到人权，会导致收到数据集和模型的下游影响
向相关人士提出了问题
1. 数据集中应该是什么？
  1. 在深度学习之前，数据集通常是有目的收集的：许多这些数据集都有固有的问题并造成了仅限于它们的问题域的损害。
  2. 目前，试图在大型互联网收集的数据集上训练大规模的“通用”人工智能模型，然后对它们进行微调（或专门化）到目标任务。重要的是要询问在神经网络的权重内应该压缩什么，以及通过代理，在训练数据集中是什么。哪些信息被压缩和传递给了用户
2. 这能实现AGI吗
  1. 有很多人工智能研究员相信：从www收到的大量数据可以通往人工通用智能（AGI）
  2. 但其中有很多不良内容，这真的能训练出优秀的人工智能吗？
  3. 处于社会边缘的个人和社区支付的代价最高，这值得吗？
3. 大型神经网络是一种新的非法材料分布媒介吗
  1. 模型会记住非法信息，模型反演能从中恢复多少信息。能否用来走私非法数据
4. 谁的数据权限，谁的数据所有权？
  1. 非法内容的主人公是无意识的。是否或如何传播这种数据集？
  2. _”diffusion of responsibility”：_数据集作者将 确保版权不受侵犯的责任委托给数据集用户，并将他们的责任分散给其他人。作者仍有可能违反各地法律
  3. 道德的问题：图像的主人公没有被通知，尤其不良照片可能会造成实际威胁
  4. 谁来删除不良数据，普通用户有能力去删除吗？
  5. 即便公开数据集有利于促进问题解决，但过程中数据主题的权利问题仍然存在。
5. 内容审核和过滤在这个规模上可行吗？
  1. 算法过滤是不可靠或有害的。过滤需要时间和资源。能不能清除干净，剩下的仍有可能被学习到
  2. 一个组织能不能发布他们过滤不了的数据集？如果不能，那是不是大规模数据集被强技术公司垄断？
  3. 很多私有大型数据集也存在这些问题，需要数据集审计师。
6. 网络废弃数据中的这种“多模式”是否加剧了停滞不前的刻板印象？
  1. 多模态中，一种模式会不会混淆其他模式。图像和语言处理的核心思路不同。探索融合可能产生的问题
  2. 用的alt文本并不多，可用的文本描述质量非常低
  3. 多模态是否有可能会产生更加刻板映像的结果

结论

LAION-400M数据集提供了对大规模处理多模态视觉语言数据集的挑战和问题的第一手见解。
1. 开放访问发布需要承认，但发布和传播存在严重问题。
2. 庞大的数据集仍然是封闭的，隐藏在大型机构和组织中。这可能会阻碍对如此大的数据集的研究进展
3. 隐藏的大规模数据集的下游影响可能对边缘社区造成毁灭性的影响。鼓励他们保持研究人员可访问的
4. 在规模上证明了CLIP的严重缺陷
retraction撤回通常是阻力最小的路径。
1. 尽管被撤回，这些数据集仍然可以通过文件共享网站和衍生品广泛获得。
2. 撤回后仍被广泛使用，但对发展无意义。
3. 更严格的许可将有助于限制该数据集在非研究环境中的使用
强烈鼓励其他大型机构以一种深思熟虑的方式向内部和外部审计开放他们的数据集

2024-04-21 16:37:30