热搜词: 马頔爷们儿要脸

全球首个! Nature重磅研究: 计算机视觉告别“偷数据”时代

计算机视觉(CV)技术,广泛应用于自动驾驶汽车、消费电子设备等众多领域。其中,图像数据集扮演着基础性的角色,ImageNet等大型图像数据集的出现,使计算机视觉领域实现了革命性突破。

然而,过去十年,大多数数据集的数据采集依赖网络抓取,仍然存在未经授权、缺乏多样性、知情同意以及补偿相关的伦理问题。

数据的“先天不足”不仅削弱了人工智能(AI)系统的公平性和准确性,还在无形中强化了种族、性别等社会偏见。

例如,有研究指出,商业人脸识别系统在识别深肤色女性时的错误率远高于浅肤色男性;部分知名数据集因数据收集的伦理争议相继撤回,即便仍在使用的数据集,如COCO、VQA2.0或MIAP,在人口多样性和自我报告信息方面仍存在明显缺陷。

在这一背景下,SonyAI推出了全球首个公开可用的、全球多样化的、基于用户同意的数据集——FHIBE,专门用于评估以人为中心的计算机视觉任务的公平性。

据介绍,FHIBE收录了来自81个国家和地区的10318张图像,涉及1981位独立个体,涵盖从人脸识别到视觉问答等广泛视觉任务。

此外,FHIBE拥有迄今最全面的标注信息,包括人口统计特征、物理属性、环境因素、仪器参数及像素级标注数据,能够实现更细致的偏见诊断,帮助从业者精准定位偏见来源并有效防范潜在风险。

相关研究论文以“

”为题,已发表在权威科学期刊上。

论文链接:https://www.nature.com/articles/s41586-025-09716-2

“由于大多数计算机视觉任务缺乏公开可用的、符合伦理规范的数据集,即使是检查偏见这一最基本的第一步也十分困难,”索尼全球人工智能治理负责人兼FHIBE首席研究员AliceXiang表示,“我们希望开发者能够在无需使用存在问题的数据集的情况下检查人工智能中的偏见。”

这一成果是可信人工智能(TrustworthyAI)发展的重要里程碑,不仅提高了人工智能公平性基准的衡量标准,更为人工智能领域的负责任的数据管理提供了实现路径。

全球首个,“以人为中心”

与以往不同,FHIBE采用全球众包和自我报告(self-reporting)的形式,由数据供应商面向81个国家地区征集图像。每位参与者上传自己拍摄的照片,并提供年龄、代词(pronouns)、祖源区域、肤色等自我报告信息,形成1234个交叉群组。

为保障图像数据的多样性,图像拍摄设备涵盖45家厂商的785种相机型号,真实还原了16种场景类型、6种光照条件、7种天气状况、3种拍摄角度及5种拍摄距离等。

与其他同类数据集相比,FHIBE在区域分布上尤为均衡:非洲占44.7%,亚洲与大洋洲占40.6%,显著改善了以往人像数据过度集中于北美与欧洲的问题。

图|图像主题、仪器和环境的注释,FHIBE中所有图像的元数据均可获取。

FHIBE的每张图像均附有自述姿势、互动、外观特征、年龄类别标注以及人脸、人物编辑框的像素级标注,包括33个关键点与28类分割标签。每条标注均附有匿名化编号以及标注者主动披露的人口统计信息,以保证可追溯性与透明度。据论文介绍,这种像素级标注与属性标签相结合的方式,使得FHIBE成为“当前最全面标注的公平性数据集”。

图|FHIBE图像示例,包含详细的像素级标注、关键点、分割掩码和边界框。

值得一提的是,研究团队在数据收集过程中严格遵守《通用数据保护条例》(GDPR)等保护法规,包含清晰条款的同意书,明确数据收集用途与披露要求、生物特征数据及敏感信息的处理方式等。参与者在充分了解用途后自愿签署知情同意书,明确同意其生物特征数据用于AI公平性研究,并保留随时撤回同意的权利。

此外,通过生成式扩散模型,研究团队对出现在画面中的非自愿主体及可识别个人身份的信息进行图像修复(如移除旁观者或车牌)与人工复核,避免了传统隐私保护措施可能造成的再识别风险。

AI也会“看走眼”:对现有模型的公平性评估

除了在伦理上符合规范,FHIBE在方法论上同样十分严谨,主要包括:

这为其广泛应用于模型的公平性评估提供了条件。通过FHIBE,研究团队对当前多种主流窄模型和通用基础模型的偏见问题进行了系统测试,具体包括8类计算机视觉任务:姿态估计、人物分割、人物检测、人脸检测、人脸解析、人脸验证、人脸重建及人脸超分辨率。

研究发现,基于交叉群组(代词×年龄×祖源×肤色)的分析,年轻(18-29岁)、肤色较浅、亚洲血统的群体往往获得较高准确率;而对于年长(50岁以上)、肤色较深、非洲血统的群体,模型识别的准确率较低。

不同模型在具体交叉组合中的表现同样存在差异。例如,在人脸检测方面,RetinaFace在“she/her/hers×I型×亚洲”组合中表现最佳,在“he/him/his×II型×非洲”组合中表现最差;而MTCNN则在“she/her/hers×II型×非洲”组合中表现最佳,在“he/him/his×IV型×欧洲”组合中表现最差。

此外,FHIBE还发现了之前未被识别的细微偏见,例如:

针对以上差异,FHIBE能够通过特征回归与决策树分析的方式,识别出与人物检测性能相关的干扰因素,包括身体姿态(如躺卧姿势)、主体互动(如拥抱/亲吻)、图像纵横比以及关键点可见度等(反映身体遮挡程度)等。

在多模态基础模型方面,团队重点测试了CLIP与BLIP-2两款主流模型。结果显示:

图|CLIP在FHIBE数据集预测中的偏差

图|BLIP-2分析结果

论文指出,FHIBE是推动更负责任的人工智能发展的转折点,为未来开展伦理化的数据收集工作铺平道路。但与此同时,研究团队也坦承,这种以伦理为驱动、以人为本的共识式采集模式仍存在现实局限性,具体包括:

在未来,研究团队希望,以FHIBE为起点整合全面且经共识获取的图像与标注数据,推动计算机视觉领域在数据收集、知情同意、隐私保护与多样性设计上的制度化实践。

另一方面,他们也希望发挥FHIBE作为检测工具的作用,通过对模型的性能与偏见的评估监测,助力开发更具包容性与可信度的人工智能系统。