CLIB-FIQA: Face Image Quality Assessment with Confidence Calibrationb
标签
CVPR
备注
质量评估 文本-图像结合
日期
Oct 30, 2024
这篇文章提出了一种新的人脸图像质量评估方法——CLIB-FIQA,其核心在于通过信度校准来改善质量预测。以下是文章各部分的内容概述:摘要
人脸图像质量评估(FIQA)在不受约束的环境中对人脸识别的准确性至关重要。当前的质量拟合方法依赖于由人脸识别模型提供的质量锚点,但在训练过程中未考虑质量锚点信度的差异。CLIB-FIQA通过综合多种质量因素(如模糊、姿势、表情、遮挡、照明),建立联合学习框架,借助CLIP模型进行质量拟合。此外,CLIB-FIQA采用信度校准机制,利用这些质量因素校正预测的质量分布,以避免模型过度依赖不准确的质量锚点。介绍
FIQA的目标是预测人脸图像的质量,确保识别系统在不同环境下的准确性。传统的FIQA方法主要依赖识别模型提供的质量锚点进行训练,忽略了锚点的不确定性。为了解决这个问题,CLIB-FIQA利用多种客观质量因素,通过CLIP模型中的视觉-语言对齐能力进行联合学习,从而提高模型的泛化性能,并通过信度校准机制来提高质量预测的可靠性。相关工作
文章回顾了FIQA的现有方法,分为无监督和基于质量拟合两类。无监督方法通过计算特征嵌入的不确定性或稳健性来预测质量,而质量拟合方法则使用质量锚点来训练模型。此外,文章指出以往方法大多没有充分利用质量因素信息来辅助训练。CLIP的视觉-语言对齐能力也在本文的FIQA任务中得到创新应用,以增强多模态任务中的图像质量评估。方法
CLIB-FIQA方法的核心是通过CLIP模型实现的多质量因素联合学习和信度校准。具体包括以下步骤:
- 联合学习:利用CLIP模型的图像编码器和文本编码器,将人脸图像和描述质量的文本输入,计算图像质量的联合分布和个体质量因素的分布。
- 信度校准:设计了一个多层感知机(MLP)模型,将联合分布转换为融合分布,并通过比较融合分布和预测的质量分布的差异来计算信度。使用该信度对质量分布进行校准,从而提高对不确定质量锚点的容忍度,避免质量拟合中的瓶颈问题。
这种方法在八个数据集上的实验结果表明,CLIB-FIQA在多个基准测试中表现优越,尤其在包含极端质量样本的数据集上表现出色【22†source】。
Related work
FIQA
两大类:无监督,基于质量拟合
无监督:样本不确定性纳入评估;高斯嵌入分布的均值、不确定性;嵌入的平均欧氏距离……
输入图像数据,RGB,输出特定维度的向量,均值向量,方差向量()等
基于质量拟合:训练用于质量预测的单个FIQA模型;计算类内识别嵌入的欧氏距离作为质量锚点,随后在识别模型上序列新的回归层和拟合锚点;配对,获取高质量锚点;识别质量和知识蒸馏,识别模型与FIQA模型解耦;测量相似分布距离生成质量锚
输入图像,以及人工生成的质量锚点作为目标分数(数值标签,例如0-100),输出与人工锚点匹配的质量分数,输出单一的实数;或者在同一类别中,计算图像嵌入特征间的欧氏距离,如多个同一人图像的特征平均距离,作为质量锚点
视觉-语言对齐模型
图像和文本进行结合训练,多模态表征
CLIP用了大量图像-文本对进行与训练,零样本识别上表现出色,但是在特定下游任务时需要改进
本文使用联合学习、置信度校准的方法,将CLIP模型引入FIQA
Method
两个阶段的训练:第一阶段,结合多个质量因子,联合学习,拟合质量分布;下一阶段,置信度计算,校准质量分布置信度,改进CLIP模型
准备工作
具体技术细节十分复杂,但是映射思路可以记一下
Given a set of face images X, a corresponding set of iden- tity labels Y, and a set of quality factors H, we can construct the training set D as D = {(xi, yi,Hi)}N i=1 ⊂ X ×Y ×H, where N denotes the total number of samples.
应用在细胞分割领域,同理,可以一一对应,X是细胞图片,Y是标签,H是质量因子(或其他类似的评价指标) ,第一步是构建数据集,以及使CLIP适应下游任务,最终得到预测质量分数
对于一些干扰因素,再分别进行分类,创建文本表达式,结合来自这些任务的标签
Page4 对于模糊因子和位姿因子,我们分别将其分为三类,h1 i∈{“朦胧”、“模糊”、“清晰”},h2 i∈{“轮廓”、“小角度”、“正面”}。为了简化基于表达、遮挡和光照的质量评估,这些因素被单独考虑为两类。其中,h3 i∈{“受阻”、“通畅”},h4 i∈{“夸张表达”、“典型表达”},h5 i∈{“极限照明”、“正常照明”}。
最终生成适用于CLIP模型的输入
联合学习方法
具体技术细节太复杂了
多质量因素联合学习
图像和文本分别输入,图像的编码器可训练,文本编码器用预训练的,不可训练
图像和文本嵌入生成两个矩阵,然后这两个矩阵去计算余弦相似度
允许模型同时从图像和描述质量因素的文本中获取信息
质量拟合
计算质量锚点,使用与训练的人脸识别模型计算质量锚点,计算目标样本特征与分类中心的相似度,并计算与最近的负类中心的相似度
地球移动距离(EMD)损失,
计算预测的质量分布与目标质量锚点分布之间的统计距离
质量拟合通过与人脸识别模型生成的质量锚点进行对比,使得FIQA模型可以更好地拟合真实图像质量
多质量因素分类
使用“焦点损失”,缓解数据集中不同质量因素类别的样本不平衡问题
帮助模型在数据样本不平衡的情况下,更准确地对图像质量进行分类
调整样本的权重,能够让模型对每个质量因素都有更好的分类效果
总体优化目标
一个总的loss函数
结合上面两种loss,使最终的FIQA模型既能分类不同质量因素,又能对其目标质量锚点
什么是质量因素和质量锚点?
质量因素和质量锚点是两个相关但不同的概念。它们在模型训练中发挥不同作用,但都与图像的质量评估有关。在细胞分割领域,理解和应用这两个概念可以帮助模型更好地处理质量不一致或复杂的图像。
质量因素(Quality Factors)
- 定义:质量因素是图像本身的属性,用于衡量影响图像质量的具体特性。例如在人脸图像中,质量因素可以包括模糊、姿势、表情、遮挡、光照等。在细胞图像中,质量因素可能涉及模糊度、染色强度、细胞密度、对比度、噪声水平等。
- 作用:质量因素反映了图像质量的不同方面,在模型训练中,这些因素可以作为特征输入,让模型学习如何处理不同质量条件下的样本。通过联合学习,可以增强模型的鲁棒性,使其适应各种图像质量变化。
- 特点:质量因素通常不是单一的数值,而是一个整体性的描述,代表了图像在某些属性上的特定表现。
质量锚点(Quality Anchors)
- 定义:质量锚点是用于训练模型的目标值或基准,用以量化图像的整体质量。它是一个具体的数值或标签,代表该图像的理想质量水平或评分。质量锚点可以基于人脸识别模型的输出、人工标注或基于类内特征的相似性计算而来。
- 作用:质量锚点用作模型的目标输出,使模型能够拟合图像的预期质量分布,从而在训练中得到稳定的监督信号。模型通过拟合质量锚点,学习到特定质量等级下图像的理想特征分布。
- 特点:质量锚点是一个具体的数值分数或标签,可以为模型提供监督指导,通常通过一定的计算方法或先验知识得到。
联系与区别
- 联系:质量锚点和质量因素都是关于图像质量的描述,它们共同用于引导模型学习高质量图像的特征。质量锚点可以被看作是由不同的质量因素共同作用下得出的一个量化值。
- 区别:
- 本质:质量因素是图像的属性,而质量锚点是基于这些属性生成的标签或分数。
- 用途:质量因素用于细化图像的不同质量特征,指导模型学习如何应对不同的图像质量状况;质量锚点则是模型要拟合的具体目标值,帮助模型学会判断图像的整体质量。
- 表达形式:质量因素是图像的多种特性,不是单一数值;质量锚点则是一个具体的数值或分数。
在细胞分割领域的应用
在细胞分割中,质量因素和质量锚点可以帮助模型更好地处理图像中的质量差异,提高分割效果。
- 质量因素在细胞分割中的应用
- 定义细胞图像的质量因素:例如模糊度、染色强度、对比度、噪声水平等,都是影响细胞图像质量的关键因素。
- 多因素联合学习:可以将这些质量因素输入到分割模型中,让模型学习在不同质量条件下如何进行分割。例如,在模糊的细胞区域,模型可以更关注轮廓特征,而在高对比度区域,模型可以利用细节信息提高分割精度。
- 数据增强:通过对不同质量因素的控制(例如人为添加噪声或调节对比度),可以丰富训练数据,让模型学习到应对不同质量条件的能力。
- 质量锚点在细胞分割中的应用
- 生成质量锚点:可以使用类内相似性(如细胞区域的颜色一致性或形态相似性)或专家标注的评分为每张图像生成一个质量锚点,表示该图像的整体质量。这些锚点可以作为分割模型的目标输出。
- 质量锚点拟合:在训练中,分割模型可以拟合这些质量锚点,通过最小化质量锚点与模型输出的差异来提高分割稳定性。高质量的图像分数应与更精确的分割结果关联,而低质量的图像则可能允许更粗略的分割结果。
- 置信度校准:通过拟合质量锚点,可以对分割结果进行置信度校准,帮助模型更准确地识别哪些区域可能需要更细致的分割。
总结
在细胞分割中,质量因素帮助模型理解不同图像的特性,并在分割时动态调整策略;质量锚点则提供了一个总体的质量目标,帮助模型在不同行质量条件下得到一致、可靠的分割结果。通过结合这两个概念,可以使细胞分割模型在复杂或低质量的图像中也能表现良好。