新闻中转

新闻中转

计算机与人工智能学院鄢杰斌团队在全景图像质量评价领域取得新进展

2025-12-15 09:39:40

来源:

  近日,计算机与人工智能学院鄢杰斌团队在国际图像处理领域顶级期刊IEEE Transactions on ImageProcessing(影响因子13.7)发表了名为“Omnidirectional image quality captioning: A large-scale database and a newmodel”的研究论文。

  研究团队深入分析全景图像质量评价领域发展困境与瓶颈,构建首个万级复杂失真全景图像质量数据集(OIQ-10K),实现对真实全景图像分布空间的有效覆盖。同时,发布首个全景图像质量描述模型(IQCaption360),极大增加了模型的预测精度和可解释性,也为未来评价方法与人工智能大模型的结合提供了新思路。

  全景图像质量评价不同于传统的自然图像质量评价,全景图像由于其视觉表征方式的特殊性,因此不管是数据库构建还是方法设计都更为困难。一方面,现存全景图像质量数据集存在图片数量少,大部分数据库只包含百张级别的样本,难以充分覆盖图像域。此外,这类数据库的失真情况单一,多为全局失真情况,与真实失真环境中普遍存在的局部失真存在差异。另一方面,尽管现存评估方法在均匀失真全景图像取得较好结果,但难以有效评估非均匀失真全景图像的视觉感知质量,而且单一的质量分数无法充分表征图像复杂降质情况。因此,全景图像质量评价方向在数据库构建和模型设计上一直面临挑战。

1  OIQ-10K数据集中不同失真情况的全景图像示例。(a)无感知失真的全景图像。(b)具有一处失真区域的全景图像。(c)具有两处失真区域的全景图像。(d)具有全局失真的全局图像。红色标记了视觉示例中的失真区域以提高视觉呈现效果。

  在数据集方面,该研究创建首个大规模全景图像质量数据集OIQ-10K,包含10000张全景图像,同时考虑了全局失真、多处失真、单处失真、无失真等四种失真情况,可有效模拟真实失真环境。随后,开展大规模心理物理主观实验,收集数据集的平均意见得分,并深入研究用户观看行为和图像失真情况给感知质量带来的影响。数据集的构建为当前和后续评价模型提供坚实的测试基准,数据分析结果为新一代模型设计提供理论基础和有益启发。

  在评价模型方面,该研究提出基于动态特征裁剪的多任务全景图像质量描述模型Caption360。具体地,设计动态特征聚集模块对提取的视觉特征在多个尺度上进行相关任务自适应裁剪,将通用特征转化为特定任务所需特征以提高模型建模能力。失真范围预测和质量分数预测子网络从两个维度分别预测输入图像的感知质量,以获取多角度评价结果。

  该模型的提出突破了传统单数值映射感知质量的表征范式,而是着重于多维度、语义化的质量表征,为未来评价方法的构建提供新路径。

2   IQCaption的模型架构。主要包含四个部分:(a)骨干网络。(b)动态特征聚集模块。(c)失真情况预测子网络。(d)质量分数预测子网络。为了得到语义级的质量描述结果,会将(c)和(d)的连续性数值级预测结果等效映射为离散性语义级表述,然后再将映射结果按规则嵌入预先设定好的输出模板。

                (文/计算机与人工智能学院    编辑/付文禛    审核/一审 姜莹 二审 赵旻 终审 成亚林)

TOP