1. 评价基准概述

1.1 基本要求

多模态大模型评价基准应该满足以下能力:

1.2 测评任务

现有针对MLLM的测评一般会涉及以下任务:

1.  感知任务

2.  认知任务

1.3 测试流程

2. 常用测评基准

2.1 图像

名称
任务
特点
Y/N
指令简洁,Y/N任务便于精准定量分析,提示-答案通过手动构建
MCQ
最大的完全人工注释数据集,覆盖43 个与现实场景高度相关的子类任务,数据质量较高
VQA
针对复杂多模态任务构建,每次任务要求模型具备多个核心能力,使用LLM评分
VQA
增加了图像文本序列(时序多图)理解这一视觉语言功能
MCQ
不评估具体任务上的性能,而是评估一组细粒度的能力;使用循环评估,使效果更稳健
MCQ
问题来自大学考试,测验和教科书,跨越六个学科,涵盖30 个主题和183个子领域,包括 30 种高度异构的图像类型,难度较
VQA
多模态数学推理数据集,用于评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理
VQA
 
旨在评估大型多模态模型的 OCR 能力,由五个组件组成:文本识别、以场景文本为中心的 VQA、面向文档的 VQA、关键信息提取和手写数学表达式识别
VQA
书籍封面图片构成的数据集,结合OCR和VQA技术
MCQ
包含 5000 多个小学科学图表,包含超过 150000 个丰富的注释、其基本事实句法解析以及超过 15000 个相应的多项选择题。
VQA
要求模型阅读和推理图像中的文本以回答有关它们的问题,数据源于来自 OpenImages
VQA
文档图像数据构成,与 VQA 和阅读理解的类似数据集进行比较,对该数据集进行了详细分析
Y/N
针对语言幻觉视错觉构建的数据集
Caption
包含超过 50 万条字幕,描述超过 330,000 张图像
VQA
要求模型使用视觉和逻辑推理回答图表问题
MCQ
针对一些大模型在没有看到图片的情况下正确回答出一些视觉题目这一问题所构建
 
 

2.2 视频

名称
任务
特点
MCQ
视频类型多样,时间维度长,数据模态广,注释质量高
MCQ
包含 20 个不同的任务,旨在测试视频中时间认知的各个方面
VQA
数据来自 YouTube 的冗长视频,旨在探索模型的时间推理技能,采用GPT-4进行自动评估
 
 

3. 测评框架/工具

对于单一模型的少样本测试,可以使用脚本完成测试。但对于多个模型的大数据量测试,需要使用测试框架,可将其部署在单一服务器或集群里。以下是一些常用的测评框架:

4. 总结

4.1 现有基准的局限性

模型的评估的重要性毋庸置疑,但现阶段模型测评更多用于大模型“打榜”。对于实际项目的落地时效果评估,仍有较大局限性:

1.  任务与场景的特定性:实际项目需求往往具有很强的场景特定性,而现有开源基准测试的任务类型未必符合实际应用需求。

2.  泛化性不足:在实际项目中,模型需处理更多不确定性复杂情境,基准测试的结果未必能直接转化为实际应用的性能。

3.  人类偏好对齐:由于大模型输出的非结构化的、随机的,所以现有基准多采用一个“超级模型”作为裁判对结果进行评估,而该结果不一定真实地反映了人类的偏好(对超级模型的测评呢?)。

4.  定量分析准确性:对于一些主观的题目,进行定量分析时没有一个统一的标准,可能需要人工或另一个大模型对结果进行定量打分。这样得到的打分结果缺少客观性,说服力较低。

4.2 产品角度

站在产品视角,常用测评基准多模态大模型在特定场景落地时也存在较多的问题:

1.  定制化需求:企业在特定场景下的需求往往是高度定制化的,而开源的评测基准可能无法覆盖这些特定的需求。企业需要能够评估模型在实际业务中的表现,包括对特定任务的处理能力、响应时间和准确性等。

2.  模型的商业价值:对于客户来说,还需要明确产品对业务的具体贡献和潜在的收益。明确的收益数据或降本增效的具体效果才是客户所想要的。

3.  数据隐私和安全性:在某些行业,如医疗、金融等,数据的隐私和安全性要求极高。使用开源评测框架可能涉及到数据泄露的风险。

4.  用户体验:产品最终的目标是满足用户需求,提供良好的用户体验。常用评测基准可能无法完全模拟真实用户的行为,也无法和用户需求进行对齐

 

参考资料:《大模型基准测试体系研究报告(2024年)》中国信通院

《中文大模型基准测评2024年10月报告》 SuperCLUE团队