1. 评价基准概述
1.1 基本要求
多模态大模型评价基准应该满足以下能力:
- 能够对模型的新兴能力(认知,推理,问答等)进行测评;
- 模型没有在该测评集上训练(测评集尽量不来自公开数据集);
- 测评指令应该符合人类认知,对该指令的response应便于定量分析。
1.2 测评任务
现有针对MLLM的测评一般会涉及以下任务:
1. 感知任务
- 粗粒度识别:粗粒度识别的内容包括常见物体识别、数量识别、颜色识别、位置识别等;
- 细粒度识别:测评模型知识面,主要包括识别电影海报、名人、场景、地标和艺术品等;
- OCR识别:OCR是多模态模型的基础能力,服务于后续基于文本的工作;
- 其他领域:诸如遥感、图表、监控和自动驾驶等领域的能力也是垂直领域落地的重点能力。
2. 认知任务
- 常识推理:测评模型在推理时是否能使用日常生活中的基础知识进行判断;
- 数值计算:模型处理简单算术问题的能力;
- 文本翻译:模型是否具备多语言的能力;
- 代码推理:模型是否具备完成代码内部逻辑运算的能力。
1.3 测试流程

2. 常用测评基准
2.1 图像
名称 | 任务 | 特点 |
---|---|---|
Y/N | 指令简洁,Y/N任务便于精准定量分析,提示-答案通过手动构建 | |
MCQ | 最大的完全人工注释数据集,覆盖43 个与现实场景高度相关的子类任务,数据质量较高 | |
VQA | 针对复杂多模态任务构建,每次任务要求模型具备多个核心能力,使用LLM评分 | |
VQA | 增加了图像文本序列(时序多图)理解这一视觉语言功能 | |
MCQ | 不评估具体任务上的性能,而是评估一组细粒度的能力;使用循环评估,使效果更稳健 | |
MCQ | 问题来自大学考试,测验和教科书,跨越六个学科,涵盖30 个主题和183个子领域,包括 30 种高度异构的图像类型,难度较高 | |
VQA | 多模态数学推理数据集,用于评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理 | |
VQA | 旨在评估大型多模态模型的 OCR 能力,由五个组件组成:文本识别、以场景文本为中心的 VQA、面向文档的 VQA、关键信息提取和手写数学表达式识别 | |
VQA | 由书籍封面图片构成的数据集,结合OCR和VQA技术 | |
MCQ | 包含 5000 多个小学科学图表,包含超过 150000 个丰富的注释、其基本事实句法解析以及超过 15000 个相应的多项选择题。 | |
VQA | 要求模型阅读和推理图像中的文本以回答有关它们的问题,数据源于来自 OpenImages | |
VQA | 由文档图像数据构成,与 VQA 和阅读理解的类似数据集进行比较,对该数据集进行了详细分析 | |
Y/N | 针对语言幻觉和视错觉构建的数据集 | |
Caption | 包含超过 50 万条字幕,描述超过 330,000 张图像 | |
VQA | 要求模型使用视觉和逻辑推理回答图表问题 | |
MCQ | 针对一些大模型在没有看到图片的情况下正确回答出一些视觉题目这一问题所构建 | |
… |
2.2 视频
名称 | 任务 | 特点 |
---|---|---|
MCQ | 视频类型多样,时间维度长,数据模态广,注释质量高 | |
MCQ | 包含 20 个不同的任务,旨在测试视频中时间认知的各个方面 | |
VQA | 数据来自 YouTube 的冗长视频,旨在探索模型的时间推理技能,采用GPT-4进行自动评估 | |
… |
3. 测评框架/工具
对于单一模型的少样本测试,可以使用脚本完成测试。但对于多个模型的大数据量测试,需要使用测试框架,可将其部署在单一服务器或集群里。以下是一些常用的测评框架:
- OpenCompass:由上海 AI实验室推出的开源的评测大模型体系及开放平台,提供了开源大模型基准测试工具,现已集成大量的开源大模型和闭源商业化 API,在产业界影响力较大。对于多模态模型,支持开源评估框架 VLMEvalKit,在多个开源基准中评估模型整体性能。
- FlagEval:由北京智源研究院推出的大模型评测体系及开放平台,主要包含基础模型、预训练算法、微调/压缩算法三大评测对象,对于多模态模型也有适配。
- LMMs-Eval:针对多模态大模型的评估框架。特点 1)统一接口 2)一键式启动 3)过程透明可复现。
- ...
4. 总结
4.1 现有基准的局限性
模型的评估的重要性毋庸置疑,但现阶段模型测评更多用于大模型“打榜”。对于实际项目的落地时效果评估,仍有较大局限性:
1. 任务与场景的特定性:实际项目需求往往具有很强的场景特定性,而现有开源基准测试的任务类型未必符合实际应用需求。
2. 泛化性不足:在实际项目中,模型需处理更多不确定性和复杂情境,基准测试的结果未必能直接转化为实际应用的性能。
3. 人类偏好对齐:由于大模型输出的非结构化的、随机的,所以现有基准多采用一个“超级模型”作为裁判对结果进行评估,而该结果不一定真实地反映了人类的偏好(对超级模型的测评呢?)。
4. 定量分析准确性:对于一些主观的题目,进行定量分析时没有一个统一的标准,可能需要人工或另一个大模型对结果进行定量打分。这样得到的打分结果缺少客观性,说服力较低。
4.2 产品角度
站在产品视角,常用测评基准多模态大模型在特定场景落地时也存在较多的问题:
1. 定制化需求:企业在特定场景下的需求往往是高度定制化的,而开源的评测基准可能无法覆盖这些特定的需求。企业需要能够评估模型在实际业务中的表现,包括对特定任务的处理能力、响应时间和准确性等。
2. 模型的商业价值:对于客户来说,还需要明确产品对业务的具体贡献和潜在的收益。明确的收益数据或降本增效的具体效果才是客户所想要的。
3. 数据隐私和安全性:在某些行业,如医疗、金融等,数据的隐私和安全性要求极高。使用开源评测框架可能涉及到数据泄露的风险。
4. 用户体验:产品最终的目标是满足用户需求,提供良好的用户体验。常用评测基准可能无法完全模拟真实用户的行为,也无法和用户需求进行对齐。
参考资料:《大模型基准测试体系研究报告(2024年)》中国信通院
《中文大模型基准测评2024年10月报告》 SuperCLUE团队
Comments NOTHING