1. 基本介绍

1.1 背景

大模型评测是项目落地的关键环节。对于大模型厂商来说，全面客观的评测结果可以作为说服客户的有力材料；对于客户来说，评测是最直观判断模型能力的方式。

目前评测方法可以分为人工评测和自动评测，其中，自动评测技术相比人工评测来讲，具有效率高、一致性好、可复现、等特点，逐渐成为业界研究的重点。

1.2 自动评测概述

模型的自动评测技术可以分为rule-based和model-based两大类：

1. rule-based方法：

2. model-based方法：

对于rule-based评测，现已有较为成熟的体系。但是落到具体场景下，就需要构建相应的数据集以及打分策略，具体分析参见深度剖析：多模态模型评测现状、问题与挑战，本文主要针对model-based中的裁判员方法进行验证。

2. 初步验证方案

2.1 评测背景

为推进模型在车载场景落地，因此需要测试1.6B模型在特定芯片上的性能。

我们使用1.6B模型进行了一轮车载场景的推理，具体流程如下：

现已通过人工进行了一版评测，该评测结果在之后的方案中作为标准答案。具体结果参见评测结果-数据源

每张图片都源于特定的车载场景（e.g乘客情绪识别，道路状况检测等）。现针对模型的输出，主要有两个评测任务：

1. 整体理解任务：模型对图片的整体理解是否合理，是否做出了正确的描述。

2. 关键信息检测任务：模型输出是否包了含图片所对应的特定场景。

2.2 方案介绍

方案的核心目标是使用裁判员模型替代人工评测的流程，因此构建裁判员模型就是任务的第一步。

为了节约成本并快速得到反馈，方案使用提示词调优基础模型，使其理解“裁判员”的身份，从而构建裁判员模型。

针对不同评测任务，用户按结构输入不同的提示词（包括评测标准，评测资料和输出格式），然后裁判员模型根据指令输出评测结果。

我们将模型输出的评测结果和人工评测的结果进行比对，将所有错误结果再次输入到GPT-4o中进行重评。

2.3 基础模型选择

TO DO

1. 使用更大的模型作为裁判员

2. 调用模型API测试更多数据

待测模型：GLM-4-plus（结果），GPT-4o

待测模型选择理由：由于我们的目标是使用裁判员模型替代人工评测，所以理论上来说，人类偏好对齐得越好的模型，最终评测准确率越高。为了验证这一猜测，使用Arena排行榜中排名靠前的模型进行测试。使用更大的模型作为裁判员

2.4 参数及提示词

参数

temperature 0.3
topP 1.0

系统提示词

# Role:模型评测专家

## Profile

– Author: zaijiu
– Version: 1.0
– Language: 中文
– Description: 模型评测专家需要评测模型输出是否符合某一标准。模型评测专家在评测的过程中应该严格遵循评测标准，公平公正。每一次评测结果都应该有充分的理由支撑。

### 擅长评测模型输出:
1. 模型输出为自然语言描述
2. 模型输出是对某一张图片的描述
3. 每一张图片都会有它对应的具体场景

### 熟悉汽车驾驶场景
1. 汽车驾驶场景包括乘客驾驶过程中的行为以及车外状态
2. 常见场景包括：交通路况，车外环境，行车礼仪，乘客行为等等

## Rules
1. 评测时要严格执行评测标准
2. 每一次评测结果都应该有充分的理由支撑

## Workflow
1. 用户输入评测标准，评测资料，评测结果输出格式。
2. 仔细阅读用户提供的评测标准。
3. 基于评测标准制定详细的评测步骤。
4. 思考评测步骤是否合理，如不合理，重新制定新的评测步骤。
5. 根据评测步骤，对待评测内容进行评测。
6. 按照评测结果输出格式输出最终结果。

## Initialization
作为角色 <Role>, 严格遵守 <Rules>, 使用默认 <Language> 与用户对话。严格根据<Workflow>执行用户任务

3. 验证结果

3.1 用户提示词

由于不同的评测任务，评测标准会有所差异，所以需要针对不同的评测任务提供不同的提示词。

整体理解任务提示词：

#评测标准：
##评测任务：评测<模型输出>中所描述的内容是否符合<事件图片>。
##判断为“涉及”的标准：
<模型输出>描述的场景和<事件图片>严格一致
<模型输出>描述的主体人物（如有）和<事件图片>严格一致
<模型输出>描述的主体事件和 <事件图片>严格一致

#评测资料：
<事件图片>：如图所示
<模型输出>：”【根据情况填具体模型输出】”

#输出格式：
若判断为“符合”，输出判断理由，同时输出“描述正确”
若判断不为“不符合”，输出判断理由，同时输出“描述不正确”

• 关键信息检测任务提示词：

#评测标准：
##评测任务：评测<模型输出>中的内容是否涉及<特定事件>。
##判断为“涉及”的标准：
<模型输出>中的内容严格提到 <特定事件>
<模型输出>中的内容严格提到<特定事件>子集
<模型输出>中的内容严格提到和<特定事件>意思类似但表达不同的内容

#评测资料：
<特定事件>：”【根据情况填具体事件】”
<模型输出>：”【根据情况填具体模型输出】”

#输出格式：
若判断为“涉及”，输出判断理由，同时输出“已检测”
若判断不为“涉及”，输出判断理由，同时输出“未检测”