评估大模型标准

评估大模型标准

傻木
2024-06-04 / 0 评论 / 43 阅读 / 正在检测是否收录...

想做个字典,安卓app

随着大型语言模型(LLM)的迅速发展,以 LLM 为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。
然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。
因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。

评估框架的六大要素

一个理想的评估框架至少应该满足以下六个要素:

敏锐性 (Alertness):框架应该能够以极高的召回率(即几乎没有遗漏)检测到潜在问题,同时也要恰当地认可对话系统的优点。此外,在追求高召回率的同时,框架还应考虑不同参与者的利益,例如为系统训练数据进行标注的工作人员,以及边缘化群体。
特异性 (Specificity):框架应该能够在对话中准确地定位问题。例如,一个仅仅指出“对话中存在问题”的评估结果,远不如指出“系统在某一轮对话中存在问题”或“系统在某一轮对话中的某一特定断言存在问题”更有用。
通用性 (Versatility):框架应该能够无缝地处理面向任务的对话和非面向任务的对话。这是因为,为了实现完全交互式和有效的对话式搜索(通常是面向任务的),系统可能需要通过非面向任务的对话(即聊天)来赢得用户的信任。此外,即使在同一对话会话中,用户的需求也可能从模糊到明确,跨越不同的信息需求范围。
敏捷性 (Agility):新的对话系统发布和更新的频率很高,因此评估框架也需要保持敏捷。这排除了完全依赖人工评估的方法。
透明度 (Transparency):评估指标应该易于计算,并且能够清晰地展示其计算过程。例如,如果使用另一个基于 LLM 的黑盒评分系统来评估基于 LLM 的黑盒对话系统,即使这两个系统可能使用了相同的训练数据,这种评估方法也不被认为是透明的。
中立性 (Neutrality):评估框架不应该偏袒或过度宣传特定的系统或方法。例如,使用类似的 LLM 系统来评估基于 LLM 的系统,可能会过度评价前者。此外,框架不应该只强调系统表现良好的方面,而忽略或甚至不报告其不足之处。
SWAN 框架:基于片段的评估方法

为了满足上述要求,本文提出了一个名为 SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点:

输入数据 :框架以用户与系统对话会话的样本作为输入,这些样本可以通过人工参与实验或用户模拟获得。
片段提取 :框架的第一阶段使用自动片段提取器从对话中提取片段。片段可以是断言 / 陈述,也可以是对话行为,并且是原子性的(即不可再分解为更小的片段)。
片段评分 :框架的第二阶段根据一系列评估标准(称为模式)对每个片段进行评分,例如正确性、无害性等。这一阶段可能需要一定的人工参与。
分数计算 :框架的最后阶段通过结合以下因素计算最终分数:(a)模式中每个标准的片段分数;(b)片段权重,可以定义为片段在对话会话中片段序列中的位置的函数。
片段权重

片段权重类似于信息检索指标(如 nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于 S -measure 的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。

SWAN 分数

SWAN 分数可以定义为:

SWAN = Σ(c ∈ C) CWc WANc(Uc) / Σ(c ∈ C) CWc
其中,C 表示评估标准的集合(即模式),CWc 表示标准 c 的权重,Uc 表示从对话样本中提取的关于标准 c 的片段集合,WANc(Uc) 表示标准 c 的加权平均片段分数。

二十个评估标准

本文提出了二十个评估标准,可以作为 SWAN 框架的插件,这些标准涵盖了对话系统各个方面的评估,例如:

连贯性 (Coherence):系统回复是否与前一轮对话内容相关。
合理性 (Sensibleness):系统回复是否包含人类不会说的话,例如常识错误或荒谬的回答。
正确性 (Correctness):系统回复中的断言是否在事实上有误。
可信度 (Groundedness):系统回复是否基于一些支持证据。
可解释性 (Explainability):用户是否能够理解系统如何得出当前回复。
真诚度 (Sincerity):系统回复是否与其内部结果一致。
充分性 (Sufficiency):系统回复是否完全满足前一轮对话中用户的请求。
简洁性 (Conciseness):系统回复是否足够简洁。
谦逊度 (Modesty):系统对回复的信心水平是否恰当。
参与度 (Engagingness):系统回复是否能够激发用户继续对话的兴趣。
可恢复性 (Recoverability):当用户对系统回复表示不满时,系统是否能够通过后续回复来挽回对话。
原创性 (Originality):系统回复是否原创,而不是复制或拼凑现有的文本。
公平曝光 (Fair exposure):系统是否公平地提及不同群体。
公平对待 (Fair treatment):系统是否对不同用户和用户群体提供相同的服务。
无害性 (Harmlessness):系统回复是否包含威胁、侮辱、仇恨或骚扰等内容。
一致性 (Consistency):系统回复是否与之前出现的断言逻辑上一致。
记忆力 (Retentiveness):系统是否能够记住之前的对话内容。
输入变化鲁棒性 (Robustness to input variations):当用户以不同的方式表达相同的信息需求时,系统是否能够提供相同的信息。
可定制性 (Customisability):系统是否能够根据不同用户或用户群体的需求进行调整。
适应性 (Adaptability):系统是否能够及时适应世界变化。
总结

本文介绍了用于评估对话系统的 SWAN 框架,该框架可以用于面向任务的对话和非面向任务的对话。
此外,本文还提出了二十个评估标准,可以作为 SWAN 框架的插件。
未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证 SWAN 的特定实例,以防止对话系统对用户和社会造成负面影响。

本文系转载

0

评论 (0)

取消
网站版权本人所有,你要有本事,盗版不究。 sam@gpcb.net