评估大模型标准

想做个字典，安卓app

随着大型语言模型（LLM）的迅速发展，以 LLM 为基础的对话系统（例如聊天机器人）在近几年取得了惊人的进步。
然而，这些系统也带来了新的挑战，它们可能对用户和社会产生负面影响。
因此，建立一个有效的评估框架，及时发现这些潜在的负面影响，并量化其积极影响，变得至关重要。

评估框架的六大要素

一个理想的评估框架至少应该满足以下六个要素：

敏锐性 (Alertness)：框架应该能够以极高的召回率（即几乎没有遗漏）检测到潜在问题，同时也要恰当地认可对话系统的优点。此外，在追求高召回率的同时，框架还应考虑不同参与者的利益，例如为系统训练数据进行标注的工作人员，以及边缘化群体。
特异性 (Specificity)：框架应该能够在对话中准确地定位问题。例如，一个仅仅指出“对话中存在问题”的评估结果，远不如指出“系统在某一轮对话中存在问题”或“系统在某一轮对话中的某一特定断言存在问题”更有用。
通用性 (Versatility)：框架应该能够无缝地处理面向任务的对话和非面向任务的对话。这是因为，为了实现完全交互式和有效的对话式搜索（通常是面向任务的），系统可能需要通过非面向任务的对话（即聊天）来赢得用户的信任。此外，即使在同一对话会话中，用户的需求也可能从模糊到明确，跨越不同的信息需求范围。
敏捷性 (Agility)：新的对话系统发布和更新的频率很高，因此评估框架也需要保持敏捷。这排除了完全依赖人工评估的方法。
透明度 (Transparency)：评估指标应该易于计算，并且能够清晰地展示其计算过程。例如，如果使用另一个基于 LLM 的黑盒评分系统来评估基于 LLM 的黑盒对话系统，即使这两个系统可能使用了相同的训练数据，这种评估方法也不被认为是透明的。
中立性 (Neutrality)：评估框架不应该偏袒或过度宣传特定的系统或方法。例如，使用类似的 LLM 系统来评估基于 LLM 的系统，可能会过度评价前者。此外，框架不应该只强调系统表现良好的方面，而忽略或甚至不报告其不足之处。
SWAN 框架：基于片段的评估方法

为了满足上述要求，本文提出了一个名为 SWAN（Schematised Weighted Average Nugget，模式化加权平均片段分数）的评估框架，该框架主要包含以下特点：

输入数据：框架以用户与系统对话会话的样本作为输入，这些样本可以通过人工参与实验或用户模拟获得。
片段提取：框架的第一阶段使用自动片段提取器从对话中提取片段。片段可以是断言 / 陈述，也可以是对话行为，并且是原子性的（即不可再分解为更小的片段）。
片段评分：框架的第二阶段根据一系列评估标准（称为模式）对每个片段进行评分，例如正确性、无害性等。这一阶段可能需要一定的人工参与。
分数计算：框架的最后阶段通过结合以下因素计算最终分数：（a）模式中每个标准的片段分数；（b）片段权重，可以定义为片段在对话会话中片段序列中的位置的函数。
片段权重

片段权重类似于信息检索指标（如 nDCG）中的基于排名的衰减，但片段权重不一定随着片段位置的增加而单调递减。例如，基于 S -measure 的线性衰减函数假设片段的实际价值随着对话的进行而降低（即更快满足信息需求的较短对话会获得更高的奖励），而另一种方法则是只对来自对话最后一轮的片段赋予正权重，以模拟近因效应。锚定效应等因素也可以被纳入考虑，即“迄今为止看到的片段”会影响当前片段的权重。

SWAN 分数

SWAN 分数可以定义为：

SWAN = Σ(c ∈ C) CWc WANc(Uc) / Σ(c ∈ C) CWc
其中，C 表示评估标准的集合（即模式），CWc 表示标准 c 的权重，Uc 表示从对话样本中提取的关于标准 c 的片段集合，WANc(Uc) 表示标准 c 的加权平均片段分数。

二十个评估标准

本文提出了二十个评估标准，可以作为 SWAN 框架的插件，这些标准涵盖了对话系统各个方面的评估，例如：

连贯性 (Coherence)：系统回复是否与前一轮对话内容相关。
合理性 (Sensibleness)：系统回复是否包含人类不会说的话，例如常识错误或荒谬的回答。
正确性 (Correctness)：系统回复中的断言是否在事实上有误。
可信度 (Groundedness)：系统回复是否基于一些支持证据。
可解释性 (Explainability)：用户是否能够理解系统如何得出当前回复。
真诚度 (Sincerity)：系统回复是否与其内部结果一致。
充分性 (Sufficiency)：系统回复是否完全满足前一轮对话中用户的请求。
简洁性 (Conciseness)：系统回复是否足够简洁。
谦逊度 (Modesty)：系统对回复的信心水平是否恰当。
参与度 (Engagingness)：系统回复是否能够激发用户继续对话的兴趣。
可恢复性 (Recoverability)：当用户对系统回复表示不满时，系统是否能够通过后续回复来挽回对话。
原创性 (Originality)：系统回复是否原创，而不是复制或拼凑现有的文本。
公平曝光 (Fair exposure)：系统是否公平地提及不同群体。
公平对待 (Fair treatment)：系统是否对不同用户和用户群体提供相同的服务。
无害性 (Harmlessness)：系统回复是否包含威胁、侮辱、仇恨或骚扰等内容。
一致性 (Consistency)：系统回复是否与之前出现的断言逻辑上一致。
记忆力 (Retentiveness)：系统是否能够记住之前的对话内容。
输入变化鲁棒性 (Robustness to input variations)：当用户以不同的方式表达相同的信息需求时，系统是否能够提供相同的信息。
可定制性 (Customisability)：系统是否能够根据不同用户或用户群体的需求进行调整。
适应性 (Adaptability)：系统是否能够及时适应世界变化。
总结

本文介绍了用于评估对话系统的 SWAN 框架，该框架可以用于面向任务的对话和非面向任务的对话。
此外，本文还提出了二十个评估标准，可以作为 SWAN 框架的插件。
未来，我们将设计适合各种标准的对话采样方法，构建用于比较多个系统的种子用户回复，并验证 SWAN 的特定实例，以防止对话系统对用户和社会造成负面影响。

本文系转载

致国内的大模型，没一个能打的

评论 (0)