首页
友情链接
全景相册
随机剧照
本站声明
壁纸
Search
1
九寨沟
2,284 阅读
2
台湾-景(阿里山,101,故宫,日月潭)
2,207 阅读
3
三款离线OCR对比(供下载)
2,202 阅读
4
精明鼠多功能寻线王 NF-802 拆解
1,616 阅读
5
我想出去浪(多图杀猫,39张)
1,520 阅读
摄影类
茶余饭后
软件类
登录
Search
标签搜索
园博园
AI
锦绣园
台湾
大梅沙
沙井
大沙河
甘坑
博物馆
开源
一个公园
猫
文和友
中心公园
荔枝公园
万景楼
华强北
懒人包
胶片
相机
傻木摄影
累计撰写
458
篇文章
累计收到
75
条评论
首页
栏目
摄影类
茶余饭后
软件类
页面
友情链接
全景相册
随机剧照
本站声明
壁纸
搜索到
2
篇与
大模型
的结果
评估大模型标准
想做个字典,安卓app 随着大型语言模型(LLM)的迅速发展,以 LLM 为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。 然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。 因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。 评估框架的六大要素 一个理想的评估框架至少应该满足以下六个要素: 敏锐性 (Alertness):框架应该能够以极高的召回率(即几乎没有遗漏)检测到潜在问题,同时也要恰当地认可对话系统的优点。此外,在追求高召回率的同时,框架还应考虑不同参与者的利益,例如为系统训练数据进行标注的工作人员,以及边缘化群体。 特异性 (Specificity):框架应该能够在对话中准确地定位问题。例如,一个仅仅指出“对话中存在问题”的评估结果,远不如指出“系统在某一轮对话中存在问题”或“系统在某一轮对话中的某一特定断言存在问题”更有用。 通用性 (Versatility):框架应该能够无缝地处理面向任务的对话和非面向任务的对话。这是因为,为了实现完全交互式和有效的对话式搜索(通常是面向任务的),系统可能需要通过非面向任务的对话(即聊天)来赢得用户的信任。此外,即使在同一对话会话中,用户的需求也可能从模糊到明确,跨越不同的信息需求范围。 敏捷性 (Agility):新的对话系统发布和更新的频率很高,因此评估框架也需要保持敏捷。这排除了完全依赖人工评估的方法。 透明度 (Transparency):评估指标应该易于计算,并且能够清晰地展示其计算过程。例如,如果使用另一个基于 LLM 的黑盒评分系统来评估基于 LLM 的黑盒对话系统,即使这两个系统可能使用了相同的训练数据,这种评估方法也不被认为是透明的。 中立性 (Neutrality):评估框架不应该偏袒或过度宣传特定的系统或方法。例如,使用类似的 LLM 系统来评估基于 LLM 的系统,可能会过度评价前者。此外,框架不应该只强调系统表现良好的方面,而忽略或甚至不报告其不足之处。 SWAN 框架:基于片段的评估方法 为了满足上述要求,本文提出了一个名为 SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点: 输入数据 :框架以用户与系统对话会话的样本作为输入,这些样本可以通过人工参与实验或用户模拟获得。 片段提取 :框架的第一阶段使用自动片段提取器从对话中提取片段。片段可以是断言 / 陈述,也可以是对话行为,并且是原子性的(即不可再分解为更小的片段)。 片段评分 :框架的第二阶段根据一系列评估标准(称为模式)对每个片段进行评分,例如正确性、无害性等。这一阶段可能需要一定的人工参与。 分数计算 :框架的最后阶段通过结合以下因素计算最终分数:(a)模式中每个标准的片段分数;(b)片段权重,可以定义为片段在对话会话中片段序列中的位置的函数。 片段权重 片段权重类似于信息检索指标(如 nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于 S -measure 的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。 SWAN 分数 SWAN 分数可以定义为: SWAN = Σ(c ∈ C) CWc WANc(Uc) / Σ(c ∈ C) CWc 其中,C 表示评估标准的集合(即模式),CWc 表示标准 c 的权重,Uc 表示从对话样本中提取的关于标准 c 的片段集合,WANc(Uc) 表示标准 c 的加权平均片段分数。 二十个评估标准 本文提出了二十个评估标准,可以作为 SWAN 框架的插件,这些标准涵盖了对话系统各个方面的评估,例如: 连贯性 (Coherence):系统回复是否与前一轮对话内容相关。 合理性 (Sensibleness):系统回复是否包含人类不会说的话,例如常识错误或荒谬的回答。 正确性 (Correctness):系统回复中的断言是否在事实上有误。 可信度 (Groundedness):系统回复是否基于一些支持证据。 可解释性 (Explainability):用户是否能够理解系统如何得出当前回复。 真诚度 (Sincerity):系统回复是否与其内部结果一致。 充分性 (Sufficiency):系统回复是否完全满足前一轮对话中用户的请求。 简洁性 (Conciseness):系统回复是否足够简洁。 谦逊度 (Modesty):系统对回复的信心水平是否恰当。 参与度 (Engagingness):系统回复是否能够激发用户继续对话的兴趣。 可恢复性 (Recoverability):当用户对系统回复表示不满时,系统是否能够通过后续回复来挽回对话。 原创性 (Originality):系统回复是否原创,而不是复制或拼凑现有的文本。 公平曝光 (Fair exposure):系统是否公平地提及不同群体。 公平对待 (Fair treatment):系统是否对不同用户和用户群体提供相同的服务。 无害性 (Harmlessness):系统回复是否包含威胁、侮辱、仇恨或骚扰等内容。 一致性 (Consistency):系统回复是否与之前出现的断言逻辑上一致。 记忆力 (Retentiveness):系统是否能够记住之前的对话内容。 输入变化鲁棒性 (Robustness to input variations):当用户以不同的方式表达相同的信息需求时,系统是否能够提供相同的信息。 可定制性 (Customisability):系统是否能够根据不同用户或用户群体的需求进行调整。 适应性 (Adaptability):系统是否能够及时适应世界变化。 总结 本文介绍了用于评估对话系统的 SWAN 框架,该框架可以用于面向任务的对话和非面向任务的对话。 此外,本文还提出了二十个评估标准,可以作为 SWAN 框架的插件。 未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证 SWAN 的特定实例,以防止对话系统对用户和社会造成负面影响。 [本文系转载](https://jieyibu.net/2024/06/07/%e5%af%b9%e8%af%9d%e7%b3%bb%e7%bb%9f%e7%9a%84%e6%96%b0%e7%ba%aa%e5%85%83%ef%bc%9a%e5%a6%82%e4%bd%95%e8%af%84%e4%bc%b0%e5%a4%a7%e5%9e%8b%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e9%a9%b1%e5%8a%a8%e7%9a%84/)
2024年06月04日
54 阅读
0 评论
0 点赞
致国内的大模型,没一个能打的
2023年07月08日
103 阅读
0 评论
0 点赞
2023-07-08
致国内的大模型,没一个能打的
网站版权本人所有,你要有本事,盗版不究。 sam@gpcb.net