首页
友情链接
全景相册
随机剧照
本站声明
壁纸
Search
1
diffusers-image-outpaint,智能扩图工具,懒人包,有更新
7,189 阅读
2
AIGC数字影像馆,键盘摄影大师(一键懒人包)
3,286 阅读
3
三款离线OCR对比(供下载)
2,816 阅读
4
台湾-景(阿里山,101,故宫,日月潭)
2,800 阅读
5
九寨沟
2,727 阅读
摄影类
茶余饭后
软件类
登录
Search
标签搜索
园博园
AI
锦绣园
五一
甘坑
重庆
荔枝公园
开源
懒人包
台湾
相机
大梅沙
沙井
大沙河
南头古城
锦绣中华
博物馆
一个公园
猫
文和友
傻木摄影
累计撰写
564
篇文章
累计收到
134
条评论
首页
栏目
摄影类
茶余饭后
软件类
页面
友情链接
全景相册
随机剧照
本站声明
壁纸
搜索到
208
篇与
» 茶余饭后
的结果
评估大模型标准
想做个字典,安卓app 随着大型语言模型(LLM)的迅速发展,以 LLM 为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。 然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。 因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。 评估框架的六大要素 一个理想的评估框架至少应该满足以下六个要素: 敏锐性 (Alertness):框架应该能够以极高的召回率(即几乎没有遗漏)检测到潜在问题,同时也要恰当地认可对话系统的优点。此外,在追求高召回率的同时,框架还应考虑不同参与者的利益,例如为系统训练数据进行标注的工作人员,以及边缘化群体。 特异性 (Specificity):框架应该能够在对话中准确地定位问题。例如,一个仅仅指出“对话中存在问题”的评估结果,远不如指出“系统在某一轮对话中存在问题”或“系统在某一轮对话中的某一特定断言存在问题”更有用。 通用性 (Versatility):框架应该能够无缝地处理面向任务的对话和非面向任务的对话。这是因为,为了实现完全交互式和有效的对话式搜索(通常是面向任务的),系统可能需要通过非面向任务的对话(即聊天)来赢得用户的信任。此外,即使在同一对话会话中,用户的需求也可能从模糊到明确,跨越不同的信息需求范围。 敏捷性 (Agility):新的对话系统发布和更新的频率很高,因此评估框架也需要保持敏捷。这排除了完全依赖人工评估的方法。 透明度 (Transparency):评估指标应该易于计算,并且能够清晰地展示其计算过程。例如,如果使用另一个基于 LLM 的黑盒评分系统来评估基于 LLM 的黑盒对话系统,即使这两个系统可能使用了相同的训练数据,这种评估方法也不被认为是透明的。 中立性 (Neutrality):评估框架不应该偏袒或过度宣传特定的系统或方法。例如,使用类似的 LLM 系统来评估基于 LLM 的系统,可能会过度评价前者。此外,框架不应该只强调系统表现良好的方面,而忽略或甚至不报告其不足之处。 SWAN 框架:基于片段的评估方法 为了满足上述要求,本文提出了一个名为 SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点: 输入数据 :框架以用户与系统对话会话的样本作为输入,这些样本可以通过人工参与实验或用户模拟获得。 片段提取 :框架的第一阶段使用自动片段提取器从对话中提取片段。片段可以是断言 / 陈述,也可以是对话行为,并且是原子性的(即不可再分解为更小的片段)。 片段评分 :框架的第二阶段根据一系列评估标准(称为模式)对每个片段进行评分,例如正确性、无害性等。这一阶段可能需要一定的人工参与。 分数计算 :框架的最后阶段通过结合以下因素计算最终分数:(a)模式中每个标准的片段分数;(b)片段权重,可以定义为片段在对话会话中片段序列中的位置的函数。 片段权重 片段权重类似于信息检索指标(如 nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于 S -measure 的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。 SWAN 分数 SWAN 分数可以定义为: SWAN = Σ(c ∈ C) CWc WANc(Uc) / Σ(c ∈ C) CWc 其中,C 表示评估标准的集合(即模式),CWc 表示标准 c 的权重,Uc 表示从对话样本中提取的关于标准 c 的片段集合,WANc(Uc) 表示标准 c 的加权平均片段分数。 二十个评估标准 本文提出了二十个评估标准,可以作为 SWAN 框架的插件,这些标准涵盖了对话系统各个方面的评估,例如: 连贯性 (Coherence):系统回复是否与前一轮对话内容相关。 合理性 (Sensibleness):系统回复是否包含人类不会说的话,例如常识错误或荒谬的回答。 正确性 (Correctness):系统回复中的断言是否在事实上有误。 可信度 (Groundedness):系统回复是否基于一些支持证据。 可解释性 (Explainability):用户是否能够理解系统如何得出当前回复。 真诚度 (Sincerity):系统回复是否与其内部结果一致。 充分性 (Sufficiency):系统回复是否完全满足前一轮对话中用户的请求。 简洁性 (Conciseness):系统回复是否足够简洁。 谦逊度 (Modesty):系统对回复的信心水平是否恰当。 参与度 (Engagingness):系统回复是否能够激发用户继续对话的兴趣。 可恢复性 (Recoverability):当用户对系统回复表示不满时,系统是否能够通过后续回复来挽回对话。 原创性 (Originality):系统回复是否原创,而不是复制或拼凑现有的文本。 公平曝光 (Fair exposure):系统是否公平地提及不同群体。 公平对待 (Fair treatment):系统是否对不同用户和用户群体提供相同的服务。 无害性 (Harmlessness):系统回复是否包含威胁、侮辱、仇恨或骚扰等内容。 一致性 (Consistency):系统回复是否与之前出现的断言逻辑上一致。 记忆力 (Retentiveness):系统是否能够记住之前的对话内容。 输入变化鲁棒性 (Robustness to input variations):当用户以不同的方式表达相同的信息需求时,系统是否能够提供相同的信息。 可定制性 (Customisability):系统是否能够根据不同用户或用户群体的需求进行调整。 适应性 (Adaptability):系统是否能够及时适应世界变化。 总结 本文介绍了用于评估对话系统的 SWAN 框架,该框架可以用于面向任务的对话和非面向任务的对话。 此外,本文还提出了二十个评估标准,可以作为 SWAN 框架的插件。 未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证 SWAN 的特定实例,以防止对话系统对用户和社会造成负面影响。 [本文系转载](https://jieyibu.net/2024/06/07/%e5%af%b9%e8%af%9d%e7%b3%bb%e7%bb%9f%e7%9a%84%e6%96%b0%e7%ba%aa%e5%85%83%ef%bc%9a%e5%a6%82%e4%bd%95%e8%af%84%e4%bc%b0%e5%a4%a7%e5%9e%8b%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e9%a9%b1%e5%8a%a8%e7%9a%84/)
2024年06月04日
230 阅读
0 评论
0 点赞
2024-05-28
经典游戏-俄罗斯方块-网页版+离线单机版
经典到不能再经典的游戏 老少皆宜 可以使用鼠标点击按钮控制 还可以使用键盘方向键和空格键控制 [点我开始玩俄罗斯方块——网页版](/RUS/) [下载exe离线单机版](https://abpyu.lanzoul.com/izloZ204iuwh) 开源的,项目地址 [https://github.com/chvin/react-tetris](https://github.com/chvin/react-tetris) 网页版只有完整界面,有原版模拟音效 离线单机版没有音效 离线单机版默认完整界面,可以鼠标键盘操作 按键盘上的X,显示mini界面 按键盘上的D,显示完整界面 **Esc键退出**  
2024年05月28日
543 阅读
0 评论
0 点赞
2024-05-18
2024年会如约而至...
2024年会如约而至 我准备的稿子也没用上 即兴发挥 毫无疑问,接近吵起来 当时HR在群里发出五一放假通知时 整个二楼炸锅了 所有人都在质疑 但是没有任何人向上反馈 就我问了HR 问了两次 均没有得到回复 是一个字的回复都没有 今天我在年会上当众质询HR经理 答复十分敷衍 好像是答复了,又好像没有答复 虽然答复的她自己都不相信 当然,我也不相信 总经理说放假通知不会遵循所有人意见 这点我当然是认同的 好比中国疫情时的应对方式 有时候是需要专政 当我说到生产发货又不要我包装发货 每次放假都会说生产根据具体需要自行安排 意思是与方大城办公室的有什么关系? 要我们办公室的去包装发货吗? 你知道总经理说什么 她说不会为我个人而特殊化 瞧你说的 我还没这么大面子 我自己几斤几两我知道 人微言轻 不指望你为了我而改变成周末双休 五一放假安排明显是不合理的 你们所谓的领导全都是心照不宣 一楼什么情况我不清楚 二楼炸锅了我不信你们不清楚 凭什么说不会偏向我???????????  致HR: 我想问一下,你在上面夸夸其谈的讲了几十页PPT 就能让底下一百多号人幸福指数蹭蹭蹭往上涨几十个百分点吗 大清亡了 这里也不是朝鲜 不要总是给自己贴金,还是要要点脸的 请解释一下前几天五一的放假安排 前一周双休,紧跟着上班9天 请问你是不是做计划的时候没带脑子还是脑子被门夹了 整天标榜着人性化管理 管理现在是有了,人性有没有我就不知道了 这种一年到头都难得的长假 你不给予便利也就算了 还到处制造麻烦 不光给员工制造麻烦 还给你自己制造麻烦 你觉得新员工知道你这么安排放假 还会来吗? 搬起石头砸自己的脚 你真是好样的,给你点赞 “这一切的背后到底是道德的沦丧,还是人性的扭曲。” 我在公司工作了14年多 每次打电话回家 家人第一句话问我是否身体健康 第二句就是公司效益怎么样 工作了这么多年的公司 不光我对公司有感情 我家人虽然没来过 对公司也是有感情的 都希望公司能长长久久更上一层楼 如果有一天我不在这个公司做了 有人问起我这个公司怎么样时 我希望能笑着说这个公司的种种好 而不是一边摇头一边呕吐状的说着千万别去 那些非人类放假制度让人想起就一阵恶心 对此让我对公司的未来发展产生质疑,以前的公司不是这样的 到底什么原因变成现在这鬼样子 我认为这已经严重影响了员工的忠诚度、生产力和整体的工作氛围 也对全体士气产生了重大的不利影响 这些不是你夸夸其谈讲几十页ppt能补回来的 人事不管人事,以前我一直以为这是个段子,今天终于懂了,真是活久见 不求你多给几天假期,按照国家放假一致 老板有给我们发工资,我们可以做好自己该做的 我们该补班补班,这是天经地义的 求你不要处处制造障碍,制造麻烦,破坏公司的凝聚力 在此呼吁管理层立即采取行动,正视员工的关切,并共同努力改善公司文化和工作环境。 [我司五一放假安排](https://gpcb.net/3391.html)
2024年05月18日
261 阅读
0 评论
0 点赞
2024-05-17
第一次吃青芒
 第一次吃青芒 前几天买了一份果切 里面夹杂着三根青绿色切成条状的水果 不认识,叉起来咬了一口 嗯 很特别的味道 不是很甜 也不是很酸 脆的 以前从没吃过 一口气把三条都吃完了 心想着,这一定是了不得的水果 不然怎么只给这么少分量 过了几天 预见一水果店 看见有果切 买了一份,问了一青绿色块状水果 曰:这是青芒 ..... 然来我心里装着的那个了不得的水果是青芒 吃几口到也挺不错 一个就吃不完了 意犹未尽才是最好的 不然吃饱了容易撑着
2024年05月17日
226 阅读
0 评论
1 点赞
我的阿勒泰
2024年05月13日
457 阅读
0 评论
0 点赞
2024-05-13
美如画 想去            
什么是馍?什么是型?什么是大馍型?AI大模型解惑
2024年05月11日
256 阅读
0 评论
0 点赞
2024-05-11
什么是馍?什么是型?什么是大馍型?AI大模型解惑 馍就是吃的馍馍  型就是很有型的人做馍馍 例如下图中的男馍 意思是一个很有型的男人在做馍  那么AI大模型又是啥玩意? 我们分开来说 AI是什么? 人工智能(Artificial Intelligence,简称AI) 是一门研究如何使计算机能够模拟和执行人类智能任务的科学和技术领域。 它致力于开发能够感知、理解、学习、推理、决策和与人类进行交互的智能系统。 人工智能的背景可以追溯到上世纪50年代,最初集中在基于规则的推理和专家系统的开发上。 随着计算机技术和算法的进步,尤其是机器学习和深度学习的兴起,人工智能开始迎来爆发式的发展。 大模型是什么? 大模型(Large Model),也称基础模型或Foundation Model,是指具有大量参数和复杂结构的机器学习模型。 它们能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。 大模型通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。 超大模型是大模型的一个子集,它们的参数量远超过大模型。 大模型的种类 大模型按照输入数据类型和应用领域主要可以分为以下几类: 语言大模型(NLP):在自然语言处理领域中使用的大模型,如GPT系列、Bard、文心一言等。 视觉大模型(CV):在计算机视觉领域中使用的大模型,如VIT系列、文心UFO、华为盘古CV等。 多模态大模型:能够处理多种不同类型数据的大模型,如DALL-E、悟空画画等。 通用大模型 L0:可在多个领域和任务上通用的大模型,具有强大的泛化能力。 行业大模型 L1:针对特定行业或领域的大模型,相当于AI成为“行业专家”。 垂直大模型 L2:针对特定任务或场景的大模型,提高在该任务上的性能和效果。 适合本地部署的大模型及电脑配置要求 本地部署大型AI模型对电脑配置有一定要求,尤其是对GPU的显存和内存有较高需求。 以下是一些适合本地部署的大模型及基础配置推荐: 3B/7B/13B大模型:适合个人本地部署,对配置要求适中。 数字后面的B意思是10亿,3B则表示这个模型有大约30亿参数 一般推荐7B开始,小于7B的智商着急,大于7B的硬件资源消耗着急 我自己电脑4060 8gb显存,7B RWKV模型巨卡无比 CPU:10代I3或以上均可 AI时代的CPU就是打酱油的,可以理解为有个cpu就行 内存:16GB - 128GB,一般是显存的两倍左右。目前16gb远不能满足AI使用,基础配置建议32gb起步 我电脑32gb内存,转换7B模型时实际需要40gb内存,所以不要在说真的需要这么大内存吗,32gb已经是极低起步要求了 硬盘:M.2 SSD 512GB 如今各种模型层出不穷,动不动十几GB甚至几十GB,磁盘不建议小于512,有条件的建议直接2TB起步 GPU:至少4060 16GB显存,若要微调则至少应该配置4090 24gb 这个显卡还不能做的全参微调,仅能够支持极为有限的微调 大模型的本地部署可以为研究人员和开发者提供强大的工具,但同时也带来了对硬件配置的挑战。 合理规划硬件资源、关注数据质量、保证系统稳定性是成功部署的关键。 随着技术的不断进步,未来可能会有更多高效且易于部署的大模型出现,进一步推动AI技术的发展和应用。 目前我自己常用的模型是Meta Liama3 中文量化版 Llama-3-8B-Q4-K-M.gguf 模型参数 8B 量化参数 Q4-K-M 模型体积 4.8gb 显存消耗 6gb 每秒吐字 8-12 Tok/s https://hf-mirror.com/ 模型可以在这个站点自己搜索 关键词加上gguf [https://hf-mirror.com/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main](https://hf-mirror.com/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main) 例如我下载的是这个  上图中框起来这么多,实际都是同一个模型 只是量化参数不一样 根据自己电脑配置下载 原则上模型体积越大,质量越好 但是体积越大,对资源要求越高 例如我电脑显卡8gb显存,除去系统占用1gb 下载5gb左右的最合适 再小,质量太低 再大,明显不流畅 例如我下载了llama3 70b Q1量化版本,模型体积不到16gb 一样可以跑起来 两秒钟回答一个字 有毛线用吗 严重影响体验  以下是推荐加载gguf模型的工具,都是免环境配置,在windows上双击运行之类的 三个都是英文界面 LM Studio koboldcpp llamafile 另外在推荐一个国产的 RWKV 这个就是傻瓜式,有详细使用说明,中文,免费,开源 RWKV Runner https://github.com/josStorer/RWKV-Runner 或者同源的 ai00_server https://github.com/Ai00-X/ai00_server
2024-04-28
离线AI能蠢到什么地步?
离线AI能蠢到什么地步? 最近几天各家AI大模型你家唱罢我登场 那叫一个忙的不亦乐乎 先是Meta Liama3 系列 从8b到70b 着实火了一把 从一发布开始的当天晚上就有网友放出中文量化版 整天说被限制了买不到高端显卡 给我的感觉就是这届网友真有钱 这位大佬指定家里有矿,A800,还是4张,每张80GB显存,羡慕嫉妒恨啊  跟着微软的phi3 mini3b模型也发布了 模型太小,基本就是个摆设 阿里巴巴也发布了qwen 110b大模型,这个真牛逼 牛逼到上面那四张A800才跑的动,也只是勉强跑的动 民用显卡根本不敢说话 就连一向闭口不谈AI的苹果公司也按捺不住 而且一口气发布了4个模型 当然了,也是看客级别的 近几天着重测试了Meta Liama3 8B版本 寻常问题都是对答如流的 就这个体量的模型,有这个能力,已经很不错了 当然还有巨大的潜力 今天我给模型下达了几乎不可能的任务 看起来模型完成的非常好 不信你跟着往下看       模型大概被我气到了  已经泣不成声了  几乎不能回答完整了  如果需要我打分的话,给40分吧,满分120分的那种 我认为未来一年优化后可能达到70分左右 结论就是,目前离线模型几乎没什么用 再等一年吧,一年后估计有较大改观
2024年04月28日
308 阅读
0 评论
0 点赞
1
...
10
11
12
...
30
网站版权本人所有,你要有本事,盗版不究。 sam@gpcb.net