Qwen2.5-7B-Instruct
已设置inf4精度运行
初始化完成后,显存占用7gb
常规简单问题都能对答如流
4060 16gb显卡大约每秒10个字左右
尝试将问题换成825行代码类的,字数约3200字
此时显存占用16.5gb
吐字约每秒5个字左右
这个是限制死了inf4精度
原版inf8的,825行代码显存占用20gb左右
吐字每秒一个字。。。
所以写死了inf4
反正离线模型也就图一乐
都是智障
有在线的免费可以白漂
还要什么离线版
链接: https://pan.baidu.com/s/1zOdQJU4It8NNdReLzlVReQ?pwd=gpcb
评论 (0)