qwen32B蒸馏模型,长度>8k时,预测一定比例乱码,出现<think><think><think><think><think><think>
#44
by
daniellibin
- opened
temperature按照0.6设置的,大家遇到过这个情况吗?
长度设置4k以内无乱码但是会截断;
长度设置8k以上大概有20%比例出现,一直重复输出
我也出现了
我也出现了
试了一下lama,比例相对qwen少一些;但是也会出现思考的死循环,直到被截断;
如果你使用的是vLLM的话,我也出现过这个问题,我推断是cuda graph相关有bug,纯eager模式就不会出现乱码问题
即确保启动参数包含--enforce-eager
如果你使用的是vLLM的话,我也出现过这个问题,我推断是cuda graph相关有bug,纯eager模式就不会出现乱码问题
即确保启动参数包含
--enforce-eager
感谢,我试一下;
如果你使用的是vLLM的话,我也出现过这个问题,我推断是cuda graph相关有bug,纯eager模式就不会出现乱码问题
即确保启动参数包含
--enforce-eager
开启enforce-eager后,批量请求时会比较慢吧