qwen32B蒸馏模型，长度>8k时，预测一定比例乱码，出现<think><think><think><think><think><think>

#44

by daniellibin - opened 6 days ago

6 days ago

temperature按照0.6设置的，大家遇到过这个情况吗？
长度设置4k以内无乱码但是会截断；
长度设置8k以上大概有20%比例出现，一直重复输出

lianxu

5 days ago

我也出现了

5 days ago

我也出现了

试了一下lama，比例相对qwen少一些；但是也会出现思考的死循环，直到被截断；

DeepSeek org 5 days ago

如果你使用的是vLLM的话，我也出现过这个问题，我推断是cuda graph相关有bug，纯eager模式就不会出现乱码问题

即确保启动参数包含--enforce-eager

4 days ago

如果你使用的是vLLM的话，我也出现过这个问题，我推断是cuda graph相关有bug，纯eager模式就不会出现乱码问题

即确保启动参数包含--enforce-eager

感谢，我试一下；

4 days ago

如果你使用的是vLLM的话，我也出现过这个问题，我推断是cuda graph相关有bug，纯eager模式就不会出现乱码问题

即确保启动参数包含--enforce-eager

开启enforce-eager后，批量请求时会比较慢吧

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment