输入上下文超2k,回复很慢

如图

部署的 llama.cpp