将 output.weight 和 token embeddings 指定为了 Q8_0 量化(只增加了约 0.27GB),模型可能对 token_embd.weight 和 output.weight 的精度更为敏感。
同时使用了一些不正经数据进行 imatrix,并选择了 K 系列量化方法,以降低损失并提高推理性能。

原始模型

note:

  • 简单的请求时模型可能会跳过 <think> ,可尝试修改模板强制添加至开头
Downloads last month
1,851
GGUF
Model size
7.62B params
Architecture
qwen2

6-bit

16-bit

Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Model tree for nuofang/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q6_K_L

Quantized
(2)
this model