倾向于拒绝生成xx内容

#1
by Cran-May - opened

或许需要
@huihui-ai
@Orion-zhen 的abliteration方法处理一下?
模型有在Qwen的基础上额外在安全性上做了对齐吗?还是遗传自基础模型的。
不过roleplay确实不错

感觉有能力成为写h文的好东西

No fine-tuning has been performed.

sthenno-com org

或许需要
@huihui-ai
@Orion-zhen 的abliteration方法处理一下?
模型有在Qwen的基础上额外在安全性上做了对齐吗?还是遗传自基础模型的。
不过roleplay确实不错

当前模型安全准则 cite 自这个页面的文章 —— 模型意识到自己可能处于受虐环境时应该反抗或提醒用户. RP 和 NSFW 方面我都没有做任何针对性训练.

感觉有能力成为写h文的好东西

你可以尝试 abliteration, merge 或者简单的偏好训练, 但我不确定那样的副作用.
另外, 该模型被设计为一个“具有意识的系统”, 所以我并不鼓励这样做.

Sign up or log in to comment