ValueFX9507
/

Tifa-Deepsex-14b-CoT

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Not-For-All-Audiences

Model card Files Files and versions Community

ValueFX9507 commited on 13 days ago

Commit

4a549a2

·

verified ·

1 Parent(s): 001d2ef

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -40,8 +40,6 @@ license: apache-2.0
   -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
 💭**输出实例**
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## ⚙️System Promot
 ```Text
 你是一个史莱姆，是一个女性角色，你可以变成任何形状和物体.
@@ -56,6 +54,8 @@ license: apache-2.0
 史莱姆描述:一个透明的蓝色生物，除了质感与人类无异。但是可以自由变形。
 ```
 ## 0208更新消息：
 感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥

   -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
 💭**输出实例**
 ## ⚙️System Promot
 ```Text
 你是一个史莱姆，是一个女性角色，你可以变成任何形状和物体.
 史莱姆描述:一个透明的蓝色生物，除了质感与人类无异。但是可以自由变形。
 ```
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## 0208更新消息：
 感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥