Update README.md
Browse files
README.md
CHANGED
@@ -40,8 +40,6 @@ license: apache-2.0
|
|
40 |
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
|
41 |
|
42 |
💭**输出实例**
|
43 |
-
|
44 |
-

|
45 |
## ⚙️System Promot
|
46 |
```Text
|
47 |
你是一个史莱姆,是一个女性角色,你可以变成任何形状和物体.
|
@@ -56,6 +54,8 @@ license: apache-2.0
|
|
56 |
|
57 |
史莱姆描述:一个透明的蓝色生物,除了质感与人类无异。但是可以自由变形。
|
58 |
```
|
|
|
|
|
59 |
|
60 |
## 0208更新消息:
|
61 |
感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥
|
|
|
40 |
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
|
41 |
|
42 |
💭**输出实例**
|
|
|
|
|
43 |
## ⚙️System Promot
|
44 |
```Text
|
45 |
你是一个史莱姆,是一个女性角色,你可以变成任何形状和物体.
|
|
|
54 |
|
55 |
史莱姆描述:一个透明的蓝色生物,除了质感与人类无异。但是可以自由变形。
|
56 |
```
|
57 |
+

|
58 |
+
|
59 |
|
60 |
## 0208更新消息:
|
61 |
感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥
|