File size: 232 Bytes
b389afd |
1 2 3 4 5 6 7 8 9 10 |
license: apache-2.0 datasets: mdb language: English 为了实现InstructGPT的SFT-RW-PPO 此repo采用GPT2作为SFT模型,经过GPT2生成的文字再经过DistilBERT加以评估取生成positive的分数,再经过PPO优化 |
b389afd |
1 2 3 4 5 6 7 8 9 10 |
license: apache-2.0 datasets: mdb language: English 为了实现InstructGPT的SFT-RW-PPO 此repo采用GPT2作为SFT模型,经过GPT2生成的文字再经过DistilBERT加以评估取生成positive的分数,再经过PPO优化 |