File size: 232 Bytes
b389afd
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10

license: apache-2.0

datasets: mdb

language: English

为了实现InstructGPT的SFT-RW-PPO

此repo采用GPT2作为SFT模型,经过GPT2生成的文字再经过DistilBERT加以评估取生成positive的分数,再经过PPO优化