vivekvar
/

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Text Generation

reinforcement-learning

mathematical-reasoning

policy-optimization

sequence-level-training

Model card Files Files and versions Community

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Ctrl+K

Ctrl+K

1 contributor

History: 4 commits

vivekvar's picture

Update README.md

3840067 verified 21 days ago