RFT - a Paipile Collection

Paipile 's Collections

RFT

RFT

updated Aug 5

Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24 • 294
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Paper • 2507.15758 • Published Jul 21 • 34
Hierarchical Budget Policy Optimization for Adaptive Reasoning

Paper • 2507.15844 • Published Jul 21 • 16
Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

Paper • 2507.16814 • Published Jul 22 • 21
RePO: Replay-Enhanced Policy Optimization

Paper • 2506.09340 • Published Jun 11
Perception-Aware Policy Optimization for Multimodal Reasoning

Paper • 2507.06448 • Published Jul 8 • 47
On-Policy RL with Optimal Reward Baseline

Paper • 2505.23585 • Published May 29 • 15
EXPO: Stable Reinforcement Learning with Expressive Policies

Paper • 2507.07986 • Published Jul 10
Geometric-Mean Policy Optimization

Paper • 2507.20673 • Published Jul 28 • 31