Minimal-RL - a RLHFlow Collection

RLHFlow 's Collections

Decision-Tree Reward Models

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

Minimal-RL

updated May 23, 2025

RLHFlow/Qwen2.5-Math-7B-Zero-RAFTpp

Text Generation • 8B • Updated May 21, 2025 • 10 • 1
RLHFlow/Qwen2.5-Math-7B-Zero-Reinforce-Rej

Text Generation • 8B • Updated May 21, 2025 • 9 • 1