Adaptive Length Penalty - a RLAIF Collection

RLAIF 's Collections

Hybrid-Reason-New-SFT

HybridReasoning

Adaptive Length Penalty

Math-Tool-Use-RL

Merged Master Dataset

OpenMathInstruct-2

Tools

MATH Procedural Cloning

Adaptive Length Penalty

updated Jun 23, 2025

Models in Adaptive Length Penalty Paper

SynthLabsAI/ALP_DeepScaleR_1.5B_C16K

Reinforcement Learning • 2B • Updated Jun 24, 2025 • 14 • 3
SynthLabsAI/ALP_R1_Qwen1.5B

Reinforcement Learning • 2B • Updated Jun 24, 2025 • 9