RLHFlow

university

RLHFlow

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Papers

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

View all Papers

RLHFlow 's models 37

RLHFlow/Qwen2.5-Math-1.5B-DAPO-easy

2B • Updated Oct 26 • 4

RLHFlow/Qwen2.5-Math-1.5B-GRPO-n8-easy

2B • Updated Oct 26 • 5

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-hard

Updated Oct 15 • 12

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-easy

2B • Updated Oct 11 • 6

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-easy

8B • Updated Oct 10 • 6

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-hard

8B • Updated Oct 10 • 12

RLHFlow/Qwen3-4B-Instruct-2507-Reinforce-Ada-balance-hard

4B • Updated Oct 10 • 12 • 1

RLHFlow/Llama-3.2-3B-Instruct-Reinforce-Ada-balance-hard

4B • Updated Oct 10 • 67

RLHFlow/Qwen2.5-Math-7B-Zero-RAFTpp

Text Generation • 8B • Updated May 21 • 12 • 1

RLHFlow/Qwen2.5-Math-7B-Zero-Reinforce-Rej

Text Generation • 8B • Updated May 21 • 11 • 1

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • 8B • Updated May 10 • 3.83k • • 37

RLHFlow/Qwen2.5-7B-SFT

8B • Updated Feb 17 • 11

RLHFlow/Qwen2.5-7B-RAFT-Zero

8B • Updated Feb 17 • 18

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

8B • Updated Feb 17 • 9

RLHFlow/Qwen2.5-7B-DPO-Zero

8B • Updated Feb 17 • 10

RLHFlow/Qwen2.5-7B-DPO

8B • Updated Feb 17 • 8

RLHFlow/Qwen2.5-7B-PPO-Zero

8B • Updated Feb 17 • 24 • 3

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • 27B • Updated Jan 24 • 22 • 8

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • 8B • Updated Jan 24 • 25 • 7

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 62 • • 10

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

Text Generation • 8B • Updated Nov 9, 2024 • 38 • 2

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 19

RLHFlow/Llama3-v2-iterative-DPO-iter3

Text Generation • 8B • Updated Nov 4, 2024 • 11 • 1

RLHFlow/Llama3-v2-iterative-DPO-iter2

Text Generation • 8B • Updated Nov 4, 2024 • 12

RLHFlow/Llama3-v2-iterative-DPO-iter1

Text Generation • 8B • Updated Nov 4, 2024 • 11

RLHFlow/LLaMA3-SFT-v2

Text Generation • 8B • Updated Nov 3, 2024 • 1.69k • • 3

RLHFlow/Llama3-SFT-v2.0-epoch1

Text Generation • 8B • Updated Nov 3, 2024 • 18

RLHFlow/Llama3-SFT-v2.0-epoch2

Text Generation • 8B • Updated Nov 3, 2024 • 12

RLHFlow/Llama3-SFT-v2.0-epoch3

Text Generation • 8B • Updated Nov 3, 2024 • 16

RLHFlow/LLaMA3-SFT

Text Generation • 8B • Updated Nov 3, 2024 • 93 • • 10