Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,146

Full-text search

Active filters: reinforcement-learning, transformers

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6 • 10

arianaazarbal/hacker_test_seeking_prompt_ppo

Reinforcement Learning • Updated Jul 6 • 3

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6 • 24

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning • 1B • Updated Jul 6 • 13

mradermacher/sft_14B-GGUF

Reinforcement Learning • 15B • Updated 27 days ago • 68 • 1

mradermacher/sft_0.5B-GGUF

Reinforcement Learning • 0.5B • Updated 26 days ago • 57

mradermacher/sft_1.5B-GGUF

Reinforcement Learning • 2B • Updated 26 days ago • 256 • 1

mradermacher/sft_3B-GGUF

Reinforcement Learning • 3B • Updated 26 days ago • 57

mradermacher/Aryabhata-1.0-GGUF

Reinforcement Learning • 8B • Updated 25 days ago • 451 • 1

mradermacher/Aryabhata-1.0-i1-GGUF

Reinforcement Learning • 8B • Updated 26 days ago • 463

mradermacher/ReForm-SFT-0.5B-GGUF

Reinforcement Learning • 0.5B • Updated 26 days ago • 191

mradermacher/ReForm-SFT-3B-GGUF

Reinforcement Learning • 3B • Updated 26 days ago • 206

mradermacher/ReForm-SFT-3B-i1-GGUF

Reinforcement Learning • 3B • Updated 26 days ago • 424

mradermacher/ReForm-SFT-0.5B-i1-GGUF

Reinforcement Learning • 0.5B • Updated 26 days ago • 382

mradermacher/ReForm-14B-RL-entropy-GGUF

Reinforcement Learning • 15B • Updated 26 days ago • 187

mradermacher/ReForm-SFT-1.5B-GGUF

Reinforcement Learning • 2B • Updated 26 days ago • 195

mradermacher/ReForm-SFT-1.5B-i1-GGUF

Reinforcement Learning • 2B • Updated 26 days ago • 369

tensorblock/Nellyw888_VeriReason-codeLlama-7b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • 7B • Updated 23 days ago • 138

mradermacher/EDGE-GRPO-Qwen-7B-GGUF

Reinforcement Learning • 8B • Updated 22 days ago • 415

mradermacher/EDGE-GRPO-Qwen-1.5B-GGUF

Reinforcement Learning • 2B • Updated 22 days ago • 174

mradermacher/EDGE-GRPO-Qwen-7B-i1-GGUF

Reinforcement Learning • 8B • Updated 22 days ago • 366

mradermacher/Qwen3-14B-ARPO-DeepSearch-GGUF

Reinforcement Learning • 15B • Updated 9 days ago • 3.04k • 1

mradermacher/Qwen3-14B-ARPO-DeepSearch-i1-GGUF

Reinforcement Learning • 15B • Updated 9 days ago • 2.91k • 1

mradermacher/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct-GGUF

Reinforcement Learning • 0.6B • Updated 21 days ago • 185

mradermacher/SLM-SQL-0.5B-GGUF

Reinforcement Learning • 0.6B • Updated 21 days ago • 176

mradermacher/SLM-SQL-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 21 days ago • 172

mradermacher/SLM-SQL-Base-1.5B-GGUF

Reinforcement Learning • 2B • Updated 21 days ago • 383

mradermacher/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct-GGUF

Reinforcement Learning • 2B • Updated 21 days ago • 432

mradermacher/SLM-SQL-Base-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 21 days ago • 176

mradermacher/arc-teacher-8b-GGUF

Reinforcement Learning • 8B • Updated 19 days ago • 247