TDRM - a zd21 Collection

Models
Datasets
Spaces
Docs
Enterprise
免费去水印
Log In
Sign Up

zd21 's Collections

TDRM

TDRM

updated Nov 12, 2025

Learning Smooth Reward Models with Temporal Difference for LLM RL and Inference

zd21/DeepSeek-TD0-PRM

Updated Jul 12, 2025
zd21/DeepSeek-TD2-PRM

Updated Jul 12, 2025
zd21/DeepSeek-ScalarPRM

Updated Jul 12, 2025
zd21/DeepSeek-ScalarORM

Updated Jul 12, 2025
zd21/DS-R1-Distill-Qwen-1.5B-TDRM

Updated Jul 12, 2025
zd21/DS-R1-Distill-Qwen-7.5B-TDRM

Updated Jul 12, 2025
zd21/Qwen2.5-Math-1.5B-TDRM

Updated Jul 16, 2025
zd21/Qwen2.5-Math-7B-TDRM

Updated Jul 16, 2025
zd21/Qwen2.5-0.5B-TDRM

Updated Jul 16, 2025
zd21/Qwen2.5-1.5B-TDRM

Updated Jul 16, 2025
zd21/GLM4-9B-0414-TDRM

9B • Updated Jul 29, 2025 • 5
zd21/GLM-Z1-9B-0414-TDRM

9B • Updated Aug 22, 2025 • 6
zd21/DeepSeek-TD1-PRM

Updated Sep 8, 2025
TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference

Paper • 2509.15110 • Published Sep 18, 2025 • 1

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets 免费Z-image图片生成免费去水印 Vibevoice

🎉 Free Image Generator Now Available!

Totally Free + Zero Barriers + No Login Required