Zhang's picture

1

Zhang

tenger12138

AI & ML interests

None yet

Recent Activity

upvoted a paper about 2 months ago

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

View all activity

Organizations

None yet

upvoted a paper about 2 months ago

SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

Paper • 2511.06411 • Published Nov 9, 2025 • 17