Yuhang Zhou's picture

5

Yuhang Zhou

zyhang1998

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 9 days ago

Self-Rewarding Vision-Language Model via Reasoning Decomposition

updated a model 15 days ago

zyhang1998/gemma3_27b_textonly

published a model 15 days ago

zyhang1998/gemma3_27b_textonly

View all activity

Organizations

upvoted a paper 9 days ago

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Paper • 2508.19652 • Published 10 days ago • 78

updated a model 15 days ago

zyhang1998/gemma3_27b_textonly

27B • Updated 15 days ago • 5

published a model 15 days ago

zyhang1998/gemma3_27b_textonly

27B • Updated 15 days ago • 5

upvoted a paper 3 months ago

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Paper • 2506.15068 • Published Jun 18 • 14

updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

Viewer • Updated May 6 • 2k • 7

published a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main_2K

Viewer • Updated May 6 • 2k • 7

updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main_2K

Viewer • Updated May 6 • 2k • 2

published a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main_2K

Viewer • Updated May 6 • 2k • 2

updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_arc_main_2K

Viewer • Updated May 6 • 2k • 4

published a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_arc_main_2K

Viewer • Updated May 6 • 2k • 4

updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_nq_main_2K

Viewer • Updated May 6 • 2k • 7

published a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_nq_main_2K

Viewer • Updated May 6 • 2k • 7

updated a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_equal_dist_2K

Viewer • Updated May 6 • 2k • 3

published a dataset 4 months ago

MoeReward/combined_rlhf_dataset_grpo_equal_dist_2K

Viewer • Updated May 6 • 2k • 3

upvoted a paper 4 months ago

Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

Paper • 2504.20406 • Published Apr 29 • 8

upvoted a paper 5 months ago

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

Paper • 2504.07934 • Published Apr 10 • 20

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main

Viewer • Updated Apr 1 • 4k • 8

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_imdb_main

Viewer • Updated Apr 1 • 4k • 8

updated a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main

Viewer • Updated Apr 1 • 4k • 11

published a dataset 5 months ago

MoeReward/combined_rlhf_dataset_grpo_metamath_main

Viewer • Updated Apr 1 • 4k • 11