Rui Pan's picture

23 2

Rui Pan

research4pan

·

AI & ML interests

None yet

Recent Activity

published a model 4 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-400_2B_tokens_L8_r256

updated a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-400_2B_tokens_L8_r256

published a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-25_2B_tokens_L8_r256

View all activity

Organizations

published a model 4 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-400_2B_tokens_L8_r256

7B • Updated 5 days ago

updated a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-400_2B_tokens_L8_r256

7B • Updated 5 days ago

published a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-25_2B_tokens_L8_r256

7B • Updated 5 days ago

updated a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-25_2B_tokens_L8_r256

7B • Updated 5 days ago

published a model 5 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-50_2B_tokens_L8_r256

7B • Updated 7 days ago • 2

updated a model 7 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-50_2B_tokens_L8_r256

7B • Updated 7 days ago • 2

published a model 8 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-100_2B_tokens_L8_r256

7B • Updated 8 days ago • 3

updated a model 8 days ago

OptimParty/outputs_muon_gum_7B_0.001_interval-100_2B_tokens_L8_r256

7B • Updated 8 days ago • 3

published a model 17 days ago

OptimParty/outputs_muon_gum_7B_0.001_2B_tokens_L8_r256

7B • Updated Dec 27, 2025 • 3

upvoted a paper 24 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 25 days ago • 214

updated a model about 1 month ago

OptimParty/outputs_muon_gum_7B_0.001_2B_tokens_L8_r256

7B • Updated Dec 27, 2025 • 3

upvoted 3 papers 2 months ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Paper • 2511.21689 • Published Nov 26, 2025 • 121

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Paper • 2511.18890 • Published Nov 24, 2025 • 34

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Paper • 2511.16668 • Published Nov 20, 2025 • 55

upvoted a paper 3 months ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16, 2025 • 16

authored a paper 4 months ago

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

Paper • 2510.11769 • Published Oct 13, 2025 • 26

upvoted 3 papers 4 months ago

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

Paper • 2510.12693 • Published Oct 14, 2025 • 28

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

Paper • 2510.11769 • Published Oct 13, 2025 • 26

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

Paper • 2509.22576 • Published Sep 26, 2025 • 135

upvoted a paper 5 months ago

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Paper • 2509.03403 • Published Sep 3, 2025 • 23