5 13 12

LIU Shih-yang

sliuau

AI & ML interests

None yet

Recent Activity

authored a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

upvoted a paper 2 days ago

TiDAR: Think in Diffusion, Talk in Autoregression

upvoted a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

View all activity

Organizations

authored a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 2 days ago • 122

upvoted 2 papers 2 days ago

TiDAR: Think in Diffusion, Talk in Autoregression

Paper • 2511.08923 • Published Nov 12, 2025 • 121

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 2 days ago • 122

submitted a paper to Daily Papers 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 2 days ago • 122

upvoted a paper 20 days ago

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Paper • 2512.17012 • Published 23 days ago • 42

liked a dataset 27 days ago

allenai/Dolci-RL-Zero-Math-7B

Viewer • Updated 5 days ago • 13.3k • 480 • 7

liked a model 28 days ago

Qwen/Qwen3-4B-Instruct-2507

Text Generation • 4B • Updated Sep 17, 2025 • 2.24M • • 627

liked a model 29 days ago

EssentialAI/rnj-1-instruct

Text Generation • 8B • Updated 18 days ago • 10.9k • • 294

upvoted 2 papers about 1 month ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Paper • 2511.21689 • Published Nov 26, 2025 • 114

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Paper • 2511.18890 • Published Nov 24, 2025 • 33

liked a model about 1 month ago

mistralai/Ministral-3-3B-Reasoning-2512

4B • Updated Dec 4, 2025 • 28.4k • 82

New activity in allenai/Olmo-3-7B-Think about 2 months ago

Endless reasoning loop when serving the model with vLLM

#2 opened about 2 months ago by

sliuau

liked a model about 2 months ago

allenai/Olmo-3-7B-Think

Text Generation • 528k • Updated 5 days ago • 12.9k • • 78

published a dataset 2 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 21

updated a dataset 2 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 21

upvoted a paper 2 months ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16, 2025 • 15

updated 3 models 3 months ago

liked a model 3 months ago

nvidia/DLER-Llama-Nemotron-8B-Merge-Research

8B • Updated Oct 25, 2025 • 91 • 15

LIU Shih-yang

AI & ML interests

Recent Activity

Organizations

sliuau's activity

Endless reasoning loop when serving the model with vLLM