prometheus-eval

university

AI & ML interests

None defined yet.

Recent Activity

Seongyun authored a paper 20 days ago

Efficient Long Context Language Model Retrieval with Compression

Seongyun authored a paper 20 days ago

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Seongyun submitted a paper 20 days ago

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

View all activity

Seongyun

authored 2 papers 20 days ago

Efficient Long Context Language Model Retrieval with Compression

Paper • 2412.18232 • Published Dec 24, 2024 • 1

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Paper • 2601.07226 • Published 21 days ago • 32

Seongyun

submitted a paper to Daily Papers 20 days ago

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Paper • 2601.07226 • Published 21 days ago • 32

seungone

authored 5 papers about 1 month ago

Measuring Sycophancy of Language Models in Multi-turn Dialogues

Paper • 2505.23840 • Published May 28, 2025 • 2

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

Paper • 2507.00432 • Published Jul 1, 2025 • 79

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

Paper • 2508.13141 • Published Aug 18, 2025

VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding

Paper • 2509.21451 • Published Sep 25, 2025

SPICE: Self-Play In Corpus Environments Improves Reasoning

Paper • 2510.24684 • Published Oct 28, 2025 • 18

juyoungml

updated a dataset 2 months ago

prometheus-eval/nature_papers_1202

Viewer • Updated Dec 2, 2025 • 31.6k • 8 • 1

juyoungml

published a dataset 2 months ago

prometheus-eval/nature_papers_1202

Viewer • Updated Dec 2, 2025 • 31.6k • 8 • 1

juyoungml

updated a dataset 2 months ago

prometheus-eval/nature_crawled_papers_1202

Viewer • Updated Dec 2, 2025 • 2

juyoungml

published a dataset 2 months ago

prometheus-eval/nature_crawled_papers_1202

Viewer • Updated Dec 2, 2025 • 2

seungone

authored a paper 2 months ago

RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Paper • 2511.22173 • Published Nov 27, 2025 • 15

DKYoon

updated 2 datasets 2 months ago

prometheus-eval/nature_papers_1125

Updated Nov 25, 2025

prometheus-eval/nature_crawled_papers_1125

Viewer • Updated Nov 25, 2025 • 6.2k • 23

DKYoon

published a dataset 2 months ago

prometheus-eval/nature_crawled_papers_1125

Viewer • Updated Nov 25, 2025 • 6.2k • 23

juyoungml

updated a dataset 2 months ago

prometheus-eval/nature_papers_1125

Updated Nov 25, 2025

juyoungml

published a dataset 2 months ago

prometheus-eval/nature_papers_1125

Updated Nov 25, 2025

juyoungml

updated a dataset 2 months ago

prometheus-eval/figure_workspace

Preview • Updated Nov 24, 2025 • 27.2k

juyoungml

published a dataset 2 months ago

prometheus-eval/figure_workspace

Preview • Updated Nov 24, 2025 • 27.2k