madehua's picture

1 3 8

madehua

mdh98

·

AI & ML interests

None yet

Recent Activity

liked a dataset 11 days ago

m-a-p/SuperGPQA

upvoted a paper 11 days ago

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

upvoted a paper 13 days ago

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

View all activity

Organizations

mdh98's activity

upvoted a paper 11 days ago

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Paper • 2502.19361 • Published 11 days ago • 26

upvoted a paper 13 days ago

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Paper • 2502.16614 • Published 14 days ago • 24

upvoted a paper 17 days ago

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Paper • 2502.14739 • Published 17 days ago • 94