Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

My reading list!

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published Dec 19, 2024 • 85
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343
Progressive Multimodal Reasoning via Active Retrieval

Paper • 2412.14835 • Published Dec 19, 2024 • 73
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

Paper • 2501.09732 • Published 11 days ago • 65

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343

test-collection

never mind, just for testing

deepseek-ai/DeepSeek-V3

Text Generation • Updated 3 days ago • 278k • 2.41k
HuggingFaceTB/finemath

Viewer • Updated Dec 23, 2024 • 48.3M • 32.3k • 269
Running on CPU Upgrade

7.02k

👕

Kolors Virtual Try-On
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published 13 days ago • 268
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Paper • 2501.04519 • Published 19 days ago • 249
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 125
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published Dec 13, 2024 • 139

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 125
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343
Are Your LLMs Capable of Stable Reasoning?

Paper • 2412.13147 • Published Dec 17, 2024 • 91
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 89

interest_need_read

感兴趣热门论文集合

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published Dec 9, 2024 • 79
Maya: An Instruction Finetuned Multilingual Multimodal Model

Paper • 2412.07112 • Published Dec 10, 2024 • 27
OpenAI o1 System Card

Paper • 2412.16720 • Published Dec 21, 2024 • 31
Diving into Self-Evolving Training for Multimodal Reasoning

Paper • 2412.17451 • Published Dec 23, 2024 • 42

reasoning-agentic

OpenAI o1 System Card

Paper • 2412.16720 • Published Dec 21, 2024 • 31
LearnLM: Improving Gemini for Learning

Paper • 2412.16429 • Published Dec 21, 2024 • 22
NILE: Internal Consistency Alignment in Large Language Models

Paper • 2412.16686 • Published Dec 21, 2024 • 8
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38

royalmatrimonial

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 608
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 255
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 258

december papers

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published Dec 19, 2024 • 85
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Paper • 2412.17256 • Published Dec 23, 2024 • 45
OpenAI o1 System Card

Paper • 2412.16720 • Published Dec 21, 2024 • 31
Revisiting In-Context Learning with Long Context Language Models

Paper • 2412.16926 • Published Dec 22, 2024 • 29

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 343

Previous
1
2
3
...
5
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs