Models

89

Full-text search

Active filters: math-reasoning

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated 23 days ago • 539

iamseungpil/rsp-grpo-qwen05b-chatml-baseline

Reinforcement Learning • Updated Apr 8

jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated 23 days ago • 641

jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated 23 days ago • 606

jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated 23 days ago • 660

jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated 23 days ago • 598

jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated 23 days ago • 1k

jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated 23 days ago • 904

jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated 23 days ago • 504

jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated 23 days ago • 519

jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated 23 days ago • 537

decompute/Nebula-S-v1-4bit

Text Generation • 4B • Updated 27 days ago • 7

Flexan/decompute-Nebula-S-v1-GGUF

4B • Updated 27 days ago • 988

decompute/Nebula-S-v1-lite

Text Generation • Updated 26 days ago • 307

decompute/Nebula-S-v1-4bit-optimized

Text Generation • Updated 26 days ago • 4

mradermacher/Nebula-S-v1-GGUF

4B • Updated 26 days ago • 922

deepgo/Mobile-Flash-v1.5-1.5B

Text Generation • Updated 21 days ago • 617

jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated 17 days ago • 778

jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated 17 days ago • 991

jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated 17 days ago • 809

jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated 17 days ago • 843

jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated 17 days ago • 794

jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated 17 days ago • 848

jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated 17 days ago • 894

jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated 17 days ago • 963

jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated 17 days ago • 439

jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated 14 days ago • 696

Ailiance-fr/apertus-math-reasoning-lora

Text Generation • Updated 1 day ago • 63

leapeto/Qwen3-4B-AbstractCoT-warmup

Text Generation • Updated 1 day ago