chain-of-thought - a zengxiangji Collection

zengxiangji 's Collections

context-engineering

reinforcement-learning

representation-learning

chain-of-thought

inference-optimization

chain-of-thought

updated Jul 23, 2025

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Paper • 2505.24726 • Published May 30, 2025 • 277
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Paper • 2506.23918 • Published Jun 30, 2025 • 90