reasoning training via RLAIF - a jerwitz Collection

jerwitz 's Collections

Agent training frameworks

reasoning training via RLAIF

Reasoning techniques (at inference)

Retrieval-intelligence

reasoning training via RLAIF

updated Apr 30, 2025

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Paper • 2504.20157 • Published Apr 28, 2025 • 37