Community, Computer vision, Human feedback, Language, Reasoning, Reinforcement learning, Research, Responsible AI, Safety & Alignment, Video generation

Scaling laws for reward model overoptimization

Written by: Elis Wanyama
Posted on: April 19, 2024