home
/ blog
/ projects
/ lab
/ reading
/ about

Blog

notes, blogs, and lab logs

updated jun 2026

categories

all (1)
blogs (1)
notes (0)
paper-reviews (0)
lab-logs (0)

tags

# grpo # llms # ml-systems # policy-gradient # reinforcement-learning # rlhf

jun 2026 RL for Language Models, From First Principles From probability basics to REINFORCE, PPO, GRPO, GSPO, and the knobs that make training work

hyderabad · github.com/jeetganatra · email

@jeetganatra1 · rss · ↑ top