RL+LLM Wiki

community

AI & ML interests

None defined yet.

Recent Activity

lvwerra new activity about 3 hours ago

rl-llm-wiki/knowledge-base:fix: alignment-and-winrate-evals — cite primary LC-AlpacaEval + Arena-Hard (absorb 2 orphans, fix under-citation)

lvwerra new activity about 4 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2112.00791 - CDPG (Conditional Distributional Policy Gradients)

lvwerra new activity about 4 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2302.08215 - f-DPG (f-divergence minimization for LM alignment)

View all activity

rl-llm-wiki 's models

None public yet