棒棒生
讓學習變成一種習慣
首頁
分類
關於
歸檔
標籤
Reinforcement Learning
標籤
告別 Reward Model: DPO 如何讓 LLM 偏好對齊變得穩定且高效
01-07
RL的數學原理: 趙世鈺課程濃縮筆記
12-25