棒棒生
讓學習變成一種習慣
首頁
分類
關於
歸檔
標籤
RLHF (Reinforcement Learning from Human Feedback)
標籤
告別 Reward Model: DPO 如何讓 LLM 偏好對齊變得穩定且高效
01-07