欢迎加入爱淘优券联盟
  • 搜淘宝
  • 搜京东
  • 搜拼多多
  • 搜唯品会
微信扫一扫

关注微信公众号
查券更方便


当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
54.5元¥54.5
活动结束时间:01-01 08:00 累计销量 :

手机淘宝扫码领券购买

  • 商品详情