欢迎光临
我们一直在努力

解密prompt系列50. RL用于优化Agent行为路径的一些思路

而Deep Research的效果类似O1的长思考是非常长的行为链,OpenAI也直接表明Deep Research是使用和O1相同的RL训练得到的。但这里比O1更难的就是数据集的设计,训练过程动态行为数据的引入和RL目标的选择。

未经允许不得转载:小健博客 » 解密prompt系列50. RL用于优化Agent行为路径的一些思路
分享到: 更多 (0)

大前端WP主题 更专业 更方便

联系我们联系我们