Loading...
无他,唯手熟尔。
在2020年之前,Offline RL的解决思路通常是将待优化策略的动作选择限制在离线数据集的分布/support区域上,从而避免分布外动作的选择,进而规...
《关于2021年若干历史问题的决议》