Loading...
在2020年之前,Offline RL的解决思路通常是将待优化策略的动作选择限制在离线数据集的分布/support区域上,从而避免分布外动作的选择,进而规...
一个经常被问的问题,为什么Logistic回归要使用Sigmoid函数?
好像经常忘掉,所以随便写写。