策略迭代法,策略迭代法,celüe diedaifa,迭代法,策略,diedaifa,cel,[拼音]:celüe diedaifa[外文]:policy iteration method动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略...