A.強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)最主要的區(qū)別在于其收到的反饋是:評估性和指導(dǎo)性
B.監(jiān)督學(xué)習(xí)給出的指導(dǎo)性反饋將會通過監(jiān)督信號告知學(xué)習(xí)者應(yīng)該要做出什么樣的行為而獲取更高的收益
C.強(qiáng)化學(xué)習(xí)的評估性反饋意味著該學(xué)習(xí)系統(tǒng)只會告訴學(xué)習(xí)者當(dāng)前的做法是好還是壞的
D.強(qiáng)化學(xué)習(xí)的目的就是找到一個最佳的策略,從而使得主體發(fā)出一系列的動作后,收到的累積回報(bào)最多
E.策略(Policy)指的是主體的行為,是一個從狀態(tài)集合到動作集合的映像