Logo lv.boatexistence.com

Vai vērtību iterācija vienmēr saplūst?

Satura rādītājs:

Vai vērtību iterācija vienmēr saplūst?
Vai vērtību iterācija vienmēr saplūst?

Video: Vai vērtību iterācija vienmēr saplūst?

Video: Vai vērtību iterācija vienmēr saplūst?
Video: Policy and Value Iteration 2024, Maijs
Anonim

Tāpat kā politikas novērtēšanai, vērtību iterācijai formāli nepieciešams bezgalīgs skaits iterāciju, lai precīzi konverģētu uz. Praksē mēs apstājamies, kad vērtības funkcija mainās tikai par nelielu daudzumu. … Visi šie algoritmi saplūst ar optimālu politiku ierobežotiem MDP ar diskontu.

Vai vērtību iterācija ir determinēta?

Tomēr vērtību iterācija ir tiešs deterministiskā gadījuma vispārinājums. Tas var būt noturīgāks dinamiskās problēmās, lielākai nenoteiktībai vai spēcīgai nejaušībai. JA politika netiek mainīta, atgrieziet to kā optimālu polisi, CITI dodieties uz 1.

Vai vērtību iterācija ir optimāla?

3 Vērtību iterācija. Vērtību iterācija ir metode optimālas MDP politikas un tās vērtības aprēķināšanaiV masīva saglabāšana rada mazāku krātuves apjomu, taču ir grūtāk noteikt optimālo darbību, un ir nepieciešama vēl viena iterācija, lai noteiktu, kura darbība rada vislielāko vērtību. …

Kāda ir atšķirība starp politikas iterāciju un vērtību iterāciju?

Politikas iterācijā mēs sākam ar fiksētu politiku. Un otrādi, vērtību iterācijā mēs sākam ar vērtības funkcijas atlasi. Pēc tam abos algoritmos mēs iteratīvi uzlabojam, līdz sasniedzam konverģenci.

Kas ir iterācijas vērtība?

Būtībā Vērtību iterācijas algoritms aprēķina optimālās stāvokļa vērtības funkciju, iteratīvi uzlabojot V (s) novērtējumu. Algoritms inicializē V(-us) uz patvaļīgām nejaušām vērtībām. Tas atkārtoti atjaunina Q(s), a) un V(s) vērtības, līdz tās saplūst.

Ieteicams: