Q-Learning Solver - Problemă personalizată

Configurează problema Q-Learning

1. Configurare grid

2. Stări speciale

3. Parametri Q-Learning

Formula Q-learning:

Q(s,a) ← Q(s,a) + α[R + γ · maxa' Q(s',a') − Q(s,a)]

4. Observații (experiența agentului)

Adaugă observațiile pe care agentul le-a experimentat:

# Stare (s) Actiune (a) Stare următoare (s') Recompensă(R) Șterge

Rezultat

← Înapoi la meniu principal