Diskussion:Q-Lernen
Letzter Kommentar: vor 2 Jahren von Christian Gawron in Abschnitt Kontext zur Wertefunktion Q
Kontext zur Wertefunktion Q
BearbeitenDer Artikel setzt eine ganze Menge Vorwissen voraus und holt den Leser nicht wirklich ab.
- Was ist die Wertefunktion? Der Begriff wird nicht erklärt und es wird auch kein Link angegeben.
- Was ist eigentlich? Die Erklärung fehlt.
- Die Lernrate und der Diskontierungsfaktor werden nicht erklärt.
- Einige Punkte sind ungenau. Zwar wird Q-Lernen in der Regel mit einer Epsilon-Greedy-Strategie kombiniert, aber ist das zwingend? Falls ja, würde mich dazu eine Quelle interessieren.