Diskussion:Reinforcement learning from human feedback

Einzelnachweis Bestärkendes Lernen

Letzter Kommentar: vor 10 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Im Gegensatz zum klassischen bestärkenden Lernen^[1] (...)

Welche Aussage wird in dem Satz durch die Quelle belegt? Dass es den Begriff bestärkendes Lernen gibt? Das ergibt sich aus der Existenz des Artikels Bestärkendes Lernen und bedarf in diesem Artikel keines Belegs. --Matthäus Wander 14:51, 28. Aug. 2023 (CEST)Beantworten

Letzter Kommentar: vor 10 Monaten3 Kommentare2 Personen sind an der Diskussion beteiligt

Beschreibungen erfolgten bereits 2011.^[2]

Ist damit gemeint, dass der Begriff 2011 erstmals eingeführt wurde? Oder um welche Beschreibungen geht es? --Matthäus Wander 14:57, 28. Aug. 2023 (CEST)Beantworten

Richtig. Das Thema wurde bereits 2011 behandelt (RLHF). Ob es früher Veröffentlichungen zu diesem Thema gab, weiss ich nicht, habe keine gefunden--BBCLCD (Diskussion) 16:49, 28. Aug. 2023 (CEST)Beantworten

Ich finde, die Aussage ist in der aktuellen Form keine relevante Information für die Einleitung. --Matthäus Wander 20:18, 30. Aug. 2023 (CEST)Beantworten

↑ Christian Meier: Der Computer macht sich selbst schlau. In: NZZ, 20. Oktober 2017. Abgerufen am 12. August 2023 (Paywall)
↑ W. Bradley Knox und Peter Stone: Augmenting Reinforcement Learning with Human Feedback. Texas University / TU Darmstadt, 2011. Abgerufen am 12. August 2023 (englisch)