Diskussion:Gradientenverfahren
Der Begriff "Neuroinformatik" hat hier bisher meiner Meinung nach nichts zu tun. Der unnötige Satz darüber gleich zu Beginn des Artikels wurde dehalb entfernt.
Cauchy-Prinziep
BearbeitenWas ist das? -- Christian1985 00:14, 13. Sep. 2007 (CEST)
Optimierung nicht quadratischer Funktionale
BearbeitenHabe die Seite komplett überarbeitet. Fals jemand eine Ahnung hat, ob und wie man Optimierung nicht quadratischer Funktionale mit dem Gradientenverfahren umsetzen kann, so möge er bitte helfen. -- Christian1985 01:45, 13. Sep. 2007 (CEST)
- Das Gradientenverfahren ist im Prinzip ein sehr allgemeines Verfahren für Oprimierungsprobleme. Ich hab das jetzt mal "Oma-tauglich" in die Enleitung vorgezogen und die enprechende Passage aus "Motivation" rausgenommen und außerdem "Motivation" in "Beschreibung" umbenannt. Nachzudenken wäre meiner Meinung nach über eine Verschiebung von Gradientenabstiegsverfahren zu Gradientenverfahren, ich glaube, dieser Begriff ist (zumindest unter Mathematikern) gebräuchlicher. -- Jesi 05:36, 13. Sep. 2007 (CEST)
- Ja ich kenne das Verfahren auch nur unter Gradientenverfahren. --Christian1985 11:06, 13. Sep. 2007 (CEST)
- Bei uns wurde es auch unter dem Namen "Gradientenverfahren" eingeführt. --Tommy137 00:10, 13. Okt. 2007 (CEST)
- Ja ich kenne das Verfahren auch nur unter Gradientenverfahren. --Christian1985 11:06, 13. Sep. 2007 (CEST)
Abschnitt kommt doppelt vor
Bearbeitender zweite absatz wiederholt sich ganz unten wieder
Energiefunktional?
Bearbeitendas gradientenverfahren ist doch ein recht allgemeines lokales optimierungsverfahren - was soll der ausdruck energiefunktional? wieso nicht einfach zielfunktion? und was soll das ganze mit der matrix A? ich denke, man sollte sich da einfach an dem englischen artikel orientieren. der ist deutlich allgemeiner gehalten.
vielleicht ist der artikel auch einfach falsch benannt und sollte irgendwas mit optimierung von funktional heißen. allgemeine gradientenverfahren beschreibt er jedenfalls so nicht. --Darmissimo 13:59, 1. Aug. 2008 (CEST)
Gradient (der die Richtung des steilsten Abstiegs...)
BearbeitenDer Gradient gibt die Richtung des steilsten ANSTIEGES an. Habe den Artikel geändert in "Von diesem schreitet man in Richtung des negativen Gradienten (der die Richtung des steilsten Abstiegs von diesem Näherungswert angibt) fort,..." (nicht signierter Beitrag von AnoreA (Diskussion | Beiträge) 10:50, 16. Sep. 2008)
Illustration
BearbeitenIst die Illustration nicht falsch? Müste einem Weg nicht gefolgt werden, bis man eine Höhenlinie berührt, aber nicht schneidet ? (nicht signierter Beitrag von 62.220.2.82 (Diskussion) 11:30, 31. Okt. 2011 (CET))
- Nein, Höhenlinien könnte man ja unendlich viele einzeichnen und dann käme man gar nicht vom Fleck. --P. Birken 19:46, 31. Okt. 2011 (CET)
Sehe ich auch so, die Illustration ist falsch. Zumindest beschreibt es nicht das Gradientenverfahren. Wenn man in jedem Schritt das Minimum entlang der Abstiegsrichtung exakt bestimmen kann, dann endet man nach einem Schritt an einem Punkt der eine Höhenlinie "berührt", d.h. die nächste Suchrichtung ist senkrecht zur vorigen. Beim nächsten Schritt geht es dann also senkrecht weiter. Dabei entsteht der für das Gradientenverfahren typische "Zickzack-Kurs". Natürlich kann man in der Praxis die Minimierung entlang der Suchrichtung nur in Spezialfällen exakt durchführen (z.B. bei quadratischen Funktionen).
Edit: In der deutschen Version wird die Schrittweite durch festgelegt. Damit entsteht der Zickzack-Kurs und das Bild passt nicht dazu. Ich habe mir gerade auch die englische Version angesehen. Dort wird die Schrittweite nur dadurch festgelegt, dass gelten muss. Dann passt das Bild. --Mlehn 22:38, 23. Jan. 2012 (CET)
- Ich habe den Abschnitt gelöscht, der behauptet die Illustration beschreibe das geschilderte Verfahren. Vielleicht könnte jemand mit der Macht dazu diese Löschung auch autorisieren. -- Mlehn 18:16, 29. Jan. 2012 (CET)
Konvergenzgeschwindigkeit
BearbeitenIm Artikel steht derzeit: "Das Verfahren konvergiert oftmals sehr langsam, da es sich dem Optimum entweder mit einem starken Zick-Zack-Kurs nähert oder der Betrag des Gradienten in der Nähe des Optimums sehr klein ist, wodurch die Länge der Iterationsschritte dann ebenfalls sehr klein ist."
- Besser: Konvergenzgüte (linear/quadratisch?) angeben!
- Das "entweder/oder" ist wohl nicht ernst gemeint, oder? Beleg?
- Zick-Zack-Kurs: Beleg?
- Eigentlich ist das ja genau das gewünschte Verhalten: Wenn der Gradient klein ist, dann ist man dem Ziel schon sehr nahe, also sollte man kleine Schritte machen.
Grüße --Boobarkee 22:30, 5. Feb. 2012 (CET)
- Man kann beim Gradientenverfahren keine Konvergenzgeschwindigkeit angegeben. Nur in Spezialfällen wie bei Quadratischen Funktionen hat man Fehlerschätzer. Weiss man wie weit man im Startpunkt maximal von der Minimalstelle entfernt ist, dann kann man damit abschätzen: wie viele Schritte sind notwenig um bis auf eine gewünschte Toleranz ans Minimum zu gelangen. Der Fehlerschätzer ist zwar angegeben aber es wird nicht erklärt was das x bedeutet und was für einen Sinn er hat, z.B. etwas in der Art: Kennt man die Kondition und kennt man den den maximalen Fehler im Startpunkt, gelte etwa wobei die gesuchte Minimalstelle ist, dann kann durch die Ungleichung ... berechnet werden wie viele Schritte notwendig sind ...
- Das "entweder/oder" sollte natürlich ein "oder" sein. Zick-Zack-Kurs und kleine Schrittweiten können gleichzeitig auftreten wie z.B. bei der Rosenbrock Funktion
- Der Zick-Zack-Kurs tritt dann zwangsläufig auf, wenn man
- im k-ten Schritt im Punkt den Gradienten berechnet,
- dann minimiert also eine bestimmt mit ,
- schliesslich mit den nächsten Iterationspunkt definiert.
- Da gilt also . Da die Minimalstelle ist muss notwendigerweise gelten. Das heisst . Letzteres besagt, dass die Suchrichtung im nächsten Schritt orthogonal zur Suchrichtung des letzten Schrittes steht. Das zeigt auch, wieso die Illustration das beschriebene Verfahren nicht beschreibt.
- Naja, "klein" ist halt ein relativer Begriff und aus der Länge des Gradienten kann man im Allgemeinen nicht direkt den Abstand zum Minimum ablesen oder schätzen. Wenn man als trivial Beispiel betrachtet, dann ist die Ableitung zwischen -1000 und 1000 ja auch überall "klein". Ein schönes mehrdimensionales Beispiel ist die Rosenbrock Funktion. Die Gradienten sind entlang der bananenförmigen Talkurve überall sehr klein sind. Das Verfahren eiert in diesem Tal in Minischritten und im Zick-Zack-Kurs zum Minimum.-- Mlehn 00:30, 8. Feb. 2012 (CET)
- Danke für die umfassende Antwort. Den Zick-Zack-Kurs werde ich mir die nächsten Tage zu Gemüte führen :-) --Boobarkee 00:45, 8. Feb. 2012 (CET)