Diskussion:Gradientenverfahren

Einleitung dieser Diskussionsseite anzeigen

Der Begriff "Neuroinformatik" hat hier bisher meiner Meinung nach nichts zu tun. Der unnötige Satz darüber gleich zu Beginn des Artikels wurde dehalb entfernt.

Cauchy-Prinziep

Letzter Kommentar: vor 17 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Was ist das? -- Christian1985 00:14, 13. Sep. 2007 (CEST)Beantworten

Optimierung nicht quadratischer Funktionale

Letzter Kommentar: vor 17 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Habe die Seite komplett überarbeitet. Fals jemand eine Ahnung hat, ob und wie man Optimierung nicht quadratischer Funktionale mit dem Gradientenverfahren umsetzen kann, so möge er bitte helfen. -- Christian1985 01:45, 13. Sep. 2007 (CEST)Beantworten

Das Gradientenverfahren ist im Prinzip ein sehr allgemeines Verfahren für Oprimierungsprobleme. Ich hab das jetzt mal "Oma-tauglich" in die Enleitung vorgezogen und die enprechende Passage aus "Motivation" rausgenommen und außerdem "Motivation" in "Beschreibung" umbenannt. Nachzudenken wäre meiner Meinung nach über eine Verschiebung von Gradientenabstiegsverfahren zu Gradientenverfahren, ich glaube, dieser Begriff ist (zumindest unter Mathematikern) gebräuchlicher. -- Jesi 05:36, 13. Sep. 2007 (CEST)Beantworten

Ja ich kenne das Verfahren auch nur unter Gradientenverfahren. --Christian1985 11:06, 13. Sep. 2007 (CEST)Beantworten

Bei uns wurde es auch unter dem Namen "Gradientenverfahren" eingeführt. --Tommy137 00:10, 13. Okt. 2007 (CEST)Beantworten

Abschnitt kommt doppelt vor

der zweite absatz wiederholt sich ganz unten wieder

Energiefunktional?

Letzter Kommentar: vor 16 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

das gradientenverfahren ist doch ein recht allgemeines lokales optimierungsverfahren - was soll der ausdruck energiefunktional? wieso nicht einfach zielfunktion? und was soll das ganze mit der matrix A? ich denke, man sollte sich da einfach an dem englischen artikel orientieren. der ist deutlich allgemeiner gehalten.

vielleicht ist der artikel auch einfach falsch benannt und sollte irgendwas mit optimierung von funktional heißen. allgemeine gradientenverfahren beschreibt er jedenfalls so nicht. --Darmissimo 13:59, 1. Aug. 2008 (CEST)Beantworten

Gradient (der die Richtung des steilsten Abstiegs...)

Der Gradient gibt die Richtung des steilsten ANSTIEGES an. Habe den Artikel geändert in "Von diesem schreitet man in Richtung des negativen Gradienten (der die Richtung des steilsten Abstiegs von diesem Näherungswert angibt) fort,..." (nicht signierter Beitrag von AnoreA (Diskussion | Beiträge) 10:50, 16. Sep. 2008)

Illustration

Letzter Kommentar: vor 12 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Ist die Illustration nicht falsch? Müste einem Weg nicht gefolgt werden, bis man eine Höhenlinie berührt, aber nicht schneidet ? (nicht signierter Beitrag von 62.220.2.82 (Diskussion) 11:30, 31. Okt. 2011 (CET)) Beantworten

Nein, Höhenlinien könnte man ja unendlich viele einzeichnen und dann käme man gar nicht vom Fleck. --P. Birken 19:46, 31. Okt. 2011 (CET)Beantworten

Sehe ich auch so, die Illustration ist falsch. Zumindest beschreibt es nicht das Gradientenverfahren. Wenn man in jedem Schritt das Minimum entlang der Abstiegsrichtung exakt bestimmen kann, dann endet man nach einem Schritt an einem Punkt der eine Höhenlinie "berührt", d.h. die nächste Suchrichtung ist senkrecht zur vorigen. Beim nächsten Schritt geht es dann also senkrecht weiter. Dabei entsteht der für das Gradientenverfahren typische "Zickzack-Kurs". Natürlich kann man in der Praxis die Minimierung entlang der Suchrichtung nur in Spezialfällen exakt durchführen (z.B. bei quadratischen Funktionen).

Edit: In der deutschen Version wird die Schrittweite durch $f(x^{(j+1)})={\underset {\alpha >0}{\rm {min}}}\ {f(x^{(j)}-\alpha \nabla f(x^{(j)}))}$ festgelegt. Damit entsteht der Zickzack-Kurs und das Bild passt nicht dazu. Ich habe mir gerade auch die englische Version angesehen. Dort wird die Schrittweite nur dadurch festgelegt, dass $f(x^{(j+1)})<f(x^{(j)})$ gelten muss. Dann passt das Bild. --Mlehn 22:38, 23. Jan. 2012 (CET)Beantworten

Ich habe den Abschnitt gelöscht, der behauptet die Illustration beschreibe das geschilderte Verfahren. Vielleicht könnte jemand mit der Macht dazu diese Löschung auch autorisieren. -- Mlehn 18:16, 29. Jan. 2012 (CET)Beantworten

Konvergenzgeschwindigkeit

Letzter Kommentar: vor 12 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

Im Artikel steht derzeit: "Das Verfahren konvergiert oftmals sehr langsam, da es sich dem Optimum entweder mit einem starken Zick-Zack-Kurs nähert oder der Betrag des Gradienten in der Nähe des Optimums sehr klein ist, wodurch die Länge der Iterationsschritte dann ebenfalls sehr klein ist."

Besser: Konvergenzgüte (linear/quadratisch?) angeben!
Das "entweder/oder" ist wohl nicht ernst gemeint, oder? Beleg?
Zick-Zack-Kurs: Beleg?
Eigentlich ist das ja genau das gewünschte Verhalten: Wenn der Gradient klein ist, dann ist man dem Ziel schon sehr nahe, also sollte man kleine Schritte machen.

Grüße --Boobarkee 22:30, 5. Feb. 2012 (CET)Beantworten

Man kann beim Gradientenverfahren keine Konvergenzgeschwindigkeit angegeben. Nur in Spezialfällen wie bei Quadratischen Funktionen hat man Fehlerschätzer. Weiss man wie weit man im Startpunkt maximal von der Minimalstelle entfernt ist, dann kann man damit abschätzen: wie viele Schritte sind notwenig um bis auf eine gewünschte Toleranz ans Minimum zu gelangen. Der Fehlerschätzer ist zwar angegeben aber es wird nicht erklärt was das x bedeutet und was für einen Sinn er hat, z.B. etwas in der Art: Kennt man die Kondition $\mathrm {K} (A)$ und kennt man den den maximalen Fehler im Startpunkt, gelte etwa $\|x-x_{0}\|<C$ wobei $x$ die gesuchte Minimalstelle ist, dann kann durch die Ungleichung ... berechnet werden wie viele Schritte notwendig sind ...
Das "entweder/oder" sollte natürlich ein "oder" sein. Zick-Zack-Kurs und kleine Schrittweiten können gleichzeitig auftreten wie z.B. bei der Rosenbrock Funktion
Der Zick-Zack-Kurs tritt dann zwangsläufig auf, wenn man

im k-ten Schritt im Punkt $x_{k}$ den Gradienten $\nabla f(x_{k})$ berechnet,
dann $h(\alpha ):=f(x_{k}-\alpha \nabla f(x_{k}))$ minimiert also eine $\alpha _{0}$ bestimmt mit $h(\alpha _{0})=\min _{\alpha }h(\alpha )$ ,
schliesslich mit $x_{k+1}:=x_{k}-\alpha _{0}\nabla f(x_{k})$ den nächsten Iterationspunkt definiert.
Da gilt also $h'(\alpha )=-\nabla f(x_{k}-\alpha \nabla f(x_{k}))^{T}\nabla f(x_{k})$ . Da $\alpha _{0}$ die Minimalstelle ist muss notwendigerweise $h'(\alpha _{0})=0$ gelten. Das heisst $0=h'(\alpha _{0})=-\nabla f(x_{k}-\alpha _{0}\nabla f(x_{k}))^{T}\nabla f(x_{k})=-\nabla f(x_{k+1})^{T}\nabla f(x_{k})$ . Letzteres besagt, dass die Suchrichtung im nächsten Schritt orthogonal zur Suchrichtung des letzten Schrittes steht. Das zeigt auch, wieso die Illustration das beschriebene Verfahren nicht beschreibt.

Naja, "klein" ist halt ein relativer Begriff und aus der Länge des Gradienten kann man im Allgemeinen nicht direkt den Abstand zum Minimum ablesen oder schätzen. Wenn man als trivial Beispiel $f(x)={\frac {x^{1000}}{1000}}$ betrachtet, dann ist die Ableitung zwischen -1000 und 1000 ja auch überall "klein". Ein schönes mehrdimensionales Beispiel ist die Rosenbrock Funktion. Die Gradienten sind entlang der bananenförmigen Talkurve überall sehr klein sind. Das Verfahren eiert in diesem Tal in Minischritten und im Zick-Zack-Kurs zum Minimum.-- Mlehn 00:30, 8. Feb. 2012 (CET)Beantworten

Danke für die umfassende Antwort. Den Zick-Zack-Kurs werde ich mir die nächsten Tage zu Gemüte führen :-) --Boobarkee 00:45, 8. Feb. 2012 (CET)Beantworten

Abschnitt hinzufügen