Diskussion:Hierarchische Clusteranalyse

Hallo Sigbert, Der Abschnitt Prinzip/Funktionsweise aus dem ursprünglichen Artikel gehört m.E. auch zu dem hierarchischen Verfahren. Insbesondere "Unterschiedliche Proximitätsmaße" etc. enthält vorwiegend Abstandsmaße zwischen Clustern, wie man es bei diesem Verfahren braucht. --87.174.120.8 09:32, 21. Jan. 2011 (CET)Beantworten

Ich wollte dazu nur was kurzes Schreiben und dann verlinken auf Ähnlichkeitsanalyse, da sind die Maße alle beschrieben. --Sigbert 20:38, 21. Jan. 2011 (CET)Beantworten

Noch besser. Danke. --Chire 13:19, 22. Jan. 2011 (CET)Beantworten

Ward

Letzter Kommentar: vor 13 Jahren2 Kommentare1 Person ist an der Diskussion beteiligt

Das Verfahren Ward wird in der Tabelle aufgeführt aber nicht erläutert. Könnte das bitte jemand nachholen, ich kenne dieses Verfahren (noch) nicht.--FerdiBf 09:50, 4. Sep. 2011 (CEST)Beantworten

Hat sich erledigt. ich habe einfach auf die weiter unten angegebene Distanzfunktion verwiesen.--FerdiBf 11:32, 4. Sep. 2011 (CEST)Beantworten

Schwertlilinenbeispiel

Letzter Kommentar: vor 13 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Beim ganz unten angegebenen Schwertlilinenbeispiel wird auf die Dendrogramme verwiesen. Die sieht man da aber gar nicht. Gibt es diese irgendwo? Dann sollte man sie hinzufügen. Das hier eingebundene Bild sollte weiter erläutert werden, es hat ohne weitere Erläuterung nur einen losen Zusammenhang mit dem Text. --FerdiBf 11:32, 4. Sep. 2011 (CEST)Beantworten

Das Bild findet sich schon in Silhouettenkoeffizient, wurde nur offenbar hier noch nicht eingearbeitet. --Chire 13:39, 5. Sep. 2011 (CEST)Beantworten

Literatur

Letzter Kommentar: vor 12 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Ich finde, bei den Literaturangaben sollen überall ISBNs oder DOIs zu finden sein. Gibt es dazu nicht vielleicht sogar eine Regel? --Moritz schlarb (Diskussion) 14:26, 3. Sep. 2012 (CEST)Beantworten

Du bist hiermit herzlich eingeladen, die dafür notwendige Recherche zu unternehmen. In diesem Zuge kannst du die Literaturliste auch gerne auf die Vorlage:Literatur umstellen, die auch noch nicht verwendet wird. Da aber bisher noch niemand den Artikel dahingehend verbessert hat, müssen wir so lange mit den Literaturangaben in ihrer aktuellen Form vorlieb nehmen. --Chire (Diskussion) 18:24, 3. Sep. 2012 (CEST)Beantworten

Wortwahl

Letzter Kommentar: vor 12 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

zueinander eine geringere Distanz (oder umgekehrt: höhere Ähnlichkeit)

ich finde das Wort "umgekehrt" ist hier eher irritierend, denn geringere Distanz ist in diesem Zusammenhang eine höhere Ähnlichkeit. "oder anders" oder so wäre hier angebrachter. (nicht signierter Beitrag von AlexDow13 (Diskussion | Beiträge) 23:19, 1. Feb. 2013 (CET))Beantworten

die divisiven Clusterverfahren

Letzter Kommentar: vor 12 Jahren5 Kommentare2 Personen sind an der Diskussion beteiligt

Textauschnitt:

die divisiven Clusterverfahren, in denen zunächst alle Objekte als zu einem Cluster gehörig betrachtet und dann schrittweise die bereits gebildeten Cluster in immer kleinere Cluster aufgeteilt werden, bis jeder Cluster nur noch aus einem Objekt besteht. (Auch bezeichnet als „Top-down-Verfahren“)

Ziemlich fragwürdige Beschreibung der divisiven Clusterverfahren. Nach so einem Clustering wäre man am Ende wieder da, wo man angefangen hat, nämlich bei einzelnen Objekten. (nicht signierter Beitrag von AlexDow13 (Diskussion | Beiträge) 23:19, 1. Feb. 2013 (CET))Beantworten

Lies es nochmal. Am Anfang: alle Objekte in (insgesamt!) einem Cluster. Am Ende: jedes Objekt in seinem eigenen Cluster. Kann man sicher besser formulieren, aber ganz so "fragwürdig" ist es IMHO nicht. --Chire (Diskussion) 13:42, 2. Feb. 2013 (CET)Beantworten

Ich habe es nochmal gelesen(mehrmals sogar). Das Ergebnis bleibt dasselbe. "bis jeder Cluster nur noch aus einem Objekt besteht.", heißt für mich ganz eindeutig, dass es am Ende genauso viele Cluster wie Objekte gibt. So ein Clusterverfahren bringt keinen Informationsgewinn mit sich und wäre sinnlos, denn das Ergebnis wäre immer gleich und man hätte sich das Clustering ersparen können. Vielleicht übersehe ich auch etwas. In so einem Fall bitte ich um den Hinweis auf den Fehler in meinem Gedankengang. (nicht signierter Beitrag von AlexDow13 (Diskussion | Beiträge) 00:09, 3. Feb. 2013 (CET))Beantworten

Das Ergebnis sind nicht die Blätter, sondern die Hierarchie. Agglomerativ hast du am Ende genau einen Cluster, der alle Daten enthält. Das ist genauso wertlos. Außer eben, du analysierst die Clusterhierarchie. Deswegen heißen sie auch hierarchische Clusteranalyse. Der Fehler in deinem Gedankengang ist, dass du eine eindeutige, strike Partitionierung suchst, nicht den Prozess und die Hierarchie als Ergebnis wahrnimmst. --Chire (Diskussion) 13:43, 3. Feb. 2013 (CET)Beantworten

Ok, danke. Jetzt habe ich verstanden was Du meinst. Ein Vermerk, dass man damit noch nicht am Ende des Clusteringsverfahrens angelangt ist, sondern nur die Möglichkeiten der Aufteilung der Objekte zu den Clustern als Ergebnis bekommt, wäre vielleicht für einige Leser hilfreich.

Oder Du könntest "die divisiven Clusterverfahren" durch "die divisiven Clusteranalyseverfahren" ersetzten, damit es zu keinen Missverständnissen kommt.

--AlexDow13 (Diskussion) 15:25, 3. Feb. 2013 (CET)Beantworten

Agglomerative Berechnung

Letzter Kommentar: vor 11 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

In der aktuellen Version ist die Formel für die Agglomerative Berechnung des Abstandes $D(A\cup B,C)$ inkorrekt. Scheinbar wurden irgendwann in der Bearbeitungshistorie die Konstanten für Average Linkage und Average Group Linkage vertauscht/durcheinander gebracht.

Dass die Formel für Average Group Linkage eigentlich für Average Linkage stimmt, erkennt man durch einfaches Einsetzen der expliziten Formel. Ich habe das dementsprechend mal geändert.

Zudem lässt sich die Berechnung von Single Linkage durch ein Minimum und von Complete Linkage durch ein Maximum zwischen den Abständen ersetzen/vereinfachen, aber da die Formel hier nicht falsch ist, lasse ich das drin stehen --2A00:1398:9:FB00:935:1EF9:4684:5EF2 15:51, 27. Mai 2013 (CEST)Beantworten

Jetzt fehlt in der Tabelle aber einer der beiden Einträge. Gut wäre es, das mit der Literatur zu vergleichen. Eines der beiden - die Benennung scheint auch in der Literatur nicht ganz einheitlich zu sein - hat offenbar 0.5, 0.5, 0, 0 als Parameter. Weighted Group Average evtl.? Single-Linkage und Complete-Linkage kann man in der Tat als min bzw. max formulieren, aber dann passen sie nicht mehr in das einheitliche Schema mit den vier koeffizienten. --Chire (Diskussion) 23:42, 27. Mai 2013 (CEST)Beantworten

Ich habe daher deine Änderung zurückgesetzt. Statt dessen habe ich in der Tabelle die Namen und die Reihenfolge mit dem Buch "Data Clustering", von Gan, Ma, Wu synchronisiert. Es wäre gut, zu prüfen was von den Beispielen oben jetzt genau welches ist, und auch dort die entsprechenden Namen zu verwenden. "Average linkage" ist offensichtlich mehrdeutig, das ist kein guter Name. UPGMA/WPGMA sollten einheitlicher sein. --Chire (Diskussion) 10:11, 28. Mai 2013 (CEST)Beantworten

In der englischen Version wird eine Dokumentation von SAS verlinkt, darin wird die genannte Methode als "McQuitty’s Similarity Analysis" bezeichnet. Ich werde mich demnächst mal um eine einheitlichere Benennung kümmern. --Upsj (Diskussion) 21:27, 28. Mai 2013 (CEST)Beantworten

In der Tabelle mit den nebenstehenden Skizzen sind UPGMA und WPGMA noch nicht korrekt. Das, was jetzt mit 'Average-Linkage, WPGMA' bezeichnet ist sollte 'Average-Linkage, UPGMA' sein (siehe z.B. https://en.wikipedia.org/wiki/UPGMA und 'Data Clustering' Buch von Gan, Ma & Wu).
Das, was jetzt mit 'Average-Group-Linkage, McQuitty, UPGMA' bezeichnet ist sollte 'McQuitty, WPGMA' sein. Hier wird aber nicht die mittlere Distanz aller Elementpaare aus der Vereinigung von A und B berechnet (jenes wäre die weniger gängige Methode MNDIS, siehe z.B. https://stats.stackexchange.com/questions/195446/choosing-the-right-linkage-method-for-hierarchical-clustering oder Podani, J. (1989) New combinatorial clustering methods. Vegetatio, 81: 61–77.). Stattdessen sollte hier etwa stehen: Durchschnittlicher Abstand zwischen Cluster A und den beiden Subclustern von B
$D_{\text{WPGMA}}(A,B_{1}\cup B_{2}):={\tfrac {1}{2}}D(A,B_{1})+{\tfrac {1}{2}}D(A,B_{2})$
(siehe z.B. https://en.wikipedia.org/wiki/WPGMA und Buch von Gan, Ma & Wu) Dann passt es auch wieder mit der Tabelle weiter unten zur Lance und Williams Formel zusammen.

Fusionierungsalgorithmen

Letzter Kommentar: vor 7 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Der Abschnitt scheint mir fehlerhaft.

Insbesondere scheinen WPGMA, UPGMA teilw. vertauscht, und die Definition der Distanz in geschlossener Form kann ich nicht nachvollziehen (nur die Lance-Williams-Form).

Beispiel: wir mergen AB, dann ABC. Was ist die Distanz d(ABC,D)? Nach McQuitty nehmen wir bei jedem Merge ½d(X,Z)+½d(Y,Z). Das wäre dann also ½d(AB,D) + ½d(C,D) = ¼d(A,D) + ¼d(B,D) + ½ d(C,D). Diese ungleichmäßige Gewichtung (und Reihenfolgeabhängigkeit!) wird von McQuitty und Sokal jeweils angesprochen und begründet (gleiche Gewichtung auf Spezies, nicht auf Instanz-Ebene). Das passt aber 0 zu der im Abschnitt Hierarchische_Clusteranalyse#Fusionierungsalgorithmen angegebenen Formel (Quelle dafür?)

Chire (Diskussion) 17:10, 13. Sep. 2017 (CEST)Beantworten

Die Formel bei Ward ist ~~vermutlich ebenfalls falsch. Die Varianz-Zunahme kann man wohl kaum alleine Anhand der Clusterzentren berechnen~~, sondern die "ausgeschrieben" Formel wird eine Art "Varianz nachher - Varianz vorher" sein müssen. D.h. vereinfacht etwas wie $d_{Ward}(A,B)=\sum _{x,y\in A\cup B}||x-y||^{2}-\sum _{x,y\in A}||x-y||^{2}-\sum _{x,y\in B}||x-y||^{2}=2\sum _{x\in A}\sum _{y\in B}||x-y||^{2}$ , ggf. noch mit Vorfaktor ${\frac {1}{|A\cup B|}}$ , je nachdem welche Varianz man haben will (SSE, oder durchschnittlicher SSE). Das würde dann auch zur Lance-Williams-Formel passen.

@JakobVoss: Quellen für die Formeln, die du 2004 hier eingetragen hast? Chire (Diskussion) 16:04, 15. Nov. 2017 (CET)Beantworten

Relevante Quellen, die ich finden konnte: Rencher, Alvin C. Methods of multivariate analysis. John Wiley & Sons und Wishart, David. 256. Note: An Algorithm for Hierarchical Classifications. Biometrics 25(1). Diese zeigen die Herleitung, und ggf. ist die aktuelle Formel wirklich äquivalent? Jedenfalls solltene explizite Quellen genannt werden. Ward scheint nämlich gelegentlich mal falsch zu sein - siehe R, Ward.D vs. Ward.D2 Chire (Diskussion) 17:20, 15. Nov. 2017 (CET)Beantworten

Ach Gottchen, das ist ja Ewigkeiten her, da herrschten noch ganz andere Zustände in Wikipedia. Wahrscheinlich habe ich es von irgendwelchen Vorlesungsfolien abgeschrieben. -- Nichtich (Diskussion) 09:34, 16. Nov. 2017 (CET)Beantworten

z.B. in diesem Skript: Advanced Topics in Text Mining Summer Term 2017: Text Clustering & Topic Modeling. Uni Heidelberg.

Sinn Abschnitt Distanz- und Ähnlichkeitsmaße

Letzter Kommentar: vor 7 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Das Kapitel enthält eine verkrüppelte Version vom Hauptartikel Ähnlichkeitsanalyse. Die Tabelle z.B. enthält Variablen, die nicht erläutert werden. Kann man nicht direkt auf den Artikel verweisen?–Bomberzocker (Diskussion) 15:18, 6. Jan. 2018 (CET)Beantworten

@Bomberzocker: Da die Einträge nicht mal alle korrekt sind, finde ich es nicht falsch die Tabelle rauszuschmeißen. Die Wahl eines geeigneten Distanzmaßes jedoch ist wichtig für das Clustering. Ganz raus lassen würde ich den Abschnitt also nicht. Chire (Diskussion) 13:16, 10. Jan. 2018 (CET)Beantworten

Abschnitt hinzufügen