Diskussion:Vektorraum-Retrieval
Verständlichkeit
BearbeitenDer Artikel ist noch immer sehr unverständlich. Was soll sich ein normaler Mensch ohne ausgereifte Mathematische Grundkenntnisse unter "Punkte in einem hochdimensionalen, metrischen Vektorraum" "Distanz zwischen dem Queryvektor und dem Dokumentvektor" und "Dimension" vorstellen? Natürlich sollte der Artikel auch eine genaue mathematische Beschreibung enthalten, aber erstmal sollte einfach verständlich erklärt werden, dass das Vektorraum-Retrieval auf der Ähnlichkeit von Dokumenten beruht, berechnet aufgrund der relativen Häufigkeit von Wörtern. -- Nichtich 15:44, 14. Feb. 2011 (CET)
Überarbeiten
BearbeitenDer Artikel wurde radikal gekürzt, auf Grundlage zuletzt dieser Diskussion. Die Version vor der Kürzung findet sich hier (12:56, 12. Aug. 2007). Ergänzende Überarbeitungen sind willkomen. Die verwendeten Bilder zur Inspiration, siehe unten. rorkhete 22:08, 2. Sep. 2007 (CEST)
-
Grafik 1
-
Grafik 2
-
Grafik 3
-
Grafik 4
Metriken im Vektorraum, Distanzmaß
BearbeitenMetriken im Vektorraum / Distanzmaße wird wohl ein eigener Artikel. Das spielt auch beim Clustering eine Rolle und es muss ja nicht doppelt definiert und erklärt werden. -- Nichtich 19:18, 12. Dez 2003 (CET)
OK, ganz ohne Formeln geht es natürlich nicht:
Beispiel
BearbeitenIn die Gewichte der einzelnen Terme für die einzelnen Dokumente sollte sowohl die Häufigkeit eines Termes als auch dessen Repräsentativität eingehen.
Die Häufigkeit eines Termes in Dokument wird als einfache Anzahl der Vorkommen dieses Termes in dem Dokument bestimmt (tf für term frequency).
Die Repräsentativität eines Terms in ein einem Korpus von Dokumenten lässt bestimmen als (idf steht für inverse document frequency):
Wobei die Anzahl der Dokument ist, in denen der Term vorkommt. Der Wert der Repräsentativität bewegt sich dabei zwischen 1 (Term kommt in allen Dokumenten vor) und (Term kommt nur in einem Dokument vor).
Das Gewicht ergibt sich als Produkt . Terme, die in vielen Dokumenten vorkommen werden somit nicht so stark gewichtet wie seltene Terme, die unterschiedliche Dokumente besser unterscheiden können.
Lemma
BearbeitenDies Lemma ist ein absolutes Mixtum Compositum - ließe sich da keine deutsche Variante finden? Wie wärs denn mit Vektorraum von Informationen? --SonniWP 09:26, 23. Jul. 2007 (CEST)