Diskussion:Vektorraum-Retrieval

Letzter Kommentar: vor 13 Jahren von JakobVoss in Abschnitt Verständlichkeit

Verständlichkeit

Bearbeiten

Der Artikel ist noch immer sehr unverständlich. Was soll sich ein normaler Mensch ohne ausgereifte Mathematische Grundkenntnisse unter "Punkte in einem hochdimensionalen, metrischen Vektorraum" "Distanz zwischen dem Queryvektor und dem Dokumentvektor" und "Dimension" vorstellen? Natürlich sollte der Artikel auch eine genaue mathematische Beschreibung enthalten, aber erstmal sollte einfach verständlich erklärt werden, dass das Vektorraum-Retrieval auf der Ähnlichkeit von Dokumenten beruht, berechnet aufgrund der relativen Häufigkeit von Wörtern. -- Nichtich 15:44, 14. Feb. 2011 (CET)Beantworten

Überarbeiten

Bearbeiten

Der Artikel wurde radikal gekürzt, auf Grundlage zuletzt dieser Diskussion. Die Version vor der Kürzung findet sich hier (12:56, 12. Aug. 2007). Ergänzende Überarbeitungen sind willkomen. Die verwendeten Bilder zur Inspiration, siehe unten. rorkhete 22:08, 2. Sep. 2007 (CEST)Beantworten

Metriken im Vektorraum, Distanzmaß

Bearbeiten

Metriken im Vektorraum / Distanzmaße wird wohl ein eigener Artikel. Das spielt auch beim Clustering eine Rolle und es muss ja nicht doppelt definiert und erklärt werden. -- Nichtich 19:18, 12. Dez 2003 (CET)


OK, ganz ohne Formeln geht es natürlich nicht:

Beispiel

Bearbeiten

In die Gewichte der einzelnen Terme für die einzelnen Dokumente sollte sowohl die Häufigkeit eines Termes als auch dessen Repräsentativität eingehen.

Die Häufigkeit eines Termes   in Dokument   wird als einfache Anzahl   der Vorkommen dieses Termes in dem Dokument bestimmt (tf für term frequency).

Die Repräsentativität eines Terms   in ein einem Korpus von   Dokumenten lässt bestimmen als (idf steht für inverse document frequency):

 

Wobei   die Anzahl der Dokument ist, in denen der Term   vorkommt. Der Wert der Repräsentativität bewegt sich dabei zwischen 1 (Term kommt in allen Dokumenten vor) und   (Term kommt nur in einem Dokument vor).

Das Gewicht   ergibt sich als Produkt  . Terme, die in vielen Dokumenten vorkommen werden somit nicht so stark gewichtet wie seltene Terme, die unterschiedliche Dokumente besser unterscheiden können.

Lemma

Bearbeiten

Dies Lemma ist ein absolutes Mixtum Compositum - ließe sich da keine deutsche Variante finden? Wie wärs denn mit Vektorraum von Informationen? --SonniWP 09:26, 23. Jul. 2007 (CEST)Beantworten