Diskussion:Unscharfe Suche
Wie funktioniert die Fuzzy-Suche?
BearbeitenVielleicht sollte man hier auch noch erklären, wie die Fuzzy Suche funktioniert (ich weiß es nicht, sonst würde ich diesen Part jetzt übernehmen). --Bodo Thiesen 13:36, 11. Mai 2005 (CEST)
Begrifflichkeit
Bearbeiten"Ein bekanntes Maß zur Berechnung dieser Ähnlichkeit ist die sogenannte Levenshtein-Distanz" stimmt nicht, weil der Levenshtein-Abstandsmaß, wie auch das Wort "Distance" sagt, nicht die Ähnlichkeit, sondern korrekterweise die Unähnlichkeit berechnet. Also richtiger wäre die "minimale Unähnlichkeit".
Ausserdem wird mit n-Gramme-Algorithmen nicht primär die Wahrscheinlichkeit berechnet, dass zwei n-Gramme nacheinander kommen, sondern die Anzahl der überstimmende n-Gramme in den zwei Eingabestrings, so dass sich ein Ähnlichkeitsmaß anhand der Anzahl der übereinstimmenden Trigramme ergibt. Manche Algorithmen berechnen sogar der Abstandsmaß, dass heißt die Anzahl der Trigramme, die nicht übereinstimmen. Eine Wahrscheinlichkeit ist dabei denkbar, um jedem Trigramm ein Gewicht zu vergeben, je nachdem wie oft (wahrscheinlich) es ist. Allerdings werden bei solchen Gewichtungen meistens die Regel einer Metrik verletzt (Abstandsmaße und Ähnlichkeitsmaße sind Metriken), so dass man dann auch nicht unbedingt von Abstandsmaßen und Ähnlichkeitsmaßen sprechen kann.
Wenn man bei dem Problem mit Wahrscheinlichkeiten arbeiten will, muss man dann mit HMM oder mit Bayes arbeiten.
Verschieben?
BearbeitenIch finde, der Artikel sollte verschoben werden. Hier geht es nur um das, was in der englischsprachigen Literatur "Approximate String Matching" heißt, nicht um eine "ungefähre Suche" allgemein. Aber was ist der korrekte Begriff?
"Approximatives String Matching" wird in der deutschsprachigen Literatur durchaus verwendet, z.B. *hier *hier *hier *hier --Hermann.tropf (Diskussion) 10:53, 13. Apr. 2013 (CEST)