Diskussion:Kölner Phonetik
Ich denke, dass die Umsetzung mit der Tabelle etwas mißverständlich dargestellt ist, weil ja in dem Verfahren nicht wirklich Buchstabengruppen umgesetzt werden, sondern alle Buchstaben einzeln. Also zum Beispiel die Umsetzung von "Scoobydoo" erfolgt so:
- Das "S" in "8" (dabei ist aber in der Tabelle schon nicht klar, ob die Umsetzung auf Basis "S" oder "SC" erfolgt; falsch wäre auf jeden Fall - aber genau das impliziert die Tabelle - das "SC" gemeinsam in eine "8" umzuwandeln und anschließend mit dem "O" weiterzumachen)
- Das "C" in "4" (weil ein "O" folgt)
- ... und dann "OOBYDOO" in "0010200".
Somit erhält man letztlich im Ergebnis "8412" und richtigerweise wäre das phonetisch gleich mit "SKOOBYDOO" --84.134.246.152 07:07, 1. Mai 2007 (CEST)
- Die Umsetzung in "812" ist richtig, die Aufspaltung erfolgt nach der längsten Gruppe: SC,O,O,B,Y,D,O,O ergibt 80010200, dies wird zu 812
SKOOBYDOO wird dagegen umgesetzt in S,K,O,O,B,Y,D,O,O ergibt 840010200, wird 8412. Die ponetische Umsetzung ist tatsächlich verschieden. --Xqt 06:11, 2. Mai 2007 (CEST)
- Das kann ich bestätigen: Die Implementierung der Kölner Phonetik von Maroš Kollár liefert die Werte (Scoobydoo: 812; Skoobydoo: 8412), die Du nennst. Übrigens: Soundex und Metaphone machen hier keinen Unterschied. --Thüringer ☼ 15:39, 25. Aug. 2010 (CEST)
Hi,
also, wenn ich "SCOOBYDOO" und "SKOOBYDOO" in SAP in die Funktion für das Kölner Verfahren eingebe, erhalte ich beidesmal "8412" und würde (richtigerweise) eine phonetische Identität ausgewiesen bekommen. Anders bei "SCHOOBYDOO" (was man ja auch anders ausspricht), dort erhalte ich "812".
Das gleiche Problem habe ich mit "MIRCX". Dieser Name wird als Beispiel in dem Erstartikel in den IBM-Nachrichten von 1969 aufgeführt und wird dort codiert als "6748". Nach der Tabelle im Artikel würde aber "CX" zu 4 und man käme auf "674".
Ein weiteres Beispiel: Streng nach Tabelle wären (unsinnigerweise) "Böttcher" (1287) und "Bötcher" (187) phonetisch verschieden. Wenn ich den IBM-Artikel richtig verstehe, wäre das nach dem dort aufgezeigten Weg nicht so.
Das Grundproblem scheint mir dabei zu sein, dass die ursprüngliche Beschreibung recht kompliziert gehalten ist und durchaus auch Interpretationsspielräume lässt, die durch verschiedene Autoren unterschiedlich genutzt werden. Daher unterscheiden sich die Algorithmen, die als Kölner Phonetik verkauft werden.
Es wäre daher gut, wenn Du die Quelle ergänzen würdest, aus welcher die Umsetzungstabelle stammt.
--Freddy vom Jupiter 20:53, 2. Mai 2007 (CEST)
Anwendung
BearbeitenWo wird dieses System denn angewendet?--Kölscher Pitter 01:31, 23. Aug. 2007 (CEST)
- Ist (s.o.) vermutlich in SAP implementiert, kann es selbst aber nicht verifizieren.-- @xqt 06:01, 23. Aug. 2007 (CEST)
Diskrepanz im Algorithmus zwischen Artikel und Magisterarbeit
BearbeitenZwischem dem Algorithmus, der in der Magisterarbeit (siehe Quelle) definiert ist und diesem Artikel gibt es eine Diskrepanz!
Im Artikel werden erst die doppelten entfernt, dann die 0'en für Vokale beseitigt. In der Magisterarbeit ist die 0 einzig und alleine im Anlaut vorhanden. In den Beispielen der Magisterarbeit wird auch "Hoffmann" zu 036 und nicht zu 0366, wie es der Wikipedia Artikel besagt. Allerdings scheint die Implementierung in der Magisterarbeit wieder dem Wikipedia-Artikel zu entsprechen. Hat jemand Zugriff auf das Original von IBM und kann das verifizieren? -- McWizard 15:55, 5. Mär. 2008 (CET)
- Es kommt auf die konkrete Implementierung an. In der Kölner Phonetik steht die 0 nur im Anlaut und zwar für die Buchstaben AEIOUYJÄÖÜH. Man kann das erreichen, indem man das erreichen, indem man die o.g. Buchstaben in einem Zwischenschritt zu 0 umsetzt und, nachdem alle Dupletten entfernt wurden, alle 0en außer im Anlaut ebenfalls entfernt. Es gibt aber auch Implementierungsmöglichkeiten, die ein Wort in ähnlichklingende Zeichen umsetzt. Das sind dann neben den o.g. noch PTFKLNRS, denen die Ziffern 1-8 zugeordnet werden. Nach dem Entfernen der Dupletten und anschließendem Entfernen der Buchstaben AEIOUYJÄÖÜH (außer einmalig im Anlaut) bleibt dann der phonetische Code übrig. Hoffmann wird folgendermaßen kodiert:
- Hoffmann
- $HOFFMANN (in Großbuchstaben umwandeln)
- $HOFFNANN (in ähnlichklinkende Laute umwandeln)
- $HOFNAN (Dubletten entfernen)
- 0366 (Kodieren, 0 nur im Anlaut)
Die kodierung zu 036 ist höchstwahrscheinlich falsch. Ich kann's aber z.B. in SAP nicht falsifizieren. -- @xqt 06:55, 10. Mär. 2008 (CET)
- Bei der SAP-Implementierung ergibt sich für "Hoffmann" die doppelte 6. --Brotbaecker 17:23, 23. Mai 2008 (CEST)
48
BearbeitenX nicht nach C, K, Q wird durch 48 ersetzt, so die Quelle (Seite 18). --Koveras 15:45, 7. Jul. 2009 (CEST)
Fragen über Fragen!
BearbeitenHallo! Besagte "48" für X halte ich für einen Schreibfehler, denn in den Grundregeln heißt es: "...eine Ziffer zwischen 0 und 8 ab". Da passt die 48 wohl nicht ins Konzept. Es ist wohl eher die 4 gemeint, denn X nach C, K, Q erhält die 8. Das wäre logisch und nachvollziehbar. Dagegen gibt es einen Widerspruch in den Regeln: C vor ... X --> 4 und ganz unten X nach C... --> 8. Das ist für mich identisch oder übersehe ich da eine Bedingung? Hat eigentlich schon mal jemand das Original gesehen oder sich mit Herrn Postel verständigt (falls es noch möglich ist)? Es wäre sehr interessant und auch wichtig, dass offene Fragen geklärt oder zumindest eindeutig festgelegt werden. Dann könnte die Kölner Phonetik noch Furore machen. Zumindest für meine Zwecke (ca. 5000 Namen verwalten) scheint sie mir recht gut geeignet zu sein. Ich habe alles mal in EXCEL nachgebildet und es arbeitet sehr zufriedenstellend. Am Ende muss ich es irgendwie in ACCESS als Modul einbinden können. ALs Nichtprogrammierer bin ich ganz schön aufgeschmissen. Kann mir jemand weiterhelfen? Die Beispiele in PHP und Python aus dem Internet habe ich mir schon angesehen. zuppinger25 (21:29, 3. Aug. 2009 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)
- Das passt schon: X wird wie KS gesprochen, daher die Codierung in "48" -- @xqt 23:06, 3. Aug. 2009 (CEST)
Perlcode von Wilz
BearbeitenIm Perlcode von Wilz ist definitiv noch ein Fehler. Wenn man sich die Zeilen:
# return ("1",0) if index ("bp",$char) >= 0;
# return ("8",0) if index ("dt",$char) >= 0 and index ("csz",$nextchar) >= 0;
# return ("2",0) if index ("dt",$char) >= 0 ;
# return ("3",0) if index ("fvw",$char) >= 0;
# return ("3",1) if index ("p",$char) >= 0 and $nextchar eq "h";
ansieht wird zeile 5 niemals durchlaufen werden, weil das "p" immer schon in Zeile 1 mit Rückgabewert "1" abgefangen wird. Deshalb liefert der Beispielcode von Wilz auch füer "Stephan" und "Stefan" unterschiedliche Werte, obwohl phonetisch gleich. (nicht signierter Beitrag von 194.127.8.24 (Diskussion) 09:52, 25. Aug. 2010 (CEST))
- Hier ist eigentlich nicht der richtige Ort, um Fehler in bestimmten Implementierungen zu diskutieren. Aber aus Neugier: Hast Du den Perl-Code von Wilz mal laufen lassen? Kann man ihn irgendwo runterladen oder muss man ihn aus dem PDF extrahieren? Bei einer schnellen Suche bin ich auf eine alternative Perl-Implementierung gestoßen, die ich unter Weblinks eingetragen habe (da ist wohl auch irgendwo Code von Wilz enthalten, sehe ich gerade). --Thüringer ☼ 12:24, 25. Aug. 2010 (CEST)
- P.S.: Jetzt habe ich die von mir eingetragene Implementierung von Maroš Kollár testen können (allerdings nur die alte Version 1.07; die aktuelle ließ sich nicht bauen). Ergebnis: Stefan, Stephan und sogar Steven werden gleich kodiert als 8236. --Thüringer ☼ 15:23, 25. Aug. 2010 (CEST)
- Ja, ich habe den Wilzcode mal laufen lassen. Alternativ habe ich auch einen kleinen TestClient als GUI mit AutoIt geschrieben, der den WILZ-Code umsetzt. Beschäftige mich grade ein wenig wegen eines Projektes mit (fuzzy) Namensvergleich. Bei Interesse kann ich Dir alles zukommen lassen. (email?)
- P.S.: Lustig ist aber auch das Stephanie = Stephan (nicht signierter Beitrag von 194.127.8.25 (Diskussion) 13:19, 27. Aug. 2010 (CEST))
Grenzen des Algorithmus
BearbeitenZum Beispiel:
- Krupphusten -> 4713826
- Krupp -> 471
- husten -> (0)826
- kruphusten -> 473826
Da ph generell als f (3) kodiert wird, interpretiert der Algorithmus Krupphusten sozusagen als Krupfusten. Schreibt nun jemand das Wort versehentlich mit einem P (phonetisch zumindest annähernd identisch), wird daraus Krufusten (473826) (nicht signierter Beitrag von 78.52.234.172 (Diskussion) 10:24, 28. Apr. 2011 (CEST))
Grenzen des Algorithmus II
BearbeitenWenn es richtig ist, dass sämtliche Vokale den Code '0' bekommen (der dann - außer am Anfang - auch noch entfernt wird, was dann aber auch nicht mehr viel ausmacht), kann dieser Algorithmus aus meiner Sicht praktisch nur fürs Allergröbste angewendet werden, denn das führt z.B. dazu, dass die phonetischen Codes für "Meier","Moor" und "Mauer" (und auch "Nuhr") identisch sind ("67"). Vielleicht sollte diese Einschränkung kurz im Artikel erwähnt werden. --Porrohman (Diskussion) 15:18, 3. Apr. 2013 (CEST)
- Vergleiche dazu auch: Reicht die phonetische Suche?--62.245.152.55 19:09, 24. Apr. 2022 (CEST)