Benutzer Diskussion:Aka/Fehlerlisten/Deklinationsfehler

Letzter Kommentar: vor 2 Jahren von Koyaanisqatsi01 in Abschnitt Das fällt mir immer wieder auf

Probleme mit URLs in neuer Liste "Deklinationsfehler"

Bearbeiten

Hallo aka, da jetzt eine offizielle Liste existiert, mache ich einen neuen Abschnitt mit Findings auf. Die Verknüpfung von einer URL und Text zeigt noch false positives:

[https://www.kabeleins.de/tv/gekauft-gekocht-gewonnen Offizielle Website der Sendung]

wird als "gewonnen Offizielle" gemeldet. Da ich vermute, dass Deine Tools leicht trennen können zwischen einer URL und Text, sollte man das noch einbauen. Ich habe mehrere solche Fälle gesehen. VG --Bicycle Tourer (Diskussion) 02:17, 13. Mai 2019 (CEST)Beantworten

Das kann ich noch anpassen. Danke für den Hinweis und Gruß, aka 08:11, 13. Mai 2019 (CEST)Beantworten
Ist mir auch aufgefallen bei "geschlossen Tschechische". geschlossen war Ende einer URL. Könnte ich das also aus der Ausschlussliste wieder rausnehmen? vG --Koyaanisqatsi01 (Diskussion) 19:50, 13. Mai 2019 (CEST)Beantworten
Ja, das sollte (ab der nächsten Aktualisierung) funktionieren. -- Gruß, aka 20:54, 13. Mai 2019 (CEST)Beantworten
Scheint noch nicht zu funktionieren (dieser Stand). Viele Grüße --Bicycle Tourer (Diskussion) 00:34, 14. Mai 2019 (CEST) nachträglich signiertBeantworten
Ja, die Aktualisierung heute Abend hatte URLs noch nicht berücksichtigt. Ab der nächsten sollte es aber funktionieren. -- Gruß, aka 21:00, 13. Mai 2019 (CEST)Beantworten

Aktualisierung

Bearbeiten

Hallo Aka,

momentan macht die Aktualisierung der Deklinations-Listen keinen Sinn. Fast alle Artikel müssen noch gesichtet werden.

vG --Koyaanisqatsi01 (Diskussion) 23:23, 14. Mai 2019 (CEST)Beantworten

Weitere Beobachtungen und Anregungen

Bearbeiten

Hallo aka, beim Durchgehen der neuen Deklinationsfehlerliste fiel mir folgendes auf:

  • Eine einzelne Liste enthält relativ viele Einträge, wenn man hier die Arbeit auf mehrere Personen verteilen will, sollte man die Dateien kleiner machen (halb so gross?)
  • Die Ausnahmenliste ist bereits sehr lang. Koyaanisqatsi01 und ich hatten hier heute abend wahrscheinlich bereits einen Bearbeitungskonflikt, als er hinten bei "W" eintrug und ich vorne bei "A". Kann man die aufteilen (analog zur Tippfehler-Ausnahmeliste)?
  • Du hast nach meiner Wahrnehmung erstmals das Adjektiv "verbunden" in die Prüfung genommen. Hier haben wir >80% false positives, und zwar immer eine Konstellation wie "Herr Meyer ist X und somit verbunden Y". Ich bin mir nicht klar, ob man hier besser vorselektieren kann, denn ein Konstrukt "und einem somit verbunden Seil" wäre zu korrigieren und keine Ausnahme. Wollte es nur mal als Beobachtung an Dich weitergeben ...

VG --Bicycle Tourer (Diskussion) 23:16, 17. Mai 2019 (CEST)Beantworten

Ich kann die Liste weiter aufteilen. Die Ausnahmeliste ließe sich sicherlich auch weiter aufteilen, ich finde die aktuelle Version mit 16 kByte aber noch gut handhabbar. Zur Vermeidung von Bearbeitungskonflikten würden vermutlich schon ein paar Zwischenüberschriften (z. B. die Anfangsbuchstaben) helfen. "Verbunden" habe ich heute hinzugefügt. Das mit der Vorselektierung ist schwierig, aber ich gucke mir die falschen Fehler nochmal genauer an. -- Gruß, aka 23:24, 17. Mai 2019 (CEST)Beantworten
Stimmt, Aufteilung der Datei in Abschnitte würde die Bearbeitungskonflikte auch vermeiden, da braucht man noch nicht mehrere Dateien ... VG --Bicycle Tourer (Diskussion) 01:08, 18. Mai 2019 (CEST)Beantworten

Wo ist die Liste mit den Wörtern, nach denen gesucht wird?

Bearbeiten

Mir scheinen da ein paar Begriffe aufgenommen worden zu sein, die viele false positives erzeugen. --Schnabeltassentier (Diskussion) 08:33, 29. Mai 2019 (CEST)Beantworten

Die Liste ist jetzt deutlich länger. Falsche Funde sind deshalb auch häufiger, aber eben auch tatsächliche Fehler. Wenn du Wörter findest, die ausschließlich für falsche Funde sorgen, kannst du die gerne mitteilen, dann entferne ich die aus der Wortliste. -- Gruß, aka 08:48, 29. Mai 2019 (CEST)Beantworten
bei „geboren“ scheint mir die Trefferrate zu hoch. --Schnabeltassentier (Diskussion) 09:15, 29. Mai 2019 (CEST)Beantworten
D. h. es gibt gar keine Funde, die wirklich falsch sind? -- Gruß, aka 09:23, 29. Mai 2019 (CEST)Beantworten
natürlich gibt es die, aber es sind gefühlt zu 70% false positive. Da macht das Fehlersuchen wenig Spaß ;-) --Schnabeltassentier (Diskussion) 09:25, 29. Mai 2019 (CEST)Beantworten

„unterzogen“ dürfte übrigens ein gewöhnliches Verb sein. --Schnabeltassentier (Diskussion) 09:25, 29. Mai 2019 (CEST)Beantworten

Wenn ich "geboren" entferne, bleiben die 30 % wirkliche Fehler aber stehen, bis sie mal jemand zufällig findet. Hmm. Meinungen? -- Gruß, aka 09:28, 29. Mai 2019 (CEST)Beantworten

„unterschieden“ ist auch ein in der Vergangenheitsform gewöhnliches Wort. --Schnabeltassentier (Diskussion) 10:22, 29. Mai 2019 (CEST)Beantworten

Hallo miteinander! Bei ähnlichen Arbeitslisten mit relativ hohem false-positive-Anteil gebe ich oft ein paar Dutzend Zeichen bzw. ein paar Worte vor und nach den gesuchten Begriffen aus, um den Satzkontext gleich erkennen zu können, ohne mich im Zielartikel auf die Suche machen zu müssen. Hier ein kleines Beispiel, vielleicht ist etwas in dieser Art auch für die umseitigen Listen denkbar. Gruß --Invisigoth67 (Disk.) 15:32, 29. Mai 2019 (CEST)Beantworten

Das ist sicherlich möglich. -- Gruß, aka 17:27, 29. Mai 2019 (CEST)Beantworten
<quetsch>Die Ausgabe der "paar Worte vor und nach den gesuchten Begriffen" hilft ungemein. Man erkennt direkt in der Liste, was in die Ausschlussliste wandern kann. Danke an @Invisigoth67: für den Vorschlag und an Aka für die schnelle Umsetzung. vG --Koyaanisqatsi01 (Diskussion) 19:12, 30. Mai 2019 (CEST)Beantworten
Hallo aka, hier gibt es (vermutlich unerwünschte) Effekte aus der "Kontextanreicherung":
In beiden Fällen ist am Ende eine Kontextmenge, die die Hälfte der ganzen Datei ausmacht VG --Bicycle Tourer (Diskussion) 18:27, 29. Mai 2019 (CEST)Beantworten
Das war in der Tat nicht so geplant. -- Gruß, aka 19:47, 29. Mai 2019 (CEST)Beantworten

ist „nachfolgen“ schon auf der Liste? --Schnabeltassentier (Diskussion) 18:47, 14. Nov. 2019 (CET)Beantworten

Ich habe es hinzugefügt. -- Gruß, aka 19:16, 14. Nov. 2019 (CET)Beantworten

False Positives

Bearbeiten

Hallo aka, die neue Ausgabe der Deklinationsfehler-Listen hat wieder sehr viele Findings gebracht, von denen eine Menge False Positives sind (>50%). Folgende Kombinationen sind mir als "Immer False Positive" aufgefallen, so dass man m.E. überlegen sollte, ob hier nicht feiner selektiert werden kann, um die Ausnahmelisten nicht zu groß werden zu lassen (vor allem die Arbeit des Eintragens):

  • "geboren XMonatsnameX" --> XMonatsnameX für einen Monatsnamen (auch österreichisch z.B. Jänner)
  • "geboren Anfang" --> da steht z.B. "geboren Anfang 1587" dahinter.
  • "geboren Mitte" --> da steht z.B. "geboren Mitte 1587" dahinter.
  • "geboren Ende" --> da steht z.B. "geboren Ende 1587" dahinter.
  • "geboren Jahreszeit" (mit Frühling, Frühjahr, Sommer, Herbst, Winter)
  • "verstorben XMonatsnameX"
  • "verstorben Anfang"
  • "verstorben Mitte"
  • "verstorben Ende"
  • "verstorben Jahreszeit"

Aus den ersten Listen fallen mir noch folgende Schemata auf:

  • "abgebrochen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "abgerissen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "abgerufen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "abgeschlossen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "aufgegeben XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "aufgenommen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "aufgestellt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "ausgegeben XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "begonnen XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "eingereicht XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "eingestellt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "eingetreten XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "ernannt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "fertiggestellt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "freigegeben XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "gebaut XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "gescheitert XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "gestartet XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "geschrieben XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "herausgegeben XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "hergestellt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)
  • "vorgestellt XMonatsnameX" (und weniger häufig "Anfang/Mitte/Ende/Jahreszeit" statt Monat)

Es handelt sich also immer um eine Kombination mit einer Zeitangabe. Wahrscheinlich findest Du noch ein paar mehr Kombinationen, wenn Du Deine "Kandidatenliste" nochmal gegen diese "Zeitangaben-Kombinationen" prüfst. Ich schätze, dass im Resultat 30% weniger Artikel in die Ausnahmeliste kommen würden. VG --Bicycle Tourer (Diskussion) 18:42, 30. Mai 2019 (CEST)Beantworten

Ich finde "geboren Januar", "gestartet Januar" und dergleichen ziemlich unrund und korrigierenswert. -- Gruß, aka 19:56, 30. Mai 2019 (CEST)Beantworten
Danke für die Rückmeldung. Ich interpretiere das mal so, dass Du immer eine Präposition einbauen würdest, also z.B. "geboren im Januar 1546". OK. Kann man bei Monatsname und Jahreszeit so machen. Das könnte allerdings zu Unmut einiger Autoren führen, denn ich wüsste keine Regel, die sagt, dass das immer mit Präposition geschrieben werden muss. Selbst in den Einleitungen von Personenartikeln schreiben wir Geburts-/Todesdatum ohne Präposition (allerdings meistens auch mit Symbol). Kennst Du da eine Regel? Bleibt außerdem noch "geboren Anfang 1546". Da habe ich jetzt ehrlich gesagt auch keine Idee. Wüsstest Du auch hier etwas? Danke und VG --Bicycle Tourer (Diskussion) 22:13, 30. Mai 2019 (CEST)Beantworten
Für mich klingen die Beispiele so, als ob da das "im" einfach vergessen wurde. Bisher gab es zumindest noch keine Beschwerden bei mir, wenn ich so etwas nachgetragen habe. Für "geboren Anfang 1546" gibt es dann ja die Ausschlussliste. -- Gruß, aka 22:21, 30. Mai 2019 (CEST)Beantworten

Deklinationsfehler in Dateinamen

Bearbeiten

Hallo Aka, bei der Abarbeitung der Deklinationsfehler stosse ich immer wieder auf Fehler in Dateinamen. Das ist kein wirklich großes Problem (einer unter 20, die kann man in die Ausschlusslisten bringen), aber ich meine mich erinnern zu können, dass Du bei anderen Suchen die Dateinamen ausgeschlossen hast. Hat sich daran etwas geändert für die Deklinationsfehler? Danke und VG --Bicycle Tourer (Diskussion) 11:54, 7. Jun. 2019 (CEST) Stückzahl nachträglich korrigiert Beantworten

Zumindest normale Bildeinbindungen (mit Bild:.. & Co) sind ausgeschlossen. Wenn jetzt noch nennenswert etwas übrig bleibt, müsstest du bitte mal ein konkretes Beispiel nennen, dann kann ich da bestimmt etwas machen. Das wird aber etwas dauern und vermutlich bei der nächsten Aktualisierung noch nicht dabei sein. -- Gruß, aka 13:50, 7. Jun. 2019 (CEST)Beantworten
Danke für die Rückmeldung. Es war innerhalb von gallery. Hier ein Beispiel: "abgerissen RBA.jpg" in Pantaleonstor (ist jetzt in der Ausnahmeliste). Danke und VG --Bicycle Tourer (Diskussion) 12:42, 8. Jun. 2019 (CEST)Beantworten

Hallo Benutzer:Aka

Bearbeiten

Hier dürften noch mehr Fehler vorhanden sein:

  • mit einen
  • nach einen
  • zu einen

--Schnabeltassentier (Diskussion) 08:56, 9. Jun. 2019 (CEST)Beantworten

Danke und Gruß, aka 09:00, 9. Jun. 2019 (CEST)Beantworten
  • des Prototypen
  • dem Prototypen
  • eines Prototypen
  • einem Prototypen
  • einen Prototypen
  • den ersten Prototypen
  • einen ersten Prototypen
  • zum Prototypen
  • beim Prototypen
  • seinen Prototypen
  • seinem Prototypen

sind auch alles Fehler, siehe Duden --Schnabeltassentier (Diskussion) 13:41, 11. Jun. 2019 (CEST)Beantworten

Moin Benutzer:Aka!
spricht irgendwas dagegen, diese Fehler auch mit in den nächsten Suchlauf aufzunehmen? --Schnabeltassentier (Diskussion) 21:56, 15. Jun. 2019 (CEST)Beantworten
Alles der Reihe nach ;-) Ich wollte mir das erst noch einmal in Ruhe ansehen, was ich jetzt gemacht habe. Bei den ersten drei Vorschlägen finde ich zumindest mit der internen Suche praktisch nur falsche Fehler. Es gibt sehr viele Zusammenhänge, wo darauf ein Substantiv oder Eigenname kommen kann, ohne dass es ein Fehler ist. Die zweite Liste passt leider nicht zu dieser Suche hier, denn die Auflistung ist zu speziell, da da das Substantiv schon vorgegeben ist. -- Gruß, aka 22:35, 15. Jun. 2019 (CEST)Beantworten

False positive?

Bearbeiten

Moin aka, der Artikel Deutsch-Französischer Krieg wird mit dem Text "1877 Camphausen Otto von Bismarck geleitet Kaiser Napoleon III anagoria" als Deklinationsfehler gemeldet. Ich weiß nicht, ob das ein Algorithmusfehler oder eine unglückliche Überschneidung von Adjektiv und Partizip ist, wollte es hier zumindest mal gemeldet haben. VG --Bicycle Tourer 14:36, 20. Feb. 2021 (CET)Beantworten

Prinzipiell ist es sehr schwer, deutsche Grammatik algorithmisch zu analysieren. Auf dieser Fehlerliste versuche ich trotzdem, zumindest für eine bestimmte Art von möglichen Fehlern. Dass es dabei auch falsche Funde gibt, ist leider nicht zu vermeiden und ein Grund für die Ausschlussliste. Im konkreten Fall war es aber so, dass sich der Fehler innerhalb eines Bildnamens innerhalb einer Gallerie befunden hat und solche Fälle kann ich natürlich algorithmisch schon ausschließen. Danke für den Hinweis und Gruß, aka 17:37, 20. Feb. 2021 (CET)Beantworten

Das fällt mir immer wieder auf

Bearbeiten

die einfachen Dinge wie "ab 1999" "siehe auch" usw. usf. die werden gerne erledigt, geht ja schnell.

Wenn man dann genauer nachschauen muss, wie bei "uAX64" oder "dodenhof Unternehmensgruppe" oder "et-Tell" ... tja, das lässt man lieber unbearbeitet. Es könnte ja Arbeit verursachen.

vG --Koyaanisqatsi01 (Diskussion) 20:21, 27. Feb. 2022 (CET)Beantworten