Diskussion:Buchstabenhäufigkeit

Einleitung dieser Diskussionsseite anzeigen

Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Buchstabenhäufigkeit“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.

Umlaute

Umlaute als ae, oe usw. zu zählen ist unsachgemäß und ergibt außerdem eine zu hohe Häufigkeit für 'e'.

Fragen zu den Statistiken, Quellenangabe

Ich habe gesehen, daß es ebenfalls im Artikel Deutsches Alphabet um die Buchstabenhäufigkeit geht. Man sollte also beides irgendwie zusammenbringen. (Außerdem ist bei jedem Buchstabenartikel eine Häufigkeit des Buchstabens angegeben - leider ohne Quellenangabe. Das sollte miteinander verlinkt werden!) Wünschenswert wäre auch, daß Statistiken fürs Deutsche verwendet werden, die auch die Buchstaben ä, ö, ü, ß miteinbeziehen (oder aber daß gesagt wird, wie diese Buchstaben subsummiert sind - z.B. ä als a oder ä als ae? Außerdem tauchen in deutschen Texten auch andere Buchstaben auf, z.B. é. Was ist damit?). Wichtig wäre auch die Angabe, ob die Statistiken vor oder nach der Rechtschreibreform entstanden sind.--Martin Beesk 19:29, 26. Jan 2005 (CET)

bin ebenfalls der meinung das eine quellenangabe fehlt. aufgrund welcher quellen ist diese statistik entstanden? wurden nur die bibel durchsucht oder, wovon ich gerade lese, der Duden Korpus, was ein wenig standardisierter wäre. -- Qopep 20:25, 17. Sep 2005 (CEST)

könnte das die Quelle sein: «DU», Nr. 739? Nach .doc (2001?) ist ‚Kryptologie’ von A. Beutelspacher eine Quelle; Beutelspacher, Albrecht: Kryptologie, Vieweg Verlagsgesellschaft, ISBN 3-528-48990-1 (2000), ISBN 3834800147 (7. Aufl. 2005) -- Cherubino 12:50, 10. Nov 2005 (CET)

Ich bin dafür, dien Artikel zu löschen, dafür dann Deutsches Alphabet zu überarbeiten. --Fornax-Galaxies 16:56, 20. Nov 2005 (CET)

Ich finde diesen Artikel einfach nur cool (vorallem wenn man Geigenmännchen spielt) Ich habe gesucht und dieses dazu gefunden! --Schwalbe007 17:38, 2. Dez 2005 (CET)

ich fände häufigkeitsangaben für andere sprachen noch sehr interessant. anne, 19.1.06

Widerspruch in der Häufigkeitsauszählung

Letzter Kommentar: vor 14 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Die hier angegebenen Häufigkeiten stehen im Widerspruch zu dem verlinkten Bild:Alphabet_haufigkeit.png. Laut dem Diagramm kommt das D 9.270.289 mal vor, was bei 232.073.370 Zeichen 3,99% entspricht. Läßt man die Satzzeichen (Blanks, Punkt, Ruf- und Fragezeichen) weg, bleiben 197.687.534 Zeichen, was dann 4,69% entspricht. Der Artikel gibt demgegenüber 5,08% an. Es sollte also entweder die Quelle gefunden werden, die der Tabelle zu Grunde liegt, oder die Tabelle sollte an das Diagramm angepasst werde. Cool wäre natürlich, wenn jemand alle Wikipediaartikel herunterladen und auszählen könnte – alles in [[]], [] bzw {{}} müßte dabei natürlich ausgenommen werden. --89.204.139.128 17:19, 30. Sep. 2010 (CEST)Beantworten

Ich sehe da keinen Widerspruch. Das Diagramm zeigt die Häufigkeit, die eine Forschungsgruppe bei einem Text gefunden hat. Die Quelle der Tabelle ist angegeben. Das die nicht identisch sind ist durch die normale statistische Abweichung erklärbar und absolut im Rahmen. --P.C. ✉ 17:24, 30. Sep. 2010 (CEST)Beantworten

Bei einer Testbasis von 230 Millionen Zeichen würde ich erwarten, dass die Abweichung im Bereich von 1% höchstens 2% liegt. In diesem Fall beträgt sie mindestens 7,6%. Das scheint mir doch deutlich größer als die zu erwartende statistische Abweichung zu sein. Wie groß ist denn der Text auf den sich Beutelsbacher bezieht? --89.204.155.161 13:53, 1. Okt. 2010 (CEST)Beantworten

"Scheint" ... WP:TF? Und wo steht die Textmenge die verwendet wurde um die Statistik im Bild zu erzeugen? --P.C. ✉ 12:15, 4. Okt. 2010 (CEST)Beantworten

Häufigkeitsangaben ohne Sprachbezug

ich interessiere mich auch für Häufigkeitsangaben OHNE Sprachangabe, also alle texte mit (lateinischem?) Alphabet, finde aber leider nichts zu dem Thema. hanfi 22.12.06

Im Link andere Zahlen als im Artikel

in dem weblink werden amdere zahlen genannt als im artikel .luk.

Krüger

Im Bereich Anwendung steht folgender Satz: "Dabei werden die Häufigkeiten der einzelnen Zeichen im Krüger festgestellt, und dann". Was heißt denn in diesem Zusammenhang "Krüger" das wird nicht weiter erklärt und auch in der Wikipedia ließ sich sonst dazu nichts finden. --JensKohl 15:53, 3. Aug 2006 (CEST)

Komischer Satz-unvollständig?

Letzter Kommentar: vor 17 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Die Häufigkeit von Anfangsbuchstaben gibt an, wie häufig ein Buchstabe als erster Buchstabe eines Wortes vorkommt. Sie hängt relativ stark von der Textart ab. Für Fließtext sind die fünf häufigsten Anfangsbuchstaben

Und dann geht es leider nicht weiter. Welches sind denn nun die fünf häufigsten Anfangsbuchstaben??? Bitte ergänzen - oder ist der Abschnitt in Arbeit? --Bücherwürmlein 17:16, 8. Mär. 2007 (CET)Beantworten

Darunter ist so eine Tabelle mit den 5 häufigsten Abfangsbuchstaben: D, S, E, I, W. Schon gesehen? --82.207.190.210 18:31, 14. Apr. 2007 (CEST)Beantworten

P viel zu selten und anderes

Letzter Kommentar: vor 14 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Ich bekomme einfach nicht in den Kopf, dass das P so selten sein soll. Es ist doch bestimmt häufiger als ein Prozent in deutschen Texten, oder? Und überhaupt, das E ist doch nicht sooo häufig wie angegeben. Wie weiter oben schon erwähnt, labt sich das E an Ä, Ö und Ü, die im Gegensatz zu dem ß nicht aufgelistet sind, was mich sehr empört. Und kann man nicht die Buchstabenhäufigkeit einiger anderer Sprachen angeben (oder wenigstens Links dazu)? --82.207.190.210 18:43, 14. Apr. 2007 (CEST)Beantworten

Das wär jetzt auch meine Frage gewesen, da hier seit dem 17.4. niemand geantwortet hat, gehe ich davon aus, dass "man" nicht kann.--Fecchi 21:05, 10. Sep. 2007 (CEST)Beantworten

Liebe Leute! Eure Frage war mir irgendwie entgangen. Doch, es stimmt: "p" gehört zum letzten Drittel der Buchstaben. Die Zahlen schwanken je nach Text oder Textkorpus, aber "p" liegt in meinen Unterlagen nie besser als Platz 20. Sein Textanteil liegt fast immer deutlich unter 1%. "e" dagegen ist im Dt. immer der häufigste Buchstabe, egal welche Textgrundlage man nimmt. An "ä, ö, ü" kann das "e" sich kaum laben: die sind ebenfalls sehr selten. (vgl. Literaturangaben im Artikel)

Oben: Ihr Text enthält in fünf Zeilen sechs 'p', also sechs von grob geschätzt 350 Buchstaben (hab' nicht nachgezählt), knapp unter 2%. Soviel ist das nicht.

Was die Umlaute betrifft: gibt es keine Statistik, die die Umlaute normal zählt? Die Verzerrung zugunsten des 'e' ist nicht überwältigend, aber wenn die eingebundene Grafik halbwegs stimmt, werden dem 'e' von der benutzten Quelle immerhin 1,2% Häufigkeit zugeschustert, die im tatsächlichen Schriftbild eines deutschen Texts nicht vorhanden sind. Dazu wird durch die Fehlzählung des 'ä' der Buchstabe 'a' um einen Rang angehoben, was ich nicht mehr ganz so trivial finde. --77.22.105.42 21:53, 15. Nov. 2010 (CET)Beantworten

Buchstabenstatistiken anderer Sprachen

Letzter Kommentar: vor 16 Jahren7 Kommentare4 Personen sind an der Diskussion beteiligt

Einen Link auf Buchstabenstatistiken anderer Sprachen habe ich leider nicht zur Hand. Grüß Euch! Dr. Karl-Heinz Best 21:52, 10. Sep. 2007 (CEST)Beantworten

Siehe die anderssprachigen versionen dieses artikels. Entgegen verbreiteter vorurteile ist das "ü" nicht der häufigste buchstabe der türkischen sprache! Tobias b köhler 20:31, 1. Okt. 2007 (CEST)Beantworten

Ich hab mal die Statistiken für ein paar andere Sprachen eingefügt. Vielleicht kann ja jemand (der sich damit besser auskennt als ich) eventuelle Fehler ausbessern. Gruß Alexkin 16:58, 13. Feb. 2008 (CEST)Beantworten

Du solltest das Deutsche auch noch mit in die Tabelle nehmen, so dass man es einfacher vergleichen kann. --Thornard, ^Diskussion, 17:06, 13. Feb. 2008 (CET)Beantworten

Gute Idee. Ich habe Deutsch eingefügt.--Alexkin 22:22, 21. Feb. 2008 (CET)Beantworten

Da hat jemand im französischen œ (wie in cœur, sœur) nicht mitgezählt? Oder oe immer separat? Wie kommts sonst zu 0,00% ? Tobias b köhler 02:52, 23. Feb. 2008 (CET)Beantworten

Ich habs ausgebessert. Die französische und die spanische Spalte waren bei dem Buchstaben (œ) vertauscht.--Alexkin 16:06, 23. Feb. 2008 (CET)Beantworten

Silbenhäufigkeit

Letzter Kommentar: vor 16 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Gibt es da eigentlich auch Messungen zu? --Reiner Stoppok 18:01, 16. Okt. 2008 (CEST)Beantworten

Gibt's garantiert. Schau mal in W.D. Ortmann, 1980. Sprechsilben im Dt. München nach. Ich vermute, da ist so was drin. Etwas Ähnliches sind Statistiken zu Lautverbindungen, z.B. In Helmut Meier (1967) Dt. Sprachstatistik, Hildesheim: Olms, S. 275. Grüße! Dr. Karl-Heinz Best 21:28, 16. Okt. 2008 (CEST)Beantworten

Buchstabenhäufigkeiten in deutschsprachigen Texten

Letzter Kommentar: vor 15 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Die Summe der Einträge in der dritten Spalte der ersten Tabelle ergibt 100,32%, ohne das ß wären es 100,01% was ja durch Rundung möglicher wäre. Ist irgendwie unlogisch. Also wurde die ß-Ligatur doch nicht separat behandelt? -- 22:56, 20. Mär. 2009 (CET) (ohne Benutzernamen signierter Beitrag von 79.216.127.241 (Diskussion | Beiträge))

Im Duden, Band 1, 25. Auflage, steht eine andere Reihenfolge. Auch die Prozentzahlen stimmen nicht überein. -- Harry8 20:49, 27. Aug. 2009 (CEST)Beantworten

Wo bekomme ich denn eine komplette Auflistung der Prozentzahlen(also auch für die Endbuchstaben komplett)? Vielen Dank im voraus! (nicht signierter Beitrag von 188.96.236.227 (Diskussion | Beiträge) 16:33, 20. Okt. 2009 (CEST)) Beantworten

Schau mal in die heute erweiterte Literaturliste im Artikel: Muthmann 1988. Gruß! Dr. Karl-Heinz Best 18:19, 20. Okt. 2009 (CEST)Beantworten

Genial! Genau das hab ich gesucht! Vielen Dank! :-) (nicht signierter Beitrag von 188.96.236.227 (Diskussion | Beiträge) 18:47, 20. Okt. 2009 (CEST)) Beantworten

Schweden

Letzter Kommentar: vor 15 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Wie hast Du impportiert? Weil da ist eine Vorlage aus der sv:WP enthalten. Die gibt es NUR EBEN im de:WP nicht.--Paule Boonekamp - eine Silbersonne 13:07, 25. Jun. 2009 (CEST)Beantworten

ï im Englischen

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Das i mit Trema (i mit zwei Punkten) wird in der Liste für das Englische mit 0,01% Häufigkeit angegeben. Mal davon abgesehen, dass ich kein Wort kenne, dass diesen Buchstaben enthält, taucht er auch nicht in der angegebenen Quelle auf. Anscheinend ist das Trema ja ein legitimes Mittel, um mitzuteilen, dass ein Vokal ausgesprochen wird. Aber dass das ï im Englischen die größte Häufigkeit hat, macht micht schon etwas stutzig.

--94.218.8.199 14:51, 26. Nov. 2009 (CET)Beantworten

"naïve" wäre ein Wort, das mir im Englischen einfiele (nicht signierter Beitrag von 95.223.228.160 (Diskussion | Beiträge) 12:48, 27. Feb. 2010 (CET)) Beantworten

Abhängigkeit der verwendeten Schreibweise im Englischen

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich kann mir kaum vorstellen, dass das "z" im Englischen die geringste Häufigkeit hat (vom "ï" einmal abgesehen), wenn es sich um die amerikanische Schreibweise handelt, da hier Verben sehr häufig aus "-ize" enden (statt "-ise" im Britischen Englisch). Leider findet sich im Artikel kein Hinweis darauf, auf welches Englisch sich die Häufigkeit bezieht; hat jemand vielleicht weitere Informationen oder kann den Artikel um die verschiedenen Schreibweisen des Englischen erweitern? -- 95.223.228.160 12:48, 27. Feb. 2010 (CET)Beantworten

Schweizerisches Hochdeutsch

Letzter Kommentar: vor 14 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Gibt es eigentlich Literatur, die auf die Unterschiede von "Deutschem-" und "Schweizer-" Deutsch eingeht? Wir Schweizer schreiben noch viele Wörter in ihrer ursprünglichen z.B. französischen Form und nicht in der eingedeutschten Version (bsp. Bureau→Büro, Portemonnaie→Portmonee (Brieftasche), Sauce→Sosse (Soße?), Trottoir→? (Bürgersteig) etc.) dabei ergeben sich doch ein paar Unterschiede in der Anzahl der Buchstaben. --Meldir 21:39, 23. Jun. 2010 (CEST)Beantworten

welcher buchstabe ist der häufigste in der deutschen sprache ?

wer hat flügel und kann dennoch nicht fliegen ? (nicht signierter Beitrag von 83.215.53.239 (Diskussion) 15:11, 21. Sep. 2010 (CEST)) Beantworten

Fehler in der schwedischen Häufigkeitsstatistik?

Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Beim Überschlagen der Vokalhäufigkeiten kam mir das Schwedische verdächtig vokalarm vor, und tatsächlich komme ich nur auf eine Häufigkeitensumme von 94,257%. Kann es sein, daß die Zeichen ä,ö,å unterschlagen wurden? Mehr als 1,2% Rundungsfehler sollten eigentlich unmöglich sein (und die Vokalhäufigkeit im schwedischen läge dann nicht bei knapp unter 30, sondern bei realistischeren 35%). --77.22.105.42 22:01, 15. Nov. 2010 (CET)Beantworten

Chapeau! Für diesen Artikel

Letzter Kommentar: vor 13 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich habe keine Ahnung, ob das WP-zulässig: einen Artikel einfach mal zu loben! Der Gedanke, als ich diesen Artikel gefunden habe: "Jetzt weiß ich, warum der Brockhaus zugemacht hat." Also, ich habe für die Ablage-Aufteilung die Verteilung der Anfangsbuchstaben gesucht und -- bin hier fündig geworden. --Delabarquera 15:39, 21. Sep. 2011 (CEST)Beantworten

Fehler in Grafik

Letzter Kommentar: vor 13 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

In der Grafik zu den TriGrammen kommt das "UND" 2x vor - mit unterschiedlichen (an)Zahlen... ...was soll das?

--91.113.238.20 14:48, 10. Jan. 2012 (CET)Beantworten

Fehler in der Tabelle

Letzter Kommentar: vor 11 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Kopiert von Fragen zur Wikipedia, ich weiß dazu nichts: --mfb (Diskussion) 14:05, 24. Sep. 2013 (CEST)Beantworten

Hallo,

mir ist aufgefallen das in dem Artikel Buchstabenhäufigkeit ein Fehler ist und zwar in der Tabelle wo die Buchstabenhäufigkeit angegeben ist kommt man auf 100,31%. Da ich nicht wusste wo der Fehler lag konnte ich das nicht :bearbeiten und ich wusste nicht wie ich sonst den Fehler melden kann.

Vielleicht liegt das an dem ß weil das hat genau die Häufigkeit 0,31 und ohne das würde es ja passen.

Mit freundlichen Grüßen

Felix

--87.78.46.185 13:58, 24. Sep. 2013 (CEST)Beantworten

Buchstabenhäufigkeit im Artikel selbst

Letzter Kommentar: vor 10 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich bin eben mal den Quelltext der aktuellen Version des Artikels durchgegangen und habe da die Buchstaben gezählt. Neben den 26 Buchstaben des Alphabets habe ich nur noch ß mitaufgenommen. Hier das Ergebnis:

Buchstabe	Relative Häufigkeit
a	6.14 %
b	2.97 %
c	3.25 %
d	3.22 %
e	14.01 %
f	2.05 %
g	3.26 %
h	4.55 %
i	7.63 %
j	0.17 %
k	1.63 %
l	3.78 %
m	1.86 %
n	9.16 %
o	2.88 %
p	2.62 %
q	0.15 %
r	5.24 %
s	8.33 %
t	8.77 %
u	3.67 %
v	0.92 %
w	1.23 %
x	0.40 %
y	1.13 %
z	0.87 %
ß	0.08 %

Vielleicht wäre das auch für den Artikel interssant. --Jobu0101 (Diskussion) 10:43, 15. Apr. 2014 (CEST)Beantworten

Buchstabenhäufigkeiten der erweiterten lateinischen Alphabets

Letzter Kommentar: vor 9 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Was bringt es denn die Buchstaben vor allem beim Polnischen extra aufzuschreiben, wenn dann da nur steht man solle sich den ableitenden Buchstaben anschauen und dort dann trotzdem nur ein Wert steht oder habe ich was übersehen --89.183.64.167 19:33, 5. Nov. 2015 (CET)Beantworten

Buchstabenhäufigkeit in ausgewählten Sprachen

Letzter Kommentar: vor 8 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

In der Tabelle kommen alle möglichen Akzentformen der Buchstaben vor, aber nicht die deutschen Umlaute ä, ö und ü. Warum? Außerdem ist für ë für alle Sprachen 0,00 % angegeben, was zumindest für Französisch nicht stimmen kann? --88.217.57.219 00:49, 17. Aug. 2016 (CEST)Beantworten

Zeichen- und Buchstabenhäufigkeit basierend auf einer Stichprobe von knapp 180 Milliarden Zeichen

Letzter Kommentar: vor 6 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Wir haben heute in den Abschnitt Weblinks einen Verweis auf die Zeichen- und Buchstabenhäufigkeitstabellen des Instituts für Deutsche Sprache in Mannheim eingefügt. Den Statistiken liegt eine Textstichprobe von 179617554197 (knapp 180 Milliarden) Zeichen aus dem Deutschen Referenzkorpus zugrunde, siehe Dokumentation. --(nicht signierter Beitrag von 193.196.8.105 (Diskussion) 11:16, 19. Mär. 2018 (CET))Beantworten

Schriftzeichenhäufigkeit politisch belasteter Zeichen

Letzter Kommentar: vor 5 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Kann jemand bestätigen, dass in allen ostasiatischen Sprachen die Zeichen U+534D und U+5350 (zumindest wenn das Tempelzeichen in Stadtplänen und Landkarten nicht mitgezählt wird) deutlich seltener sind, als es die Buchstaben Z und z in den meisten EU-Amtssprachen tun? Oder habe ich mich geirrt? --2003:D2:4F1B:7FCB:740B:9DE:E0C5:FF9C 17:41, 6. Jul. 2022 (CEST)Beantworten

Das Zeichen steht für die Myriade, wird aber nur in buddhistischen Kontexten als Symbol gebraucht. Es kann mit einer Standardtastatur (egal welcher ostasiatischen Sprache) gar nicht getippt werden. --2001:16B8:BA32:8A00:C52D:D1B9:FF85:9021 22:55, 13. Sep. 2024 (CEST)Beantworten

Buchstabenhäufigkeit in anderen Sprachen

Letzter Kommentar: vor 5 Monaten2 Kommentare2 Personen sind an der Diskussion beteiligt

Guten Abend,

die folgende Formulierung empfinde ich als unglücklich :"Besonders bemerkenswert in der Tabelle ist, dass im Deutschen der Buchstabe E deutlich häufiger und der Buchstabe O deutlich seltener angewendet werden als in romanischen und slawischen Sprachen."

Weil, das ist nicht bemerkenswert, sondern logisch. Denn "o" ist im slawischen allgemein die typische Endung für sachliche Wörter. Übrigens wird das "o" tlw. als "a" gesprochen. Und dass das "e" seltener vorkommt, liegt daran, dass es im slawischen i. d. R. 2 "e" im Alphabet gibt.

Übrigens haben sich in der Tabelle ein paar Fehler eingeschlichen. Im polnischen gibt es 2 verschiedene "o", wie auch zwei verschiedene "e". Ergo stimmen die Zahlenwerte nicht! Dies sollte man korrigieren!

Quelle: https://en.wikipedia.org/wiki/Polish_alphabet --2A02:810A:113F:84C8:E18F:6617:A799:E438 23:55, 9. Mai 2023 (CEST)Beantworten

Nur im Russischen gibt es die Vokalreduktion von o zu a, und die benutzen das kyrillische Alphabet. Von daher ist das irrelevant. --2001:16B8:BA32:8A00:C52D:D1B9:FF85:9021 23:25, 13. Sep. 2024 (CEST)Beantworten

Abschnitt hinzufügen