DB dump
Innerhalb des Volltextes [1] wurden in der Wikipediaversion 20151002 total 445 220 217 Worte und Wortfragmente in total 2 151 335 Artikeln (nur Namensraum 0) identifiziert, wobei 4 786 343 einzigartige Wörter gezählt wurden. Das häufigste Wort ist dabei "der" mit 20 798 318 Vorkommen (4.6715 % aller Wörter), während 2 423 906 Wörter nur ein einziges Mal im ganzen Text vorkommen. Somit kommen gut die Hälfte aller Wörter (50.6 %) nur ein einziges Mal vor im ganzen Text.[2] Insgesamt machen Wörter mit weniger als 25 Vorkommen im Text 92.6081 % aller einzigartigen Wörter aus während die 3921 Wörter die mehr als 10 000 mal vorkommen gut 74.61 % des gesamten Textvolumens ausmachen. Total gibt es nur 23 Wörter welche im Durchschnitt mehr als einmal pro Artikel vorkommen[3]
Der längste Textbaustein im Textkorpus ist [4] ist Ifwhiteamericatoldthetruthforonedayit'sworldwouldfallappart dicht gefolgt von Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch und Schwemmlandhochebewegarbeitswerkzeugaufbewahrungsschuppen und dem ersten "richtigen" deutschen Wort Verkehrsinfrastrukturfinanzierungsgesellschaftsgesetzes.
Gegen eine Liste von 103 923 Falschschreibweisen gesucht, ergibt sich folgende Liste von potentiell falsch geschrieben Wörtern:
- Benutzer:HRoestTypo/Tippfehler/20151002/1
- Benutzer:HRoestTypo/Tippfehler/20151002/2
- Benutzer:HRoestTypo/Tippfehler/20151002/3
- Benutzer:HRoestTypo/Tippfehler/20151002/4
- Benutzer:HRoestTypo/Tippfehler/20151002/5
- Benutzer:HRoestTypo/Tippfehler/20151002/6
- Benutzer:HRoestTypo/Tippfehler/20151002/7
- Benutzer:HRoestTypo/Tippfehler/20151002/8
- Benutzer:HRoestTypo/Tippfehler/20151002/9
- Benutzer:HRoestTypo/Tippfehler/20151002/10
- Benutzer:HRoestTypo/Tippfehler/20151002/11
- Benutzer:HRoestTypo/Tippfehler/20151002/12
- Benutzer:HRoestTypo/Tippfehler/20151002/13
- Benutzer:HRoestTypo/Tippfehler/20151002/14
- Benutzer:HRoestTypo/Tippfehler/20151002/15
- Benutzer:HRoestTypo/Tippfehler/20151002/16
- Benutzer:HRoestTypo/Tippfehler/20151002/17
- Benutzer:HRoestTypo/Tippfehler/20151002/18
- Benutzer:HRoestTypo/Tippfehler/20151002/19
- Benutzer:HRoestTypo/Tippfehler/20151002/20
- Benutzer:HRoestTypo/Tippfehler/20151002/21
- Benutzer:HRoestTypo/Tippfehler/20151002/22
- Benutzer:HRoestTypo/Tippfehler/20151002/23
- Benutzer:HRoestTypo/Tippfehler/20151002/24
- Benutzer:HRoestTypo/Tippfehler/20151002/25
- Benutzer:HRoestTypo/Tippfehler/20151002/26
- Benutzer:HRoestTypo/Tippfehler/20151002/27
- Benutzer:HRoestTypo/Tippfehler/20151002/28
- Benutzer:HRoestTypo/Tippfehler/20151002/29
- Benutzer:HRoestTypo/Tippfehler/20151002/30
- Benutzer:HRoestTypo/Tippfehler/20151002/31
- Benutzer:HRoestTypo/Tippfehler/20151002/32
- Benutzer:HRoestTypo/Tippfehler/20151002/33
- Benutzer:HRoestTypo/Tippfehler/20151002/34
- Benutzer:HRoestTypo/Tippfehler/20151002/35
- Benutzer:HRoestTypo/Tippfehler/20151002/36
- Benutzer:HRoestTypo/Tippfehler/20151002/37
- Benutzer:HRoestTypo/Tippfehler/20151002/38
- Benutzer:HRoestTypo/Tippfehler/20151002/39
- Benutzer:HRoestTypo/Tippfehler/20151002/40
- Benutzer:HRoestTypo/Tippfehler/20151002/41
- Benutzer:HRoestTypo/Tippfehler/20151002/42
- Benutzer:HRoestTypo/Tippfehler/20151002/43
- Benutzer:HRoestTypo/Tippfehler/20151002/44
- Benutzer:HRoestTypo/Tippfehler/20151002/45
- Benutzer:HRoestTypo/Tippfehler/20151002/46
- Benutzer:HRoestTypo/Tippfehler/20151002/47
- Benutzer:HRoestTypo/Tippfehler/20151002/48
- Benutzer:HRoestTypo/Tippfehler/20151002/49
- Benutzer:HRoestTypo/Tippfehler/20151002/50
- Benutzer:HRoestTypo/Tippfehler/20151002/51
- Benutzer:HRoestTypo/Tippfehler/20151002/52
- Benutzer:HRoestTypo/Tippfehler/20151002/53
- Benutzer:HRoestTypo/Tippfehler/20151002/54
- Benutzer:HRoestTypo/Tippfehler/20151002/55
- Benutzer:HRoestTypo/Tippfehler/20151002/56
- Benutzer:HRoestTypo/Tippfehler/20151002/57
- Benutzer:HRoestTypo/Tippfehler/20151002/58
- Benutzer:HRoestTypo/Tippfehler/20151002/59
- Benutzer:HRoestTypo/Tippfehler/20151002/60
- Benutzer:HRoestTypo/Tippfehler/20151002/61
- Benutzer:HRoestTypo/Tippfehler/20151002/62
- Benutzer:HRoestTypo/Tippfehler/20151002/63
Notes
Bearbeiten- ↑ das heisst innerhalb des Textes der vom Algorithmus analysiert wurde und Dinge wie Templates, Weblinks, Interwikilinks etc ausschliesst
- ↑
Hier eine Liste von 20 zufälligen Wörtern die nur einmal vorkommen:
- Tagungswesens
- Streuobste
- Sorhouette
- wïwa
- Krachaeng
- Brüderorte
- B.selbsterzeugte
- 3,5–12,5
- Limesübergängen
- Zwergflamingoei
- 1543—1617
- Zaisolf
- Gabriëls
- Siauve
- Überlaufwehren
- Hutarbeiterbranche
- Grünlandökologie
- erftwärts
- Weltfinanzen
- Leverwort
- ↑
die 23 Wörter, welche im Durchschnitt mehr als einmal pro Artikel vorkommen, sind:
- nach
- bis
- aus
- auch
- war
- für
- sich
- eine
- ein
- auf
- als
- Die
- das
- dem
- ist
- wurde
- mit
- des
- den
- von
- die
- und
- der
- ↑ vollständig auf deutsch, ohne Zahlen, Formatierungen etc