Babel:
de Diese Person spricht Deutsch als Muttersprache.
en-2 This user is able to contribute with an intermediate level of English.
Wien
Wien
Dieser Benutzer kommt aus Wien.
Benutzer nach Sprache

Wiki-Gini: Gini-Koeffezienten für die Wikipedia berechnen

Bearbeiten

Ich habe vor ein paar Wochen einen Artikel auf der englischsprachigen Wikipedia mit dem Titel "Who wrote Wikipedia" gelesen (oder so ähnlich, finde leider den Link nicht mehr). Der Autor setzt sich kritisch mit der Frage auseinander, ob die Wikipedia von einer Handvoll Enthusiasten verfasst wurde (soll Jimmy Wales einmal anhand einer Auswertung der Anzahl der Änderungen behauptet haben) oder tatsächlich von einer anoymen Schar. Leider konnte der Autor aufgrund fehlender Rechenkapazitäten keinen endgültigen Schluss ziehen.

Deshalb wäre es sehr interessant einen Gini-Koeffizienten und eine Lorenzkurve für die Wikipedia zu berechnen, aber nicht die bloße Anzahl der Änderungen als Maß zu nehmen, sondern die tatsächlichen Zeichenanzahl, die ein Benutzer geschrieben hat. Die beiden Maße wären ein hervorragender Indikator, um zu beschreiben, wie "ungleich" verteilt die Wikipedia erstellt wurde. Wales tippt ja auf die 80/20-Verteilung: also 80% der Wikipedia wurde von 20% der aktiven Benutzer erstellt. Seine groben Auswertungen der Änderungen haben eine noch viel schiefere Verteilung.

Ich denke, die notwendigen Auswertungen sind dafür ja nicht so wahnsinnig kompliziert, nur die Versions-diffs richtig zu berechnen, könnte ein wenig anspruchsvoller sein. Einziges Problem ist die zu bewältigende Datenmenge, denn man müsste das Programm natürlich über alle bisherigen Änderungen laufen lassen.

Mein Frage gleich darauf:

  • Könntet ihr so ein Programm auf den Wikipedia-Servern laufen lassen? Oder muss ich mir noch ein paar Festplatten besorgen?
  • Wisst ihr vielleicht, ob es bereits eine ähnliche Auswertung gibt?

http://de.wikipedia.org/wiki/Wikipedia_Diskussion:Wikipedistik