Diskussion:Benfordsches Gesetz
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 30 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. |
Zum Archiv |
Wie wird ein Archiv angelegt? |
Problematische Abschnitte im Artikel
BearbeitenDer Artikel scheint zu suggerieren, dass das Benford'sche „Gesetz“ ein Naturgesetz ist, dem alle, Zitat aus dem Artikel (Kommentare von mir in eckigen Klammern), „reale[n] Datensätze [... sic] die genügend umfangreich sind ...“, genügen. Diese Aussage ist (offensichtlich) im Allgemeinen falsch, da sich sehr viele äusserst umfangreiche reale Datensätze finden oder generieren lassen, die nicht Benford-verteilt sind. Dies ist im englischen Wikipedia-Artikel sehr viel besser dargelegt (allerdings ist auch der englische Artikel zu dem Thema nicht fehlerfrei):
Selbst der Logarithmus eines Datensatzes, der approximativ dem Benford-Gesetz genügt, ist per Definition dann ein realer Datensatz, welcher nicht mehr dem Benford-Gesetz genügt. (!) In diesem Sinne lässt sich jeder Datensatz (damit meine ich in diesem Kontext ein geordnetes Tupel von reellen Zahlen) übrigens "nicht-manipulativ" (to be defined) transformieren, sodass die resultierende empirische Verteilung nicht mehr approximativ einer Benford-Verteilung gleicht.
In dem deutschen Artikel steht, Zitat,
Dieser Abschnitt ist äusserst fragwürdig: Ist beispielsweise eine „Benford-verteilte“ Zufallsvariable auf , so hat genau dann als erste Ziffer im Dezimalsystem , falls . Also ist
Somit ist die Benford-Verteilung nicht in der Art, wie im Text beschrieben, invariant unter Multiplikation. Dieses Problem lässt sich ganz allgemein nicht beheben, falls man die „Grössenspanne“ der betrachteten Zufallsvariable vergrössert. Die Benford-Verteilung wird im Allgemeinen nur zu einer (in einem nicht präzisen Sinne) „approximativen“ Benford-Verteilung, falls sie mit einer Zahl multipliziert wird.
Da die Benford-Verteilung also, anders als beschrieben, nicht „invariant“ zu sein scheint, kann sie auch nicht die einzige „invariante“ Verteilung sein.
Im englischen Artikel steht
Als Referenz wird unter anderem dieser Wolfram Mathworld-Artikel verlinkt. In diesem wird aber strenggenommen nur ein Pseudo-Beweis geliefert, dass es keine „invariante“ Wahrscheinlichkeitsverteilung gibt, da eine solche nicht normalisierbar ist.
Im deutschen Artikel steht
Wäre also Benford-verteilt falls ? Irgendetwas scheint hier genauer formuliert werden zu müssen, man erhält doch nur Anfangsziffern zwischen 1 und 2, oder?
Dies gilt auch für den Abschnitt Benfordsches_Gesetz#Erzeugung_Benford-verteilter_Anfangsziffern, der zudem auch mittels der Sprache der Wahrscheinlichkeitstheorie neu formuliert werden sollte.
Die Einleitung des englischen Artikels
scheint präziser als die des deutschen Artikels.
Eine Erklärung des Gesetzes ist nicht vollständig erfolgt. Bei Benfordsches_Gesetz#Warum_viele_Datensätze_dem_NBL_folgen stehen nur vague formulierte Feststellungen, wo das Gesetz approximativ gilt, nicht aber, warum das Gesetz oft approximativ gilt (es steht dort beispielsweise, Zitat, "Geht man einerseits vom NBL in der heutigen Form aus, so existieren zahlreiche Datensätze, die dem NBL nicht genügen. Andererseits gibt es bereits eine Formulierung des NBL in der Form, dass ihm sämtliche Datensätze genügen." Was damit gemeint ist, ist mir äusserst unklar). Eine Idee wäre es, zu erwähnen, das
für alle gilt, solange irrational ist ( TODO: x überprüfen).
Bei en:Benford's_law#Multiplicative_fluctuations wird eine Erklärung versucht. Allerdings ist sie nicht rigoros, da die Bedingungen des zentralen Grenzwertsatzes nicht vollständig erwähnt werden und der Zusammenhang zwischen log-normaler Verteilung und Benford nicht ganz klar dargelegt wird. (Und der Link "see above" geht nicht.)
Als letztes noch ein Kommentar zum englischen Artikel (eigentlich hier fehl am Platz): dort steht
Viele Sachen sind hier unklar: Das Theorem habe ich nicht rigoros formuliert finden können. Doch eine „weite“ Verteilung reicht nicht aus, um Benford zu erhalten. So genügt beispielsweise eine gleichmässige Verteilung auf für im Allgemeinen nicht einer Benford-Verteilung, egal wie gross gewählt wird (und die Verteilung also beliebig weit wird!). Zudem wird von einer probability density function function gesprochen, obwohl nicht klar ist, warum die zu untersuchende Verteilung diskret ist. Was ist n? --Maximilian Janisch (Diskussion) 01:00, 13. Feb. 2022 (CET)
Literatur
BearbeitenIch habe die gerade eingefügte Literatur wieder aus dem Artikel herausgenommen. In dieser Form und Menge ist das dem Leser gegenüber eine Zumutung! Kann hier bitte jemand eine Auswahl treffen (max. 1-2 für den Laien verständliche und vielleicht ein Review-Artikel)? --TdL 6. Jul 2005 12:59 (CEST)
Barlow, J. L. and Bareiss, E. H. "On Roundoff Error Distributions in Floating Point and Logarithmic Arithmetic." Computing 34, 325-347, 1985. Benford, F. "The Law of Anomalous Numbers." Proc. Amer. Phil. Soc. 78, 551-572, 1938. Boyle, J. "An Application of Fourier Series to the Most Significant Digit Problem." Amer. Math. Monthly 101, 879-886, 1994. Flehinger, B. J. "On the Probability that a Random Integer Has Initial Digit A." Amer. Math. Monthly 73, 1056-1061, 1966. Franel, J. Naturforschende Gesellschaft, Vierteljahrsschrift (Zürich) 62, 286-295, 1917. Havil, J. "Benford's Law." §14.2 in Princeton, NJ: Princeton University Press, pp. 145-155, 2003. Hill, T. P. "Base-Invariance Implies Benford's Law." Proc. Amer. Math. Soc. 12, 887-895, 1995. Hill, T. P. "The Significant-Digit Phenomenon." Amer. Math. Monthly 102, 322-327, 1995. Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996. Hill, T. P. "The First Digit Phenomenon." Amer. Sci. 86, 358-363, 1998. Knuth, D. E. "The Fraction Parts." §4.2.4B in Reading, MA: Addison-Wesley, pp. 254-262, 1998. Ley, E. "On the Peculiar Distribution of the U.S. Stock Indices Digits." Amer. Stat. 50, 311- 313, 1996. Livio, M. New York: Broadway Books, pp. 232-236, 2002. Newcomb, S. "Note on the Frequency of the Use of Digits in Natural Numbers." Amer. J. Math. 4, 39-40, 1881. Nigrini, M. J. The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies. Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992. Nigrini, M. "A Taxpayer Compliance Application of Benford's Law." J. Amer. Tax. Assoc. 18, 72- 91, 1996. Nigrini, M. "I've Got Your Number." J. Accountancy 187, pp. 79-83, May 1999. Nigrini, M. Digital Analysis Using Benford's Law: Tests Statistics for Auditors. Vancouver, Canada: Global Audit Publications, 2000. Plouffe, S. "Graph of the Number of Entries in Plouffe's Inverter." Raimi, R. A. "The Peculiar Distribution of First Digits." Sci. Amer. 221, 109-119, Dec. 1969. Raimi, R. A. "On the Distribution of First Significant Digits." Amer. Math. Monthly 76, 342- 348, 1969. Raimi, R. A. "The First Digit Phenomenon." Amer. Math. Monthly 83, 521-538, 1976. Schatte, P. "Zur Verteilung der Mantisse in der Gleitkommadarstellung einer Zufallsgröße." Z. Angew. Math. Mech. 53, 553-565, 1973. Schatte, P. "On Mantissa Distributions in Computing and Benford's Law." J. Inform. Process. Cybernet. 24, 443-455, 1988.
Lieber TdL, Dein Literaturstellen-Brandmelder funktioniert ja besser als eine Schweizer Uhr. Ich empfehle die Beibehaltung von drei Quellen aus dieser Literaturliste: 1. Benford selber 2. Newcomb, der der eigentliche Entdecker ist 3. Nigrini - Detection of Income Tax Evasion ...-, weil er wohl weltweit der Mann sein dürfte, der gegenwärtig die meiste Erfahrung in der praktischen Anwendung des Benfordschen Gesetzes hat. Lieben Gruß Pard 6. Jul 2005 13:09 (CEST)
Logarithmus
BearbeitenHabe den Abschnitt Logarithmische Begründung des Benfordschen Gesetzes hierher verschoben, da der Logarithmus an anderer Stelle behandelt wird:
Wie man sich in der Literatur und im Web leicht überzeugen kann, sind alle Versuche, das Benfordsche Gesetz in Umgehung des Logarithmus zu erklären, letztlich schwerer zu begreifen als der Logarithmus. Ist beispielsweise x aus der Gleichung gesucht, dann findet man: , und das ist der Logarithmus von 2 zur Basis 10. Man sagt auch .
Die Mantisse (d.s. die Stellen eines Logarithmus nach dem Komma) definiert die Struktur, den ziffernmäßigen Aufbau, einer Zahl, die Positionen vor dem Komma geben lediglich Auskunft über die Position des Kommas, die Dimension der Zahl. So steht die Mantisse 0,09151 für die Zahl 1,23455374 ( 10^0,09151 = 1,23455374 ), die Mantisse 3,09151 für 1.234,55374 ( 10^3,09151 = 1.234,55374 ). Die Struktur der Zahl ist identisch, nur das Komma hat sich um 3 Positionen nach rechts verschoben.
Anton 19:54, 30. Jul 2005 (CEST)
Erwartungswert
BearbeitenIch habe den Abschnitt Erwartungswert hierher verschoben:
Ableitung des Erwartungswerts der Benfordverteilung
Auf Basis der oben dargestellten Häufigkeiten je Anfangsziffer würde man zu einem Erwartungswert von rd. 3,44 gelangen. Dieser Wert ist in diesem Fall allerdings nur eine grobe Näherung. Der Erwartungswert beträgt tatsächlich (10-1)/ln10 = 9/ln10 = 3,908650337... Dies deshalb, da der zu erwartende Anteilswert der Anfangsziffer k dem Flächeninhalt unter der hyperbolischen Funktion f(x) = 1/xln10 in den Grenzen von k bis k+1 entspricht. Der Erwartungswert der Benfordverteilung entspricht der Abszisse des Schwerpunkts der Fläche A unter dieser Funktion in den Grenzen von 1 bis 10 (A=1), die als das Integral G(x) der Funktion g(x)= x/Axln10 = 1/Aln10 in den Grenzen von 1 bis 10 wegen G(x)=x/Aln10 das Ergebnis 9/ln10 liefert.
Ich verstehe den Abschnitt nicht. Wer kann helfen?
Wenn p(x) = log(1+1/x), dann ist der Erwartungswert EX= int (log(1 + 1/x)*x dx in den Grenzen von 1 bis 10 -- und ich erhalte dafür den Wert 3.50.
Was sagt mir das?
Das benfordsche Gesetz bezieht sich auf diskrete Verteilungen, weshalb man auch mit dem diskreten Erwartungswert rechnen sollte, wenn ich den Mittelwert der ersten Ziffer wissen möchte. Anton 22:09, 30. Jul 2005 (CEST)
Lieber Anton!
BearbeitenZum Bruchstückhaften des Artikels
BearbeitenJa, Anton, Du hast recht. Der Artikel sollte von Grund auf neu konzipiert und dann in einem Guss geschrieben werden. Bislang ist er das Ergebnis von Beiträgen mehrerer Autoren mit unterschiedlichem Schreibstil und Stilmitteln und personentypischen Rechtschreib- und Flüchtigkeitsfehlern, obwohl die Hauptmasse des Artikels immer noch von mir selber stammt. Soviel zu seinen Nachteilen. Gegenüber vielen Artikeln, die es mittlerweile über das Benfordsche Gesetz gibt, hat dieser bei allen Mängeln aber den Vorteil, daß er zeigt, wie man das Gesetz in der Praxis verwenden kann, und zwar nicht ausschließlich zur "fraud detection".
Zum Logarithmus
BearbeitenDen Exkurs über den Logarithmus auf die Diskussionsseite verbannt und ihn durch eine dem durchschnittlichen Leser nicht ohne weiteres zugängliche mathematische Ableitung ersetzt zu haben, sehe ich als didaktischen Fehler, womit nämlich erreicht wird, dass außer den Autoren wieder nur wenige das Gesetz kapieren. Denn in einen Artikel "Logarithmus" guckt nur der, der wirklich muss. Ich weiß zwar nicht, warum das so ist, aber den meisten Leuten graut vor dem Logarithmus. Nur deshalb habe ich diesen einfachen Exkurs geschrieben, damit das Gesetz evtl. besser begriffen wird. Nach Deiner Logik hättest Du auch den Halbsatz, was die Fibonacci-Zahlen sind, streichen müssen, und das wäre didaktisch mindestens ebenso ungünstig gewesen. Wikipedia ist ja längst nicht mehr so leicht zu managen wie ein kleiner Hypertext, zumindest nicht zu gewissen Tageszeiten.
Verbesserungsvorschlag
BearbeitenMan sollte sich bei der Neufassung des Artikels überlegen, ob man nicht gleich die Benford-Verteilung für beliebig lange Anfangssequenzen in beliebigen Zahlensystemen der Form (ln(sequ+1)-ln(sequ))/ln z mit sequ z.B. 1412.... und z = Zahlensystem einführt und damit eine möglichst umfassende Darstellung des Benfordschen Gesetzes präsentiert. Sed cui bono ?
Zur mangelnden Erschütterung des sog. gesunden Menschenverstandes
BearbeitenDie Erschütterung des menschlichen Hausverstandes kommt meiner Ansicht nach nicht zu kurz. Reicht es nicht, daß in einer nach oben unbeschränkten Zahlenmenge des dekadischen Systems mehr als 30% aller Zahlen mit einer '1' beginnen müssen ? Wie verrückt soll Deiner Meinung nach der Hausverstand angesichts solcher Informationen noch spielen ? Hat man erst einmal verdaut, daß dies das 2,71-Fache dessen ist, was der Hausverstand vermutet hätte, wird auch für den Hausverstand wieder alles kreuznormal und logisch.
Was MEINEN Hausverstand so durcheinander bringt, das sind die Fibonacci-Zahlen, die es schon mit den ersten 30 (dreißig) Zahlen zuwege bringen, daß ihre Anfangsziffern die Benford-Verteilung so genau treffen wie kaum eine andere Liste mit so wenigen Zahlen. Da sieht man, wie stark das Benfordsche Gesetz in der Natur verankert sein muß, auch wenn es in der Natur vielleicht so heißt: "Unabhängig von der Größenordnung im Kosmos: Kleines ist immer weit häufiger als Großes". Aber sieht man das Gesetz so wie zuletzt dargestellt, kann der verdrehteste Hausverstand nicht umhin, zuzustimmen: Es gibt mehr Quarks als Atome, mehr Atome als Moleküle, mehr Methan als Naphthalin, mehr Mäuse als Elefanten, mehr kleine Sonnen als Superriesen, mehr kleine Schwarze Löcher als gigantische. Desgleichen gilt für Unternehmen, für die Anzahl von Sprechern einer Sprache (noch...), für Rechnungsbeträge, für Einkommen, für wissenschaftliche Leistungen, Artikel, Kommentare und Repliken, selbst in Wikipedia. Natürlich könnte man in einer Neufassung des ganzen Artikels solche philosophische Gedanken mit einfließen lassen, wohl aber nur, um Gefahr zu laufen, daß der nächste Co-Autor die Wissenschaftlichkeit solcher Gedanken bezweifelt und die betreffenden Passagen löscht oder bei guter Laune hier hereinstellt.
- (Anm.: ist ja schade, dass solche Beiträge nicht signiert werden - ist das hier ein Diskurs oder nur Dampfablassen?) Was den "verdrehten Hausverstand" und die vielen kleinen Mäuse anbetrifft, so scheint mir da einiges durcheinander zu geraten: "klein" oder "wenig" ist ja keine Frage der reinen abstrakten Zahl, um die es hier geht, sondern eine konkrete Quantität. Z. B. ein Einkommen, das mit einer "1" beginnt (häufig lt. Benford) lässt sich durch einen Wechsel der Währung (in preußische Gulden oder feuerländische Cordobas) in einen gleich großen Betrag transformieren, der mit einer "9" beginnt (selten lt. Benford). Was sagt der Hausverstand dazu? Signiert: --Cami de Son Duc 17:55, 6. Mär. 2010 (CET)
Zum Mittelwert: stetig oder diskret?
BearbeitenDie Logik meiner Mittelwertbetrachtung (3.91), die Deine Kritik ebenfalls nicht unverschont ließ, stammt aus einem wissenschaftlichen Artikel; ich hätte ihn gerne zitiert, aber ich konnte das betreffende pdf auf dem PC in der Eile nicht finden. Wenn ich ihn noch im Web finde, stelle ich Dir den link hier hinein. Das Wesentliche daran ist, daß Du die diskrete Benford-Verteilung beim dekadischen System ersetzen kannst durch die stetige Funktion y=1/xln10 (bei beliebigen Zahlensystemen z durch y=1/xlnz). Das siehst Du bei Integration dieser Funktion in beliebigen Grenzen innerhalb des Intervalls [1;10]. Integrierst Du zwischen so definierten Grenzen [a;b], so erhältst Du (lnb - lna)/ln10, was identisch ist mit der diskreten Betrachtung, sofern a und b ganze Zahlen sind. a und/oder b können aber auch irgendwelche andere nicht ganze reelle Zahlen sein. Der Mittelwert 3.91 entstammt dieser Logik. Die Praxis lehnt sich an eben diese Denkweise an, nimmt 3.90 oder 3.91 und fährt mit ihren Schätzungen besser als mit 3,44 oder mit 3,50. Beide Denkweisen haben etwas für sich. Pard 13:17, 5. Aug 2005 (CEST)
Hallo Pard
BearbeitenVielen Dank für die Antworten.
Zum Logarithmus: die Grafik des Log-Kreises ersetzt m.E. den Abschnitt zum Logarithmus. Wer den Log-Artikel nicht lesen will, wird auch mit dem Abschnitt nur wenig anzufangen wissen.
Fibonacci: genau. Zufallszahlen weisen diese Eigenschaft nicht auf.
Frage zu Zipf: Hast du vielleicht einen Weg gefunden, wie man nachvollziehen kann, warum sich Benfordsche und Zipf-Verteilung trotz ihrer unterschiedlichen Darstellung so gleichen?
Viele Grüße, Anton 18:57, 6. Aug 2005 (CEST)
Hallo Anton
BearbeitenDas Zipfsche Gesetz und Benford, mmh. Nehmen wir die Rangordnung aller Wörter im Deutschen. Jedem Wort wird eine Rangzahl zugeordnet. Nehmen wir an, es würden üblicherweise nur 199 Worte verwendet; das entspräche vielleicht dem vorherrschenden Wortschatz in einer durchschnittlichen Schnapsbude. Dann könnte jeder dort Anwesende mit etwas Übung statt einer Sequenz von Worten eine Sequenz von Ziffern, die für diese Worte stehen, sagen. Die als Ziffernsequenz im 200-er-System verstanden werden könnte. Jede Ziffernsequenz k hat eine Benford-Wahrscheinlichkeit der Form (ln(k+1)-lnk)/ln200. Ganz ähnlich wäre es mit den Buchstabensequenzen, inkl. Leerzeichen 27 Zeichen, also uminterpretiert im 28-er-Zahlensystem. Bei Zipf werden die untersuchten Werte einer Rangreihung unterzogen und mithin durch eine Ziffer ersetzt. Ab n = 30 beginnen 30% der Ränge mit einer 1, danach sinkt das Verhältnis zugunsten der übrigen Ränge, um ab 100 wieder die 1 zu bevorzugen, was erst ab 200 wieder aufhört, usw. Manchmal habe ich den Eindruck, nicht das benfordsche Gesetz ist ein Spezialfall des Zipfschen Gesetzes, sondern umgekehrt; das benfordsche Gesetz spricht ausschließlich von der Häufigkeit von Ziffern. Die Transformationen, die der Anwendung des Zipfschen Gesetzes vorangehen, machen aus irgendwelchen Zeichen und Symbolen Ziffern. Auch die häufigsten Strukturwörter des Deutschen sind jene Wörter, die die Struktur der Sprache erzeugen, selbst aber eine nahzu vernachlässigbare Bedeutung haben. Das Russische kommt wunderbar ohne der-die-das, ein-eine-ein etc. aus, ohne einen Funken an Bedeutung nicht darstellen zu können. Was man bei all diesen Gesetzmäßigkeiten so schwer kapiert, ist, dass die ZAHLENWERTE SELBST SO GERINGE BEDEUTUNG haben. Es zählt häufig nur der Logarithmus, und von ihm auch nur das, was hinter dem Komma steht. Und erst bei den Logarithmen haben alle die gleiche Chance, was das Kleine gegenüber dem Größeren bevorzugt. Diese Bevorzugung des Kleinen gegenüber dem Großen führt zu den typischen hyperbolischen Verläufen, wobei man oft nicht mehr sagen kann, gilt nun Benford, Zipf, Exponentialverteilung oder Logarithmische Normalverteilung, Pareto oder ... ? Statistisch kann man leider nie sagen, was wirklich GILT, sondern nur, was im konkreten Fall am besten PASST.
Einen mathematisch schlüssigen Übergang von Benford zu Zipf, den habe ich leider nicht parat. Die natürliche Tendenz zu hyperbolischen Verteilungen ist aber evident. Das betont auch B.Mandelbrot. Liebe Grüße Pard 19:46, 6. Aug 2005 (CEST)
Nochmals hallo Anton
BearbeitenZIPF ~ BENFORD
BearbeitenIch habe mir aus dem Artikel über das zipfsche Gesetz die Statistik über die Häufigkeiten von 32 Zeichen im Deutschen vorgenommen. Leider vernachlässigt diese Statistik, daß es auch Strichpunkte, Doppelpunkte, Anführungszeichen etc. und nicht nur Punkt und Komma in deutschen Texten gibt. Wie auch immer, ich habe diese 32 Zeichen als Symbole des 33-er-Zahlensystems betrachtet und dabei herausgefunden, dass das benfordsche Gesetz die Zeichenhäufigkeit im Deutschen noch besser wiedergibt als das zipfsche Gesetz. Der Unterschied im Chi² ist zwar marginal, aber es ist über 30% niedriger als beim zipfschen Approach.
- Um eine passable Statistik zu haben, hatte ich mich im Artikel auf Buchstaben beschränkt und auch nicht zwischen Groß- und Kleinbuchstaben unterschieden.
Vielen Dank für das Testen mit beiden Verteilungen. Den nächsten Schritt habe ich bisher gescheut: was ist, wenn die Mandelbrot-Zipf-Verteilung mit den zwei zusätzlichen Fit-Parametern die Benford-Verteilung numerisch gut annähert? Wie soll man das analytisch nachvollziehen, wenn es mir bereits bei den einfachen Verteilungen nicht gelingt? Anton 23:15, 8. Aug 2005 (CEST)
BENFORD
BearbeitenHast Du schon bemerkt, dass die Häufigkeit der '1' die Summe aus den Häufigkeiten der '2' und der '3', aber auch die Summe aus den Häufigkeiten der '3','4' und der '5', aber auch der '4','5','6' und der '7' usw. ist ? Das gilt im übrigen für alle Zahlensysteme. Liebe Grüße Pard 12:48, 8. Aug 2005 (CEST)
benfordsches Gesetz wäre angeblich Spezialfall des zipfschen Gesetzes
BearbeitenIch stelle den Satz: "Das benfordsche Gesetz kann als Spezialfall des zipfschen Gesetzes angesehen werden." mal hier herein. Ich glaube nämlich, dass das so nicht stimmt.
1. Das zipfsche Gesetz beruht auf einer hyperbolischen Funktion zweiten Grades, deren Stammfunktion eine Hyperbel der Form F = C/R oder einfach F(x) = c/x ist. Die Stammfunktion der Benford-Funktion f(x) = 1/xlnB (B für Zahlenbasis) ist eine logarithmische Funktion.
2. Die Benford-Verteilung ist logisch ableitbar, das sogenannte zipfsche Gesetz ist empirisch gefunden; erst danach ist eine mathematische Entsprechung gesucht worden, die, anders als beim benfordschen Gesetz, der willkürlichen Wahl einer optisch naheliegenden mathematischen Funktion entsprang. Das ist aber höchst unwissenschaftlich, würde Sir K.Popper gesagt haben, weil er vor seinem Tod stets den umgekehrten Weg forderte. Was er jetzt fordert, weiß keiner.
3. Das zipfsche Gesetz wird in der Linguistik mit höchst mäßigem Erfolg probiert, es stimmt einfach nicht hinreichend genau. Das benfordsche Gesetz stimmt in seinen Einsatzgebieten hinreichend genau, und zwar mit wachsender Stichprobe immer genauer.
4. Ich halte das zipfsche Gesetz, auch wenn es einen netten Namen hat, für eines der zahlreichen Artefakte der Wissenschaft. Den Häufigkeiten sind Nominaldaten, wie Buchstaben (die in jeder Sprache anders geordnet sind) oder Wörter, unterlegt. Man weiß nicht, wie man diese Daten auf der Abszisse objektiv ordnen soll. Dann rangreiht man die Häufigkeiten nach fallenden Werten und erhält damit zwingend eine monoton fallende Funktion. Da die Werte nicht um einen konstanten Wert fallen, ergibt sich fast zwangsläufig eine sortierte Aneinanderreihung, die wie eine Hyperbel aussieht. Ich meine, als Zipf das sah, sagte er, ah, eine Hyperbel, und ihm fiel ein: y = 1/x, multipliziert mit einem Faktor c. Genauso wie die linguistischen Sortierungen kann man die Intelligenzquotienten der Passagiere der S-Bahn sortieren, und man wird wiederum eine "hyperbolische Gesetzmäßigkeit" finden. B. Mandelbrot dürfte das erkannt haben, weil er offenbar das zipfsche Gesetz zu reparieren versuchte. Ich erinnere mich eines Kommentars eines Wikipedianers auf der Diskussionsseite des zipfschen Artikels, der meinte, er verstehe die Deduktionen rein gar nicht, weil er weder Linguist noch Mathematiker sei, aber ihn mute all das wie eine Tautologie an. Er hat ja recht: Diese sortierten Daten sagen nur aus: "Größere Häufigkeiten sind größer als solche, die kleiner sind als die größeren." Quae sapientia !
5. Die Summe aller Häufigkeiten beim zipfschen Gesetz ergibt nicht nur nicht 100%, sie steigt bei wachsender Zahl an Elementen über 100%. So ein GAU passiert bei Benford nie.
6. Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65). Das zipfsche Gesetz ist daher wahrscheinlich nicht unentbehrlich. Man könnte jetzt wieder mutmaßen, vielleicht liegt die zipfsche Sortierroutine dem genetischen Code, der ja auch 64 Zeichen hat (A,C,G,T im Dreierpack ergibt 4³ = 64 Zeichen), oder der Schrift der Japaner zugrunde, vielleicht auch dem durchschnittlichen Verrentungsalter in Nordossetien. Liebe Grüße Pard 15:42, 9. Aug 2005 (CEST)
Benford -> Zipf + Paretto
BearbeitenHallo Pard,
Du schreibst: Das zipfsche "Gesetz" entspricht haargenau der Benford-Funktion 1/xln65 eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65).
Leider nicht ganz, siehe Vergleichsgrafik unter Zipf. Bei kleinen Werten treten Abweichungen auf, die nicht von der Normierung abhängen, sich aber u.U. durch weitere Parameter (Mandelbrot) verringern lassen. Die Normierung ist bei der Benford-Funktion ohne Zweifel eleganter, bei Zipf aber auch kein großes Problem (Taylor-Näherung).
Wenn sich beide Verteilungen zusammen führen ließen, sollte Zipf ein Unterpunkt von Benford werden, ebenso wie die Pareto-Verteilung...
Anton 18:36, 9. Aug 2005 (CEST)
Benford -> Zipf + Pareto
BearbeitenHallo Anton,
Das Problem beginnt ganz in den Anfangsgründen. Der zipfsche Ansatz ist hyperbolisch. Die Integralkurve der Zipfverteilung ist eine Hyperbel der allgemeinen Form F(x) = c/x, die im Quadranten (x>0;y>0) von links oben nach rechts unten verläuft. Daher ist die Zipf-Funktion eine Funktion der Form f(x) = k/x², die einen ähnlichen Verlauf nimmt. Die Benford-Funktion ist von der Form 1/xlnB, die Integralkurve lautet daher F(x)= lnx/lnB, die im oben definierten Quadranten von links unten nach rechts oben verläuft. Wenn wir die Stammfunktionen miteinander vergleichen, sehen wir den Unterschied, der evident ist.
Das Problem ist auch, dass das zipfsche Gesetz - ebenso wie das von Lotka und jenes von Bradford, wohl eher durch eine Art geometrischer Verteilung darstellbar ist, und dass deshalb beide Gesetze quasi entbehrlich wären. Zudem hat die Rangreihung von Häufigkeiten fast immer die Tendenz, hyperbolisch auszusehen.
Wenn dann noch nach Buchstaben oder Worten sortiert wird, kommt mir das so vor, als würde ich die Benford-Verteilung darstellen, indem ich die Anfangsziffern auf der Abszisse nach deren Anfangsbuchstaben im Alphabet reihte, was in fast allen Ländern auf einen unterschiedlichen Verlauf hinaus liefe. Wie Du möglicherweise gelesen hast, bezweifle ich die Existenz des zipfschen Gesetzes daher generell, zumal auf der Abszisse vergleichbarer Unfug gemacht wird. Zipf war ein anerkannter Linguist von Harvard; Mathematiker war er keiner. Als Linguist staunt man sicher bald über was, wenn 's mathematisch wird.
Dieselbe Methode, die Zipf verwendet hat, wurde mir vor 2 Jahren von einem entfernten Spross einer bekannten europäischen Adelsfamilie mit stolzgeschwellter Brust präsentiert (in anderem statistischen Zusammenhang). Ich war versucht, diesen Approach nach ihm zu benennen, habe den Namen aber dann doch, aus Gründen der Wahrung der Anonymität, zwiefach tabuistisch entstellt und nenne den Approch seither GELBBROT-METHODE. Mit ihrer Hilfe kann man herrliche Fakes produzieren. Der Erkenntnis ist so was freilich nicht dienlich. Ich bezweifle nicht, dass es bei Sortierung von Häufigkeiten zu einem hyperbolischen Verlauf kommt. Aber das liegt m.E. mehr am Befehl SORT, weniger an Zipf.
Liebe Grüße Pard 11:11, 10. Aug 2005 (CEST)
- Hallo Pard, leitet sich daraus ein Ansatz ab, mind. die drei Artikel zusammen zu fassen?
Gruß, Anton 15:46, 10. Aug 2005 (CEST)
Hallo Anton, irgendwie schon. Es gibt eine ganze Reihe hyperbolischer oder zumindest so aussehender Beziehungen, Verteilungen und Gesetzmäßigkeiten, dass man die wichtigsten von ihnen in einem synoptischen Artikel zusammenfassen könnte: Benford, Zipf, Lotka, Bradford, Pareto et al., Exponentialverteilung, geometrische Verteilung, die Indifferenzkurve der Nutzentheorie und anderes mehr. Dabei wäre zu unterscheiden, wie sie gefunden wurden, und wie man sie theoretisch begründen konnte. Dabei wären Benford, Exponentialverteilung und geometrische Verteilung jene, die eine gut fundierte theoretische Begründung haben, Pareto, Lotka und Bradford stehen eher in der Mitte und Zipf steht mit der Indifferenzkurve der Nutzentheorie am unteren Ende des Wissenschaftlichen. Diese Trennung würde ich beibehalten, sonst gerieten Benford et al. in Misskredit. Hast Du Ideen zu einem solchen Artikel, wollen wir ihn gemeinsam verfassen, und wenn ja, was würdest DU am liebsten machen ? Liebe Grüße 80.120.159.102 22:44, 11. Aug 2005 (CEST)
- Gerne, nur wie gehen wir vor?
Die Gliederung deutest du bereits an: Richtige Verteilungen, gefühlte Verteilungen, Anwendungen. Wird dann der Artikel nicht zu lang? Welche Teile sollten wir wie ausgründen?
Bei Diskussion:Pareto-Verteilung las ich den Satz: ... oder Artikel für 80/20-Regel schreiben. --Hubi 16:37, 22. Jul 2004 (CEST). M.E. hat die Pareto-Regel nichts mit einer Verteilung gemein und sollte in der Tat als eigenes Stichwort fungieren. Anton 21:57, 12. Aug 2005 (CEST)
- Hallo Anton, ich habe nachgedacht. Der Artikel wird wirklich lang. Zu vielen der schon existierenden (und guten!) Artikel können wir ja wie gewohnt unsere links setzen und sie ansonsten nur in einem Satz umschreiben, und basta.
Wenn wir so gliedern: "HYPERBOLISCHE" GESETZMÄSSIGKEITEN bisweilen sind sie nicht wirklich hyperbolisch, sie sehen manchmal nur danach aus. Das sollten wir erklären. Dann sollten wir darstellen, auf welche Arten man zu solchen Beziehungen gelangt: - DURCH MATHEMATISCHE ABLEITUNG das führt zu in der Praxis verifizierbaren Theorien (Grafiken) - DURCH SORTIERUNG VON HÄUFIGKEITEN das führt zu Tautologien, wie wir anhand grafischer Darstellungen belegen können. -- ZAHLEN
BENFORD interessant ist dabei auch die BINÄRE Betrachtung.
Kein Verhaften an den Ziffern 1 bis 9, wir entwickeln die Benford-Häufigkeiten mittels einer primitiven Formel von 1 bis n und können einfach zeigen, wie die Wahrscheinlichkeiten in jeder Dimension immer wieder aufscheinen; es ist fast wie ein Fraktal. Benford-Funktion ist stetig und der Mittelwert tatsächlic 3,909. -- LINGUISTIK
ZIPF (nicht kritiklos...)
-- ÖKONOMIE
NUTZENFUNKTION (nicht ohne Anmerkungen)
PARETO
LORENZ
-- PUBLIZISTIK
BRADFORD
LOTKA
Was meinst DU ? Liebe Grüße Pard 23:07, 15. Aug 2005 (CEST)
Zu den Weblinks
BearbeitenDer Weblink http://matheag-sii.bildung-rp.de/assets/html/Benford/ zeigt in der Materialsammlung Daten über Städtegrößen und der Einwohnerzahlen in den USA. Interessant ist, daß die Städtegrößen mit der Einwohnerzahl nicht signifikant korreliert sind (n=51, r = 0,10; nicht signifikant; 1% der Varianz in erster Näherung dadurch erklärt). Weitere Überprüfung ergibt, daß die Städtegrößen nur bei sehr toleranter Irrtumswahrschein-lichkeit (<1%) als vielleicht zipf-verteilte, wohl kaum aber benford-verteilte Größen anzusehen wären. Bei den Einwohnerzahlen scheint zumindest bei diesem Datensatz eher die Hypothese Benford-Verteilung als die einer Zipf-Verteilung nicht zu verwerfen zu sein. Was zeigt, dass nicht alles so verteilt ist, wie man es gerne hätte. Jetzt, da die Benford-Verteilung, 120 Jahre nach ihrer von der Öffentlichkeit ignorierten Entdeckung, so richtig populär zu werden beginnt, gibt es manchen, der plötzlich dieses Kräutlein für sich entdeckt und es nun gleich als Allheilmittel anpreist: Die Dauer von Kriegen, die Einkommensverteilung u.v.a.m, überall soll nun auf einmal die liebe Benford-Verteilung herhalten. Es nimmt eben vieles progressiv ab, und das sieht halt fast immer aus wie eine Hyperbel oder wie ein Logarithmus aus einem Bruch, zB. ln((x+1)/x). Aber ob es in Wirklichkeit gar so einfach ist? Dies alles fragt sich über die Moden in der wissenschaftlichen Öffentlichkeit schmunzelnd Pard 23:25, 4. Sep 2005 (CEST)
Exzellentendiskussion, 22. September
BearbeitenBin kein Wikischreiber und habe auch dieses Vorschlagswesen für exzellente Beiträge nur teilweise nachvollzogen. Aber ich finde man sollte den Artikel als exzellent markieren. So wie der/die Autor(en) da einen Sachverhalt präsentieren, der dem 'gesunden Menschenverstand' kreuzquer geht ist schon vorbildlich. Ich wünsche mir, dass Artikel zur und über Mathematik häufiger klar strukturiert und vollständig beschrieben werden. Dass dabei aber nicht ins Expertenverständnis abgedriftet wird. Eine 'Exzellenz- Markierung' könnte andere Autoren dahingehend ermutigen. R. K
Luha 16:36, 23. Sep 2005 (CEST)
Pro Ich habe das als mathematischer Laie gelesen (habe die Formeln nicht im einzelnen nachvollzogen), konnte den Aussagen folgen und fand es sogar noch interessant. --Pard 16:51, 23. Sep 2005 (CEST)
Kontra Ich habe selbst einen großen Teil des Artikels verfaßt. Zu dieser Zeit war das, was der Artikel bietet, in etwa der Succus der Informationen, die (mir) nach Recherchen zur Verfügung stand. Nach heutigem Stand der sich rasant weiter entwickelnden Forschung gehört der Artikel vorher total umgeschrieben; vieles ist zu wenig klar dargestellt, viel Neues lässt das Newcomb-Benfordsche Gesetz in einem etwas anderen Licht erscheinen. Und viele Steuerprüfer werden auch noch mal die Schulbank drücken müssen. Tja.Kontra Bisher ist der Text zu ungenau und teilweise weitschweifig, z.B. bereits in der Einleitung darauf einzugehen, dass es sich NICHT um einen Spezialfall des Zipfschen Gesetztes handelt, ist unpassend. Artikel ist interessant, aber sicher nicht exzellent. --- Arno Nymus, 2006-11-21, 05:42
Das mit Zipfschem Gesetz am Anfang hat einen ganz bestimmten Grund, ist aber sicher nicht der Gipfel der Professionalität. Es gibt nämlich immer wieder Stimmen, die behaupten, eines der beiden Gesetze wäre die Verallgemeinerung des anderen. Was völlig falsch ist. Pard
- Hallo Pard, das sehe ich natürlich anders. Zipf ist ein Spezialfall der Benfordschen Verteilung. Wahrscheinlich hast du meine Begründung herausgenommen. Falls erforderlich, muss ich sie nochmals heraussuchen. Gruß, Anton 22:21, 13. Dez. 2006 (CET)
Benford-artige Statistik der Größe deutscher Städte
Bearbeiten>quote Die erste Ansatz, das Benfordsche Gesetz zu verwerfen, hilft nicht. Denn dann brauchte man eine andere Erklärung für die Ungleichverteilung der Anfangsziffern. Statt dessen ist zu vermuten, dass die Ziffern 7-9 aufgerundet werden auf 1 oder 2.
Für das Bestreben einer 1 an erster Stelle spricht, dass ab 100.000 Einwohnern eine deutsche Stadt als Großstadt zählt. Ob es eine ähnliche Schwelle bei 20.000 Einwohnern gibt, wie in Österreich, oder bei 200.000, ist dem Autor nicht bekannt. unquote<
Dieses Beispiel ist mit großer Wahrscheinlichkeit ein Element der Menge der Datensätze mit zu geringer Standardabweichung der dekadischen Logarithmen. Da es in Deutschland keine Stadt mit 10.000.000 Einwohnern gibt, beträgt die Standardabweichung der Logarithmen zur Basis 10 nach meiner vorsichtigen Schätzung weit unter 0,4. Um diese genau zu kennen, bräuchte man jetzt den Datensatz, den man logarithmieren kann. Bei einer solch mickrigen Standardabweichung ist die Gültigkeit des NBL nahezu auszuschließen. Kompliziert, weshalb das so ist, aber: ISSO: Alle all zu eng liegenden und sich dennoch verbenfordisieren wollenden Datensätze enden so tragisch. Ein österreichischer Datensatz dieses Genres würde einem NBL-Test ebenso wenig standhalten, da 20.000 die untere Grenze ist und 1,5 Mio (Wien) die Obergrenze, was auch eine Spannweite von weniger als 2 ergibt und daher viel zu gering ist.
Ich habe daher einige ersatzlose Streichungen vornehmen müssen, wie den Satz, der trotz der eklatanten Widersprüche zum NBL am NBL festhält und - was sicher wieder nur unserer österreichischen Unachtsamkeit zuzuschreiben ist - die absolute Korrektheit der mit beknnater preußischer Disziplin gesammelten und verwalteten deutschen Einwohnerdaten in Zweifel zieht. Spaß beiseite: Das NBL in der bekannten Form gilt einfach nicht für zu eng liegende Datensätze. Selbst bei Berücksichtigung der 15.000-er Städte gibt es in Deutschland keine Städte mit der Größenordnung von 15.000.000 (wie Shanghai oder Moskau bei Tag); aber wenn wir doch erst ab einer dekadisch logarithmischen Spannweite von 3 und Normalverteilung der Logarithmen das NBL postulieren dürfen!(ISSO)Drunter wird's ganz rasch sehr unsicher. Pard 01:40, 7. Jan 2006 (CET)
Einige Löschungen im Artikel
BearbeitenIch habe heute im Artikel einige Korrekturen und Löschungen vorgenommen. Es handelt sich mitnichten um einen Vandalenakt, sondern um ernstgemeinte Löschungen heute so nicht mehr haltbarer Aussagen und bei den Korrekturen um Präzisierungen. Fallweise habe ich auch Passagen gelöscht und deren Sinn, wo es besser in den Kontext paßte, in einem Halbsatz hinzu gefügt. Ich meine, der Artikel wurde dadurch nicht nur kürzer, sondern zumindest auch nicht schlechter. Pard 02:21, 7. Jan 2006 (CET)
- Hallo Pard, vielen Dank für deine Erweiterungen. Auf die Schnelle kann ich leider nicht kommentieren -- die Vielzahl der Einzel-Änderungen (mehr als 50...) kann ich nicht mehr mit der Standardeinstellung erfassen. Anton 14:03, 7. Jan 2006 (CET)
NBL
BearbeitenDie im Text wiederholt verwendete Abkürzung NBL ist nicht explizit erklärt, bedeutet vermutlich "Newcomb Benford Law" ... könnt man das (falls es stimmt) bitte noch aufnehmen, die Abkürzung fällt sonst irgendwie vom Himmel. --Pik-Asso 09:58, 9. Jan 2006 (CET)
Ixh hab 's hinzugefügt. Grund des "Falls vom Himmel" ist, dass mir der Server meine erste NBL-Erklärung vor Tagen nicht "gefressen" hat, und ich dann darauf vergaß. Danke für Deine Erinnerung. Pard 13:51, 9. Jan 2006 (CET)
Radosophie
BearbeitenHallo Amtis, habe deine Zeile:
- Siehe auch Radosophie - Eine andere Möglichkeit Daten auf Korrektheit zu überprüfen
herausgenommen. Ich sehe beim besten Willen keinen Zusammenhang zwischen Zahlenmystikern und Benford. Anton 04:20, 26. Mär 2006 (CEST)
Benfordsches Gesetz und Radosophie
BearbeitenMir ist schon viel Unsinn untergekommen; die Verbindung zwischen Radosophie und Benfordschem Gesetz (NBL)ist ein wirklich großer. Wahr ist, dass die Behauptung vieler vor 2000, (nahezu) jeder Datensatz folge dem NBL, falsch ist. Wahr ist allerdings auch, dass es Voraussetzungen gibt, unter welchen das NBL schlicht gelten MUSS. Wahr ist weiters, dass diese Voraussetzungen in der Praxis sehr häufig gelten, weshalb das NBL in der Praxis sehr häufig gilt. Da ich darüber gerade eine wissenschaftliche Publikation schreibe, kann ich mich über diese Voraussetzungen z.Zt. nicht weiter verbreitern. Pard 89.144.230.207 09:38, 28. Jun 2006 (CEST)
Wenn sogar Christoph Droesser
Bearbeitendas in der ZEIT zitiert (http://debatte.zeit.de/WebX?14@@.6b9e7dc5/2), so KANN es nur ein HOAX sein. <eg> Und damit ist es per axionem unlustig (haben Axiome so an sich). Ich beantrage daher schnellstmögliches SLA. Hilfsweise ABM für CD. Und dass Ihr das noch als "lesenswert" markiert, ist schon irgendwie WIRKLICH gut.
An den Obigen, der sich schlauerweise nicht unterschrieb
BearbeitenWenn Du schon einen Strauß auszufechten hast mit Christoph Droesser, so ist das Deine Sache. Am NBL ist absolut etwas dran, Du verstehst eben (noch) nichts davon. Lies doch erst mal die angeführte Literatur des Fachmanns Peter Posch von der Uni Ulm, dann wirst Du das ganze nicht als SDL-würdigen HOAX einstufen. Vorausgesetzt, Du weißt noch oder schon, was "Logarithmus" bedeutet; sonst kannst Du es getrost bleiben lassen. Nichtwissen ist ja keine Schande, im Nichtwissen aber alles als Hoax einzustufen, was man nicht begreift, ist irgendwie ..., wie soll ich es nennen ? Ich habe mir den Kommentar des Christoph Droesser im übrigen angesehen, und er hat recht: Für Fahrtenbuchangaben gilt das Benfordsche Gesetz. Was er nicht sagte und nicht wußte, unter welchen Voraussetzungen das stimmt. Aber die Voraussetzungen kennen viele, selbst die Finanzämter, nicht zur Gänze... Weiterhin viel Vergnügen beim Studieren rätselhafter Artikel! Pard 89.144.220.194 19:03, 25. Jun 2006 (CEST) die ziffer ein in vielfachen zum 2er zahlensystemen bin mathemathisch nicht so hoch, aber ist das zufall, was das op-of--calc ergibt:
Basis Zahlensyst. bedf. = 1/basis 0 1 Err:503 1 2 1,000000 2 4 0,500000 3 8 0,333333 4 16 0,250000 5 32 0,200000 6 64 0,166667 7 128 0,142857 8 256 0,125000 9 512 0,111111 10 1024 0,100000 11 2048 0,090909 12 4096 0,083333 13 8192 0,076923 14 16384 0,071429 15 32768 0,066667 16 65536 0,062500 17 131072 0,058824 18 262144 0,055556 19 524288 0,052632 20 1048576 0,050000
Zipf (2)
BearbeitenPard schrieb:
- Induziert durch einen optisch ähnlichen Funktionsverlauf und durch die unter Punkt 1 beschriebenen präsentationsbedingten Suggestivwirkungen wurde bisweilen schon spekuliert, das NBL sei nichts als ein Spezialfall des Zipfschen Gesetzes. Diese unhaltbare Annahme ist durch drei Argumente leicht zu entkräften:
- Erstens basiert das Zipfsche Gesetz auf diskreten Funktionen, das NBL ausschließlich auf stetigen.
- Zweitens basiert die Verteilung des NBL auf der logarithmischen Funktion, die Verteilung des Zipfschen Gesetzes auf der Hyperbelfunktion. Von dem einen Phänomen zum anderen gelangt man bestenfalls über den Weg der Infinitesimalrechnung. Im Rahmen dieser Rechnungsart zeichnet sich nur die Funktion durch Identität mit ihrem Differential bzw. unbestimmten Integral aus. Da keines der beiden Phänomene explizit auf exp(x) beruht, kann das NBL kein Spezialfall des Zipfschen Gesetzes sein.
- Drittens lässt sich die logarithmische Funktion zwar leicht als unendliche Summe von parabolischen Funktionen darstellen, aber nicht von hyperbolischen. Der Unterschied zwischen beiden Phänomenen ist daher selbst bei gewissen optischen Ähnlichkeiten und der Identität beider Funktionen im Unendlichen (vorher nicht), beachtlich.
Anton meint, doch einen Zusammenhang zwischen Zipf und Benford zu sehen. Was wird aus dem Unterschied, wenn man Abszisse und Ordinate vertauscht?
PS: Hallo Pard, ich hoffe, dir geht es gut! Mehrfach sind mir hier Leute begegnet, die Änderungen ohne Aufhebens rückgängig machen. Ich habe aufgehört mich zu ärgern. Ich nehme die Artikel in diesen Fällen aus der Beobachtung. Um Benford täte es mir Leid. Anton 22:05, 14. Dez. 2006 (CET)
Hallo Anton
Bearbeitendanke, es geht mir schon wieder einigermaßen. Benford erhitzt die Gemüter, das ist doch auch was wert. Gegen Korrekturen und Verschlimmbesserungen ist man in keinem Artikel gefeit. Mittlerweile sollte der Artikel in einem Guss völlig neu verfasst werden. Wird schon werden, hab zur Zeit keine Zeit dazu. Lieben Gruß Pard
Kritisches
Bearbeiten"Das Benfordsche Gesetz, auch Newcomb-Benford's Law (NBL), zählt zu den universellen Verteilungsgesetzen der Stochastik. Es beschreibt eine fundamentale Gesetzmäßigkeit der Verteilung der Ziffernstrukturen der Zahlen in Datensätzen". Diese Sätze halte ich beide für gewagt (milde formuliert). Dieses Gesetz ist eben nicht "universell". Und es ist ebensowenig "fundamental". Und es ist nicht mal ein Gesetz, sonst müsste es hier vernünftig formuliert sein: "Wenn bestimmte Voraussetzungen gelten, dann folgt dieses und jenes." Ich hielte es für schlüssig auch einige kritische Sätze einzubringen, damit der Laie nicht glaubt das Benford'sche Gesetz ließe sich ganz allgemein auf alle oder die meisten Datensätze anwenden. Es ist ja auch nicht schwierig andere Datensätze zu erfinden: Lebensdauern etwa (in Jahren), Monatseinkommen (in Euro), Körpergröße (in Meter) und so weiter. Auch die Angaben im Abschnitt "Gültigkeit des NBL" scheinen mir ein wenig willkürlich und jedenfalls nicht hinreichend zur Gültigkeit des Gesetzes. Fazit: Mir scheint das Ganze eher eine Heuristik für Soziologen zu sein als ein "fundamentales universelles Gesetz der Stochastik". Wenn wer drüber diskutieren will, bitte, gerne. mfg. --Mediocrity 16:47, 12. Mär. 2007 (CET)
Annähernd fundamental!
BearbeitenDu hast recht, das NBL gilt immer, wenn gewisse Voraussetzungen erfüllt sind und nicht, wenn diese nicht erfüllt sind. Die wesentlichste Voraussetzung ist genau 1 definierter statistischer Parameter der Logarithmen der Daten, der je nach Verteilung nicht unter einem spezifizierbaren Wert liegen darf. Einschränkungen solcher Art gibt es für die allermeisten Gesetzmäßigkeiten. Für die meisten Gesetzmäßigkeiten gelten weit mehr Einschränkungen. Daher ist das NBL zumindest nahezu fundamental, meine ich. Lieben Gruß Pard
Anschaulichkeit
BearbeitenZumindest für mich als nicht-Mathematiker ist das folgende Beispiel interessant, da es eine intuitiv nachvollziehbare Erklärung für das Phänomen gibt. Da ich aber leider gar keine Ahnung von der Materie habe, möchte ich das nicht selbst einfügen.
This law states that in certain long lists of numbers, such as tables of logarithms or the lengths of rivers, the first digit of each number is unevenly distributed between one and nine. Instead, there are far more numbers beginning with one—about a third of the total—and far fewer starting with nine. For example, a 2km stream is twice as long as a 1km stream; by contrast, a 10km stream is only 11% longer than a 9km stream. So you will find more streams measuring between 1km and 2km than between 9km and 10km.[1]
--Kricket 08:51, 21. Mär. 2007 (CET)
- Dass die Anfangsziffern von Logarithmen nicht gleich verteilt sind liegt auf der Hand, da muss man sich nur die Logarithmus-Fuktion anschauen. Was mich an dem Artikel stört ist dass nicht unterschieden wird zwischen einer Heuristik ("wenn man Längen von Flüssen misst ergibt sich ungefähr folgendes Bild:") und mathematischen Sätzen (die beweisbar sind und bewiesen werden müssen). Dieser Unterschied mag für einen Nicht-Mathematiker nicht so interessant sein, aber trotzdem sollte das m.E. im Artikel genau behandelt sein und nicht irgendwie wischi-waschi. Dass die Sache interessant ist will ich ja gar nicht bestreiten. Die interessante Frage, warum bestimmt Größen in der Natur dieser Verteilung folgen wird aber nicht mal angerührt. --Mediocrity 09:59, 21. Mär. 2007 (CET)
- Der Grund ist, dass eben nicht nur die absoluten Differenzen sondern auch die relativen Differenzen zählen: es sind mehr Flüsse zwischen ein und zwei Kilometer lang als zwischen 9 und 10 Kilometer, weil die Differenz bei ersteren immerhin 100% beträgt, bei letzteren aber nur 11%. Das war, was ich einigermaßen eingängig und einbauenswürdig an dem Artikelausschnitt fand. Anderer Meinung? FG (und ich werde das nächste Mal diese Seite auch auf meiner Beobachtungsliste haben...) --Kricket 20:59, 10. Apr. 2007 (CEST)
- Diese relativen Differenzen sind eben genau das was man durch logarithmieren erhält. Was mich an dem Artikel gestört hat war auch gar nicht diese Sache sondern dass nirgens geklärt wurde was das Benford'sche Gesetz ist und was nicht; so wie ich die Sache sehe ist es eine Heuristik über empirische Datensätze und keine mathematische Aussage im engeren Sinn. Den Sachverhalt (im Artikel) zu beschreiben und verständlich zu machen ist natürlich notwendig, aber zuallererst ist es eben notwendig genau zu definieren was das Benford'sche Gesetz ist und sagt. mfg. --Mediocrity 08:52, 16. Apr. 2007 (CEST)
- Dem ist ganz entschieden zuzustimmen. Nicht ohne Grund wurde das "Gesetz" an den Logarithmentafeln entdeckt. Und der Entdecker Newcomb hat es offenbar auch eher für eine heuristische Kuriosität gehalten; zumindest hat er nicht soviel Aufhebens davon gemacht wie die Leute, die es heutzutage gewissermaßen als "Allheilmittel" verwenden wollen. Jedenfalls tut, wer das B.G. für praktische Zwecke verwenden will, gut daran, sich seine Datensätze genau anzusehen, ob sie dafür geeignet sind, um nicht Schlüsse und Behauptungen daraus abzuleiten, die nicht haltbar sind. Mami 20:35, 16. Apr. 2007 (CEST)
hm.. Ich verstehe zwar nicht ganz was ihr meint aber akzeptiere es einfach mal. Was mich an dem Wiki-Artikel etwas stört ist, dass das Gesetz zwar beschrieben wird, aber kein Grund für das Auftreten gegeben wird. Da finde ich das oben genannte Beispiel eben ganz nett. Aber von mir aus kann es natürlich auch draußen bleiben. FG! Kricket 09:08, 17. Apr. 2007 (CEST)
Es fehlt der Grund für das Auftreten des NBL
BearbeitenJa, das ist ein entscheidender Schwachpunkt. Aber nicht des Artikels allein, sondern der gesamten Theorie. Bisher hat noch niemand publiziert, weshalb es gilt, wann es gelten muß, wann es - in der dargestellten Form - nicht gelten kann, etc. Der Grund ist: Bisher beschrieb jeder Wissenschafter die Gültigkeit empirisch; die Theorie, unter welchen Bedingungen das NBL gilt und wann nicht, schreibe ich gerade. Wartet ein wenig. Dann wird dieser Artikel, der auch jetzt zu einem Teil von mir stammt, wahrscheinlich erstaunlich anschaulich und, obwohl rein mathematisch gemeint, viel weniger trocken-mathematisch. Die bisherige Theorie sagte immer nur: Hier gilt das NBL, hier nicht, hier doch wieder, da aber nicht.
- Mein Beitrag (und, wenn ich ihn richtig verstehe, auch der von Mediocrity) richtet sich nicht gegen dein Beispiel; eher im Gegenteil ist es eine ganz gute Erläuterung/Illustration für Fälle von aus Zahlen bestehenden Datensätzen, auf die das B.G. anwendbar ist. Das Problem ist, geht es beim B.G. um
- - ein mathematisches oder Naturgesetz, das auf jede beliebige Zahlenkolonne mit Erfolg anwendbar ist, oder
- - eine heuristische Annahme/Faustregel, die nur bei geeigneten Zahlenkolonnen zu der Vorhersage entsprechenden Ergebnissen führt, und bei anderen nicht.
- Es handelt sich tatsächlich um eine nicht universell anwendbare Faustregel. Die Begründung folgt demnächst. 172.158.72.252 19:11, 18. Apr. 2007 (CEST) Bin gerade nicht angemeldet. Mami.
- Vielen Dank für deinen nochmaligen Versuch. Euren Punkt habe ich jetzt auch verstanden, dauert halt manchmal etwas bei mir. Das Wort "heuristisch" habe ich wohl nicht richtig verstanden. Zu dem was du hiernach schreibst kann ich nichts sagen, weil ich keine Ahnung vom Thema habe. FG Kricket 08:45, 19. Apr. 2007 (CEST)
Verklausuliert ist auch aus dem Artikel zu entnehmen, dass das "Gesetz" nicht allgemeingültig ist, wenn es heißt, die Varianz innerhalb des Datensatzes dürfe einen bestimmten Mindestwert nicht unterschreiten. Eben diese Bestimmung des Mindestwerts ist aber nicht abstrakt möglich, sondern man kann nur jeweils im Ergebnis feststellen, dass es bei der untersuchten Zahlenkolonne mehr oder weniger gut funktioniert hat.
Ich will aber versuchen, das Ganze möglichst allgemein verständlich dazulegen.
Die Erläuterung von Benutzer:Kricket wird oft in etwa so zusammengefasst: "Es gibt mehr kleine Dinge als große". Daher kann man abstrakt die Faustregel aufstellen, die kleinen Ziffern tauchen auch häufiger auf als die großen. Damit das aber auch konkret mit Zahlenwerten funktioniert, die natürlichen oder zufälligen Erscheinungen (Flusslängen, Astdicken, Bevölkerungszahlen) zugeordnet sind, muss noch die spezielle Konstruktion unseres Zahlensystems hinzukommen, in dem beliebig große Zahlen mithilfe von 10 Ziffern dargestellt werden können. Bekanntlich hängt der tatsächliche Wert einer Ziffer von ihrer Stellung innerhalb der Zahl ab und eine kleine Ziffer ist stets mehr wert als ein große, die rechts von ihr steht (bei römischen Zahlen ist das bspw. nicht so; da ist eine links von einer X stehende I von der X zu subtrahieren und Benfords Faustregel funktioniert nicht). Da also große Zahlenwerte gewissermaßen die kleinen Werte "überholen" müssen und es von den großen mehr als von den kleinen gibt, kann man die - widerlegbare - Faustregel aufstellen, dass an der ersten Stelle der Zahlen überzufällig häufiger kleine als große Ziffern stehen.
Jetzt noch ein konkretes Beispiel, für Brauchbarkeit und Grenzen der Faustregel: Es gibt mehr deutsche 1c- als 2c-Münzen und von diesen wiederum mehr als 5c-Münzen. Ich weiß es zwar nicht definitiv, bin aber zuversichtlich, dass diese auf Benford gestützte Faustregel der Realität entspricht. Es gibt aber keine niederländischen 1c- und 2c-Münzen. Wenn also ein deutscher Supermarktleiter (den ich jetzt zu Demonstrationszwecken "an den Haaren herbeiziehe") in den Niederlanden Urlaubsvertretung machen würde, könnte er unter Berufung auf Benford eine viel höhere Anzahl von 1c- und 2c- als 5c-Münzen erwarten und den Kassiererinnen völlig zu Unrecht Ärger machen.
Es folgt noch ein der real world entnommenes Beispiel, an dem auch das Erfordernis der Varianz deutlich werden soll, und dass eben dieses Erfordernis in der real world nicht oder nicht ausreichend beachtet wird. Mami 20:29, 18. Apr. 2007 (CEST)
- Zitat aus dem Artikel: Ein Datensatz ist eine Benford-Variable (d. h. das Benfordsche Gesetz gilt für diesen Datensatz),
- 1. wenn die Mantissen der Logarithmen des Datensatzes einer Gleichverteilung folgen. Das unbedingte Postulat der Gleichverteilung der Mantissen der Logarithmen der Daten erlaubt es nicht, dass die Daten selbst gleichverteilt sind.
- 2. wenn die Varianz innerhalb des Datensatzes einen bestimmten, von der Klasse der Verteilung, nach welcher der Datensatz verteilt ist, abhängigen Mindestwert nicht unterschreitet.
- Was das soll ist mir nicht klar: wieso ist ein Datensatz eine Variable? Was soll das mit der Varianz? Wieso von der Klasse der Verteilung, nach welcher der Datensatz verteilt ist? Die Verteilung ist doch - siehe eine Zeile davor - eine Benford-Verteilung und damit fix. Und die Varianz ist - da die Mantissen gleichverteilt sind - sowieso nicht beliebig klein. Sehr unmathematisch, das Ganze, und sehr konfus. Warum dieser Artikel "lesenwert" ist? Keine Ahnung. --Mediocrity 10:19, 20. Apr. 2007 (CEST)
Zur Erklärung
BearbeitenEin Datensatz ist nicht 1 Einzelstück von Daten, sondern eine Sammlung von Daten, z.B. die Salden der Konten einer Buchhaltung oder die Liste der Längen der Flüsse Südamerikas. Somit folgen die Daten in einer solchen Sammlung stets einer empirischen Verteilung, die einen Mittelwert und eine definierte Varianz hat. Ich glaube, Mediocrity, Du hast Dich in Deinem Leben noch wenig mit mathematischer Statistik herumplagen müssen. Lies vielleicht die entsprechenden Artikel in Wikipedia, dann siehst Du, wie viele Verteilungen es bisher gibt, und es ist bestimmt noch kein Ende abzusehen. Ich kann sagen: - Das Newcomb-Benfordsche Gesetz (NBL) gilt nur, wenn ausreichend viele Daten vorliegen - Das als "Benford-Verteilung" bekannte Diagramm stellt nicht die Benford-Verteilung dar, sondern stellt die relativen Häufigkeiten der Anfangsziffern 1 bis 9 als Balken dar. - Die Daten des Datenkonvolutes müssen in ihrer Struktur bestimmten Anforderungen enstprechen: die Logarithmen der Daten müssen mit möglichst großer Spannweite verteilt sein, die kleinsten wie auch die höchsten Logarithmen sollten eher selten sein, u.a.m. Wie man hieraus sieht, ist das NBL mitnichten ein allgemeingültiges Gesetz. Das Erstaunliche ist aber nun, dass ungemein viele Datenkonvolute dem NBL genügen. Eben weil deren Logarithmen annähernd normalverteilt sind und die Daten des Datenkonvolutes daher logarithmisch normalverteilt sind. Und das ist eine im Leben ungemein häufig anzutreffende Verteilung von Daten. - Wenn ich mit einem Datenkonvolut konfrontiert und gefragt werde: Wird dieser Datensatz dem NBL genügen?, so kann ich eine eindeutige Antwort geben, indem ich den Datensatz mit statistischen Methoden einer kurzen Analyse unterziehe (Mittelwert, Varianz, Spannweite etc.). Angenommen, meine Antwort wäre Fall 1 JA / Fall 2 NEIN, aber das Ergebnis der nachfolgenden Benford-Analyse wäre Fall 1 NEIN/Fall 2 JA: Dann hat in beiden Fällen jemand mit den Daten gespielt. Zu guter Letzt: Warum dieser Artikel lesenswert ist, weiß ich in Anbetracht mancher nicht ganz kompetenter Korrekturen im Artikel auch bisweilen nicht mehr. Aber Wikipedia ist frei zugänglich, und man muß darüber, worüber man schreibt, vorher keine Prüfung ablegen. Bisweilen sagen Kommentare mehr über den Schreiber aus als darüber, worüber sie gerne handeln würden. Und nicht nur in diesem Forum gibt es solche, die nur glauben, was sie glauben wollen. Da hilft auch nicht die logischeste Erklärung, wenn sie nicht gefällt. [Pard 80.55.142.118 00:07, 1. Jun. 2007 (CEST)].
- Ich wiederhole einige meiner Fragen und bitte um konkrete Antworten:
- 1. Ein Datensatz ist eine Benford-Variable (d. h. das Benfordsche Gesetz gilt für diesen Datensatz). Frage: Ist ein Datensatz eine Variable?
Antwort: Auf dem Gebiet der Statistik ist eine Variable eine - oft nicht als bekannt vorauszusetzende - Vorschrift, nach welcher ein Sammelsurium aus Daten (wohlgemerkt nicht genau eine "Menge", denn in der Menge sind die Daten immer wohlunterscheidbar, in einem Sammelsurium können sie so oft auftreten, wie sie wollen) generiert wird. Eine Variable Y (die aus vielen Zahlen y1,y2,y3, ... besteht, Y ist also ein vieldimensionaler Vektor) ist eine Benford-Variable, wenn für dieses Sammelsurium dieser Zahlen y1, y2, y3, ... gilt, dass deren Ziffernsequenzen dem Newcomb-Benfordschen Gesetz genügen.
- 2. Wie ist eine Benford-Verteilung definiert? Im Artikel werden genau nur die Wahrscheinlichkeiten für das Auftreten bestimmter Ziffern angegeben, die Benford-Verteilung selbst aber muss wohl stetig sein. Daher: Wie sieht sie aus?
Antwort: Die PDF (probability density function, Dichtefunktion) lautet: f(x) = 1/(xlogB)mit B als Basis des Zahlensystems. Die Verteilungsfunktion ist daher F(x), also das Integral dieser Funktion, somit ein Abkömmling der logarithmischen Funktion.
- Die von dir angegebene Dichte ist wohl als =0 für x<1 und x>B zu verstehen, sonst gibt das Integral nicht 1. Wenn das aber der Fall ist, dann kann eine Benford-verteilte Zufallsvariable nur Werte aus dem Intervall [1,B] annehmen. Richtig?
- Bitte definiere mir genau, was Du meinst. Ich gewinne nämlich den Eindruck, ich habe Dir den Begriff "Variable" in diesem Zusammenhang nicht verständlich erklärt. Eine benford-verteilte Zufallsvariable ist ein Vektor, in dem beliebig große Werte drinstehen können und deren Ziffernsequenzen dem NBL genügen. Daher können die Werte nicht nur die Werte von 1 bis B-1 annehmen (B geht im Zahlensytem B niemals, weißt Du, B ist in jedem Zahlensystem durch die Ziffernsequenz "10" charakterisiert.....)
- Ich möchte hiermit festhalten: Eine Zufallsvariable ist kein Vektor! In einer Zufallsvariable stehen keine Werte drin! Eine Zufallsvariable ist nichts zufälliges (zur Problematik des Begriffs siehe Mark Kac, "Statistical independence in probability")! Zufallsvariable ist kein Begriff der Statistik, sondern einer der Wahrscheinlichkeitstheorie. Jede Zufallsvariable besitzt eine Verteilungsfunktion. Bitte nenne die Verteilungsfunktion einer Benford-verteilten Zufallsvariable.
- Ich präzisiere: Jede REALE AUSPRÄGUNG einer Zufallsvariablen stellt einen Haufen von Werten dar, dieser Haufen Werte ist in einer einspaltigen Matrix ordenbar, sowas ist bei mir ein Vektor, punktum. Die Statistik ist eng mit der Wahrscheinlichkeitstheorie verwoben. Dass ich Dir alle möglichen Verteilungen von benford-verteilten Zufallsvariablen aufzähle, das wäre jetzt der Clou. Ich lasse es bei einer: Sind die Daten logarithmisch normalverteilt derart, dass der Wertebereich von x bis 10000x geht, dann ist der Datensatz benford-verteilt.
- Was soll eine "reale Ausprägung einer Zufallsvariablen" sein? Natürlich kann man Messwerte in einem Vektor ordnen, das steht ja gar nicht zur Diskussion. Ich wollte nur die PDF der Benford-Verteilung und ein Beispiel einer Benford-verteilten Zufallsvariable wissen. Das existiert schließlich unabhängig von Messwerten. So wie die Gleichverteilung und gleichverteilte Zufallsvariablen auch unabhängig von Messwerten exisiteren. In diesem Fall übrigens: Die PDF einer auf [0,1] gleichverteilten ZV lautet bekanntlich 1 im Intervall [0,1] und 0 sonst. Ein Beispiel einer gleichverteilten Zufallsvariablen: die Funktion X: ([0,1],B([0,1]),L)->([0,1],B([0,1]), X(x)=x ist eine gleichverteilte Zufallsvariable, wie sich leicht nachrechnen lässt (dabei bezeichnet B([0,1]) die sigma-Algebra der Borelmengen im Intervall [0,1] und L das Lebesgue-Maß auf [0,1]). Jetzt möchte ich bitte die PDF der Benford-Verteilung sowie eine Benford-verteilte ZV angegeben haben. --Mediocrity 10:40, 14. Jun. 2007 (CEST)
- Klingt ja so wie aus einem Mathematik-Buch, man kriegt förmlich die Borel-liose. Beschreibe bitte anschaulich, was Deine Definition bedeutet, sodaß das nicht nur Du begreifst. Die PDF der Benford-GVerteilung lautet im Zehnersystem f(x) = 1/x. Womit wir das auch hätten.
- Ich glaub dass es vertretbar sein sollte in einer Enzyklopädie Dinge formal richtig zu erklären. Einen mathematischen Sachverhalt definiert man eben am besten mathematisch.
- Zur Erklärung: Die von mir oben angegebene Funktion ist eine Funktion aus einem Maßraum in einen Messraum. Diese Funktion ist messbar (wie man leicht überprüft). Warum ist diese Funktion (=Zufallsvariable) gleichverteilt? Wir berechnen P(X <=y) = P({x \in [0,1]: X(x) <=y) = P([0,y]) = y, da das Wahrscheinlichkeitsmaß wie oben angegeben eben das Lebesgue-Maß ist. Da P(X<=y)=y gilt (das entspricht der Verteilungsfunktion einer Gleichverteilung) ist die Zufallsvariable X gleichverteilt (und zwar tatsächlich gleichverteilt, nicht "ungefähr" oder "annähernd")
- Die von dir angegebene Dichte macht nur dann Sinn, wenn das Integral davon 1 ergibt (sonst ist es keine Dichte). Daher kann die von die angegebene Dichte nicht auf den ganzen reellen Zahlen gemeint sein, da bekanntlich das Integral über 1/x divergiert. Ich bitte daher anzugeben, wo genau diese Dichte den Wert 1/x annimmt und wo sie den Wert 0 hat (und zwar bitte so, dass das Integral gleich 1 ist)--Mediocrity 12:48, 14. Jun. 2007 (CEST)
- Und hier eine Korrektur: Nicht für das Zehnersystem lautet die PDF f(x) = 1/x, sondern für das binäre. Allgemein lautet die PDF f(x) = 1/xlnB und zwar in den Grenzen von 1 bis 10, in den Grenzen 10 bis 100, in den Grenzen 10^k bis 10^(k+1).
- Was soll das heißen: "in den Grenzen von 1 bis 10, in den Grenzen 10 bis 100..." Gemeint sein kann ja nur entweder in den Grenzen von 1 bis 10 oder von 10 bis 100. Ist also folgende Formulierung richtig: "Eine Zufallsvariable, die mit der Dichte 1/(x ln 10) in den Grenzen von 1 bis 10 verteilt ist, ist Benford-verteilt". Ja? Dann ergibt das Integral der Dichte tatsächlich den Wert 1. Dann kann die ZV aber keine Werte außerhalb von [1,10] annehmen, also z.B. nicht den Wert 15. Der Witz bei'm Satz von Benford war aber doch grad dass die Werte nicht alle dieselbe Größenordnung haben müssen. Wie passt das zusammen?
- Je nach der Länge der Ziffernsequenz in dem Intervall 10^(k-1) bis 10^k, Läusesucher; Du WILLST einfach nix verstehen.
- Ich bemüh mich redlich die Aussage des NBL zu begreifen. Also: Wenn ich die Werte {11,15,23,28,234,1234} einer Benford-Analyse unterziehen will: mit welcher Verteilungsfunktion muss ich dann die empirische Verteilung dieser Stichprobe vergleichen (Achtung: Die Werte liegen nicht in einem einzigen Bereich 10^k,10^(k+1))?
- LANGSAM BEGREIF ICH, WAS DU NICHT BEGREIFST:
- Ich bemüh mich redlich die Aussage des NBL zu begreifen. Also: Wenn ich die Werte {11,15,23,28,234,1234} einer Benford-Analyse unterziehen will: mit welcher Verteilungsfunktion muss ich dann die empirische Verteilung dieser Stichprobe vergleichen (Achtung: Die Werte liegen nicht in einem einzigen Bereich 10^k,10^(k+1))?
- Und hier eine Korrektur: Nicht für das Zehnersystem lautet die PDF f(x) = 1/x, sondern für das binäre. Allgemein lautet die PDF f(x) = 1/xlnB und zwar in den Grenzen von 1 bis 10, in den Grenzen 10 bis 100, in den Grenzen 10^k bis 10^(k+1).
- Ich präzisiere: Jede REALE AUSPRÄGUNG einer Zufallsvariablen stellt einen Haufen von Werten dar, dieser Haufen Werte ist in einer einspaltigen Matrix ordenbar, sowas ist bei mir ein Vektor, punktum. Die Statistik ist eng mit der Wahrscheinlichkeitstheorie verwoben. Dass ich Dir alle möglichen Verteilungen von benford-verteilten Zufallsvariablen aufzähle, das wäre jetzt der Clou. Ich lasse es bei einer: Sind die Daten logarithmisch normalverteilt derart, dass der Wertebereich von x bis 10000x geht, dann ist der Datensatz benford-verteilt.
- Ich möchte hiermit festhalten: Eine Zufallsvariable ist kein Vektor! In einer Zufallsvariable stehen keine Werte drin! Eine Zufallsvariable ist nichts zufälliges (zur Problematik des Begriffs siehe Mark Kac, "Statistical independence in probability")! Zufallsvariable ist kein Begriff der Statistik, sondern einer der Wahrscheinlichkeitstheorie. Jede Zufallsvariable besitzt eine Verteilungsfunktion. Bitte nenne die Verteilungsfunktion einer Benford-verteilten Zufallsvariable.
- Bitte definiere mir genau, was Du meinst. Ich gewinne nämlich den Eindruck, ich habe Dir den Begriff "Variable" in diesem Zusammenhang nicht verständlich erklärt. Eine benford-verteilte Zufallsvariable ist ein Vektor, in dem beliebig große Werte drinstehen können und deren Ziffernsequenzen dem NBL genügen. Daher können die Werte nicht nur die Werte von 1 bis B-1 annehmen (B geht im Zahlensytem B niemals, weißt Du, B ist in jedem Zahlensystem durch die Ziffernsequenz "10" charakterisiert.....)
- Die von dir angegebene Dichte ist wohl als =0 für x<1 und x>B zu verstehen, sonst gibt das Integral nicht 1. Wenn das aber der Fall ist, dann kann eine Benford-verteilte Zufallsvariable nur Werte aus dem Intervall [1,B] annehmen. Richtig?
1. Vorausgeschickt: Dein Datensatz ist ein Beispiel. Deine Stichprobe wäre in der Praxis viel zu klein. 2. Willst Du den Test auf NBL-konforme Anfangsziffer machen, so ist Deine Anfangsziffernsequenz einstellig, k = 1. Für so eine Analyse brauchst Du um die 100 Werte in der Stichprobe. Untersuchst Du genauer, nämlich auf m-stellige Anfangsziffernsequenz, dann gilt k = m. Du kannst immer nur nach NBL-konformer Verteilung der k-stelligen Anfangsziffer fragen, nie gleichzeitig nach mehreren. Daher gibt es nie einen Übergriff auf andere Intervalle. Das Integral ist von 10 bis 20 genauso groß wie von 1 bis 2, bei k=2 wird alles nur 10-mal feiner dargestellt als bei k=1, usf. 3. Das einzige, wozu ich bei Deinem Beispiel, selbst wenn die Stichprobe riesig wäre, nicht rate, ist, auf längere Anfangsziffernsequenz als k=2 zu untersuchen, da eine Null am Beginn einer Zahl nicht zählt. 3. Die Ziffernsequenzen der Zahlen f(x), die aus f(x) = 10^(ZUFALLSBEREICH(1;3)+ZUFALLSZAHL())im Excel erzeugt werden, sind z.B. gemäß dem benfordschen Gesetz verteilt; aber auch die Fibonacci-Zahlen und alle Abkömmlinge der Fibonacci-Reihe, obwohl sie überhaupt nicht zufällig, sondern die einzelnen Werte von den beiden vorangegangenen abhängig sind. Letztere sind fast 100%-ig so verteilt wie die Theorie es vorhersagt. Die meisten anderen Datensätze, die ich je untersuchte (ich bin nämlich Praktiker auf diesem Gebiet), weisen größere Abweichungen gegenüber den theoretischen Vorgaben auf.
- Okay, schön langsam macht das mehr Sinn: du untersuchst gar nicht die Daten selbst, sondern nur Anfangssequenzen. Für eine Analyse der Tiefe zwei (wenn man das so sagen kann) betrachtest du also in Wahrheit statt oben genannter Stichprobe (die natürlich zu klein ist, das weiß ich auch) vielmehr die Werte {11,15,23,23,12}. Und vergleichst etwa die Häufigkeit der {22} mit dem Integral von 22 bis 23 über die Dichtefunktion 1/(x ln(100)). Richtig? Das NBL wäre damit ein Speziallfall des Fundamentalsatzes der Statistik, dass nämlich die empirische Verteilungsfunktion von i.i.d. Zufallsvariablen gegen die tatsächliche Verteilung dieser Zufallsvariablen konvergiert. Diese Aussage gilt natürlich auch für logarithmisch verteilte ZVen. Das NBL stellt also fest, dass viele real-life Daten logarithmisch verteilt sind und daraus eine Aussage über das Auftreten bestimmter Anfangsziffern getroffen werden kann. Ja?
- Endlich haben wir etwas Tritt unter den Beinen.
- Okay, schön langsam macht das mehr Sinn: du untersuchst gar nicht die Daten selbst, sondern nur Anfangssequenzen. Für eine Analyse der Tiefe zwei (wenn man das so sagen kann) betrachtest du also in Wahrheit statt oben genannter Stichprobe (die natürlich zu klein ist, das weiß ich auch) vielmehr die Werte {11,15,23,23,12}. Und vergleichst etwa die Häufigkeit der {22} mit dem Integral von 22 bis 23 über die Dichtefunktion 1/(x ln(100)). Richtig? Das NBL wäre damit ein Speziallfall des Fundamentalsatzes der Statistik, dass nämlich die empirische Verteilungsfunktion von i.i.d. Zufallsvariablen gegen die tatsächliche Verteilung dieser Zufallsvariablen konvergiert. Diese Aussage gilt natürlich auch für logarithmisch verteilte ZVen. Das NBL stellt also fest, dass viele real-life Daten logarithmisch verteilt sind und daraus eine Aussage über das Auftreten bestimmter Anfangsziffern getroffen werden kann. Ja?
- Zur Präzisierung: Mit BENFORD KANN man Anfangssequenzen untersuchen - und das TUT man auch zumeist - aber NICHT NUR. Man kann auch nach der Häufigkeit einer inneren Sequenz untersuchen; aber das ist eigentlich selten.
- Ich vergleiche die Häufigkeit der Anfangssequenz "22" mit dem Integral von 22 bis 23 von 1/xlnB, wenn es sich um Sequenzen aus Zahlen des B-er-Systems handelt. Wenn Dein Datensatz Zahlen aus dem dekadischen System repräsentiert, dann untersuche ich das Integral xon 1/xln10 in den Grenzen von 22 bis 23 und ich erhalte eine theoretische Wahrscheinlichkeit von 0,01930515520. Rechne ich alle Integrale von 20 bis 21, von 21 bis 22 usw. bis endlich von 29 bis 30, und summiere ich diese Integrale, erhalte ich 0,176091259, also dasselbe, was das Integral von 2 bis 3 ergeben hätte, denn das waren jetzt nebenbei alle Anfangssequenzen, die mit 2 beginnen.
Dein Datensatz könnte aber auch aus dem 9-er-System stammen. Dann ist alles gleich, nur die PDF lautet f(x)=1/xln9 und die Verteilung F(x)=lnx/ln9.
- Das mit dem Zusammenhang zwischen Verteilung der Daten und der Verteilung der Anfangsziffern sehe ich nicht so stark. Eines ist sicher: Die Anfangssequenzen der Zahlen aus Datensätzen, die gewisse Voraussetzungen erfüllen (z.B. derart log-normalverteilt, daß die Logarithmen der Daten normalverteilt sind mit einer Standardabweichuzng nicht unter 0,5) gehorchen dem NBL und sind daher logarithmisch verteilt. Bei realen Datensätzen müssen die Logarithmen der Daten immer über eine gewisse Spannweite verteilt sein, damit das NBL f.d. Anfangssequenzen gilt. Aber es gibt auch total verrückte PDFs und ergo ganz verrückt verteilte Datensätze, die in Bezug auf ihre Anfangssequenzen der Zahlen NBL-konform sind. Ob alle Verteilungen solcher Datensätze in irgendeinem Zusammenhang mit logarithmischen Funktionen stehen müssen, kann ich nicht sagen; aber glauben tu ich 's nicht. Denn ich könnte beliebig viele solcher Funktionen in kurzer Zeit mit dem Bleistift zusammenphantasieren, und alle sehen total verschieden, alle aber verrückt, aus.
- Wenn du von 20 bis 21 integrierst musst du wohl die Dichte 1/x log100 nehmen, nicht 1/x log10. Davon abgesehen: Natürlich können die Mantsen der Logarithmen gleichverteilt sein, ohne dass die Daten selbst logarithmisch verteilt sind. Dass das NBL für viele empirische Datensätze gilt kann aber nur daher kommen, dass eben viele empirische Datensätze logarithmisch verteilt sind (das könnte man etwa bei den Flusslängen, Einwohnern etc auch überprüfen; wird wohl so sein). Noch immer nicht ganz einsehe ich den Unterschied zwischen der Aussage des NBL (das übrigens von dir immer noch nicht exakt definiert, i.e. formuliert wurde) und jener, dass die Mantissen der Logarithmen gleichverteilt sind. Wenn die Mantissen der Logarithmen gleichverteilt sind, dann folgen die Anfangszifferneigenschaften des NBL - richtig? Umgekehrt nicht - richtig?--Mediocrity 22:19, 14. Jun. 2007 (CEST)
- Nein, wenn Deine Daten aus dem dekadischen System stammen, darfst Du nicht nach der PDF integrieren, die für das 100-er-System steht. Die Häufigkeiten der Anfangssequenzen sind je nach Zahlensystem verschieden groß. In den Grenzen von 10 bis 100 steht die PDF für die 2-er-Tiefe. Um die ging 's ja. Integrierst Du nämlich 1/xln100 von 10 bis 100, müsstest Du ja 1 erhalten, Du erhältst aber genau 0,5; Du hättest von 1 bis 100 integrieren müssen, aber das geht über 2 verschieden tiefe Sequenzen, was nicht möglich ist. Die PDF ist im B-er-System für k-er-Sequenzen 1/xlnB in den Grenzen von 10^(k-1) bis 10^k. Das B ändert sich nur nach dem Zahlensystem, nicht nach der Länge der untersuchten Sequenzen.
- Wenn du von 20 bis 21 integrierst musst du wohl die Dichte 1/x log100 nehmen, nicht 1/x log10. Davon abgesehen: Natürlich können die Mantsen der Logarithmen gleichverteilt sein, ohne dass die Daten selbst logarithmisch verteilt sind. Dass das NBL für viele empirische Datensätze gilt kann aber nur daher kommen, dass eben viele empirische Datensätze logarithmisch verteilt sind (das könnte man etwa bei den Flusslängen, Einwohnern etc auch überprüfen; wird wohl so sein). Noch immer nicht ganz einsehe ich den Unterschied zwischen der Aussage des NBL (das übrigens von dir immer noch nicht exakt definiert, i.e. formuliert wurde) und jener, dass die Mantissen der Logarithmen gleichverteilt sind. Wenn die Mantissen der Logarithmen gleichverteilt sind, dann folgen die Anfangszifferneigenschaften des NBL - richtig? Umgekehrt nicht - richtig?--Mediocrity 22:19, 14. Jun. 2007 (CEST)
Gleichverteilung der Mantissen in den Grenzen zwischen 0 und 1 bedeutet Sequenzen gemäß NBL UND umgekehrt. Wenn Du gleichverteilte Mantissen zu Logarithmen machst und diese delogarithmierst, stimmern die Ziffernsequenzen der entstandenen Zahlen mit dem NBL überein.
- Das mit den Dichten ist natürlich wahr, mein Fehler. Was mir an der Sache nicht passt: Du sagst (Zitat) Gleichverteilung der Mantissen in den Grenzen zwischen 0 und 1 bedeutet Sequenzen gemäß NBL UND umgekehrt. Im Artikel aber steht, dass das NBL gilt wenn die Mantissen gleichverteilt sind UND wenn eine zusätzliche Eigenschaft erfüllt ist, nämlich (Zitat) wenn die Varianz innerhalb des Datensatzes einen bestimmten, von der Klasse der Verteilung, nach welcher der Datensatz verteilt ist, abhängigen Mindestwert nicht unterschreitet. Daher die Frage: braucht man nun eine zusätzliche Voraussetzung (wie's im Artikel steht) oder nicht? Und, zum wiederholten mal: Was besagt das Benfordsche Gesetz überhaupt? Das steht im Artikel nirgends! Kannst du bitte in einem Satz das Benforsche Gesetz formulieren, damit überhaupt klar ist worüber wir hier reden? Bitte.
- Also, fangen wir an: Du erreichst die Gleichverteilung der Mantissen im Intervall 0;1 NUR DANN, wenn der reale Datensatz eine bestimmte MindestSPANNWEITE hat. Eigentlich geht es um die SPANNWEITE; aber diese ist in theoria viel schwerer faßbar als die Varianz oder deren Wurzel, die Standardabweichung, mit welchen man die Dispersion auch ausdrücken kann; damit kann man in der Theorie leichter umgehen, in der Praxis ist es natürlich die Spannweite. Und natürlich ein gewisser Stichprobenumfang.
Merkst Du Dir diese Voraussetzungen, nämlich eine gewisse Mindestspannweite und ein gewisser Umfang der Daten (und das gilt dann natürlich auch für die Logarithmen dieser Daten), so besagt das NBL:
- Die k Ziffern langen Ziffernsequenzen der Zahlen von Datensätzen (...genügend umfangreich und genügend weit streuend...) sind nicht gleichverteilt, sie folgen logarithmischen Gesetzen. Das NBL beruht auf der Gleichverteilung der Mantissen der Logarithmen der Zahlen des Datensatzes, dies stets in den Grenzen von 0 bis 1.
- Das heißt, daß alle Mantissen, die vorkommen können, gleich häufig sind (theoretisch). Dadurch liegen in den Grenzen von 0 bis 0,30103 bereits 30,301 % aller Mantissen. Und die stehen für Zahlen, die mit "1" beginnen. Die Verteilung lautet (nun modifiziert:) ln(x)/lnB in den Grenzen 1 und B; die Wahrscheinlichkeit einer Sequenz 113 kann ich darstellen durch ln(x)/lnB in den Grenzen 1,13 bis 1,14 und adäquat. So muss ich nie das Intervall wechseln, wenn ich mit Kommas arbeite.
- Ich wiederhole: Die einzigen Voraussetzungen sind eine gewisse Mindestspannweite und ein gewisser Umfang. Daraus folgt die Aussage über die Ziffernsequenzen sowie die Gleichverteilung der Mantissen der Logarithmen. Ist das richtig?
- Wenn es um reale und ungekünstelte Datensätze geht: JA. Ich kann aber jederzeit einen Datensatz "zimmern" (und Du sicher ebenfalls), der Riesenspannweite hat, genug Werte beinhaltet, aber der Datensatz gehört nicht zur NBL-Sequenzen-Gruppe. Wenn Du aber Firmenziffern, Saldenlisten u.ä. in ausreichender Dimension hast, und der untersuchte Betrieb ist keine Tabak-Trafik mit Tendenz zu kleinen Einkäufen und Verkäufen, sodass die Varianz eher klein ist, oder wenn nicht jede Woche mit gleichen Beträgen fakturiert wird, sodass kaum eine Varianz herauskommt, dann stehe ich für diese Aussage ein. Es muss der Zufall das Seine dazu tun können. Sonst füllt sich wohl die PDF der Mantissen i.A. nicht schön regelmäßig auf, sondern es entstehen Tendenzen bei den Mantissen. Die Fibonacci-Reihe etc nehme ich vom Zufall aus.
- Ich glaub nicht dass der Zufall hiermit irgendwas zu tun hat. Das NBL gilt wohl im wesentlichen für alle log-normalverteilten Daten, und es sind eben viele reale Daten log-normalverteilt. Für gleichverteilte Datensätze etwa, und davon gibt es ja auch viele, gilt das NBL offensichtlich nicht. Ebenso wenig für normalverteilte Datensätze. Ohne dass es nötig wäre da künstlich etwas zu "zimmern".--Mediocrity 09:19, 18. Jun. 2007 (CEST)
- Zwischen unseren beiden Anschauungen gibt es nur Nuancen, die einen allfälligen Unterschied (?) ausmachen. Ich stimme zu, dass in der Natur viele Datensätze lognormalverteilt sind, daher die Logarithmen normalverteilt, und wenn diese NV nicht zu schmal angelegt ist, sind die Mantissen gleichverteilt, gilt also das NBL. Ist die NV zu schmal gebaut, ist sie an manchen Stellen höher als 1, dann ist sie bei gewissen Mantissen ebenfalls höher als 1 und der Datensatz fällt a priori beim NBL-Test durch.
- Ich glaub nicht dass der Zufall hiermit irgendwas zu tun hat. Das NBL gilt wohl im wesentlichen für alle log-normalverteilten Daten, und es sind eben viele reale Daten log-normalverteilt. Für gleichverteilte Datensätze etwa, und davon gibt es ja auch viele, gilt das NBL offensichtlich nicht. Ebenso wenig für normalverteilte Datensätze. Ohne dass es nötig wäre da künstlich etwas zu "zimmern".--Mediocrity 09:19, 18. Jun. 2007 (CEST)
- Wenn es um reale und ungekünstelte Datensätze geht: JA. Ich kann aber jederzeit einen Datensatz "zimmern" (und Du sicher ebenfalls), der Riesenspannweite hat, genug Werte beinhaltet, aber der Datensatz gehört nicht zur NBL-Sequenzen-Gruppe. Wenn Du aber Firmenziffern, Saldenlisten u.ä. in ausreichender Dimension hast, und der untersuchte Betrieb ist keine Tabak-Trafik mit Tendenz zu kleinen Einkäufen und Verkäufen, sodass die Varianz eher klein ist, oder wenn nicht jede Woche mit gleichen Beträgen fakturiert wird, sodass kaum eine Varianz herauskommt, dann stehe ich für diese Aussage ein. Es muss der Zufall das Seine dazu tun können. Sonst füllt sich wohl die PDF der Mantissen i.A. nicht schön regelmäßig auf, sondern es entstehen Tendenzen bei den Mantissen. Die Fibonacci-Reihe etc nehme ich vom Zufall aus.
- Ich wiederhole: Die einzigen Voraussetzungen sind eine gewisse Mindestspannweite und ein gewisser Umfang. Daraus folgt die Aussage über die Ziffernsequenzen sowie die Gleichverteilung der Mantissen der Logarithmen. Ist das richtig?
Ich meine, wenn ich den Zufalls "ins Spiel" bringe, dass der Zufall eben das Kleinere in allen Größenordnungen begünstigt, was dann dazu führt, dass sich das Kleinere in jeder Dimension häufiger findet als das Größere. Ich halte den Umstand, dass Kleineres wahrscheinlicher ist als Größeres, und zwar in jeder Größenordnung - und das ist unumwunden eine wesentliche Eigenschaft der logarithmischen Gesetzmäßigkeiten - für einen wesentlichen Bestandteil des Grundgefüges der Natur. Man könnte das weiterspinnen. Aber es ist sogar möglich, dass das NBL gilt, wenn die Logarithmen gleichverteilt sind. Eine wichtige Bedingung wäre allerdings, dass die Spannweite ganzzahlig ist, und das ist wohl sehr selten der Fall. Der Datensatz ist dann exorbitant "kleinlastig" verteilt. Wie die Verteilung des Datensatzes heißt, darüber habe ich mir noch keine Gedanken gemacht; in der Praxis habe ich noch nie Logarithmen gefunden, die gleichverteilt sind. Lieben Gruß Pard 80.120.190.234 10:27, 18. Jun. 2007 (CEST)
- Freilich kann man auch andere Verteilungen basteln, bei denen die Mantissen der Logarithmen gleichverteilt sind, außer der log-Normalverteilung. Die tatsächlich auftretenden Datensätze (Einwohner, Längen etc.), die diese Eigenschaft besitzen, werden aber praktisch immer tatsächlich log-normalverteilt sein.
- Ob kleines häufiger ist also Großes etc. will ich nicht entscheiden, das ist mir eine zu esoterische Fragestellung. Und auch wenn das wahr ist erklärt es nicht unbedingt, dass die Größenordnungen genau logarithmisch sind. Naja. Im Artikel aber gefällt mir so manches nicht. Dass es etwa Benfordsche Verteilung heißt wo keine Verteilung im engeren mathematischen Sinn gemeint ist. Dass nirgends klar formuliert wird was das NBL überhaupt besagt. Dass bei Gültigkeit zwei Bedingungen stehen, wo wir doch schon gesagt hatten dass die erste allein, dass also die Mantissen der Logarithmen gleichverteilt sind, mit dem NBL äquivalent ist. Dass die Fibonacci-Zahlen dem NBL sicher nicht im Sinn einer Heuristik für emprische Datensätze, sondern im Sinn der Konvergenz von Verteilungsfunktionen folgen (im Sinn der Gleichverteilung modulo 1). Und so weiter. Naja. mfg. --Mediocrity 11:44, 18. Jun. 2007 (CEST)
- Kein Problem, Deine Teilnahme an der Diskussion ist meiner Ansicht nach sehr fruchtbar. Andererseits hat jedes Schreiben für solche Artikel auch seine Grenzen. Was den Artikel betrifft, so sind eben viele am Werk, der eine mehr, der andere weniger. Was man heute rauslöscht, weil es Mist ist, steht morgen in modifizierter Form wieder drin. Das ermüdet auch.
Dann bin ich - wie die meisten - kein Mathematiker, ich bin Praktiker, was auch seine guten Seiten haben mag. Ich verstehe relativ viel von dem Problem, ich kann mich aber mathematisch nicht gut ausdrücken, weil ich kein Mathematiker bin. Du sagst vielleicht, mathematische Themen sind halt nur was für Mathematiker. Hätte ja was für sich; aber keiner, außer ein paar Mathematiker, die gegen Borel-liose resistent sind, würde sich mehr für das Phänomen interessieren. Es gibt interessante mathematische Phänomene, die sich durch die Darstellung dem Interessierten entziehen. Hat also alles zwei Seiten. Dann kann jeder, der von einem Spezialaspekt mehr versteht, dies in den Artikel hineintun. So wie ich es hätte tun können mit dem kleinen und häufigen Grammatikfehler. Hab ich bewußt nicht gemacht, um einen profunden Kritiker wie Dich zu kopieren, war nicht fein von mir. Warum schreibst Du nicht den Artikel um, jetzt, wo Du das NBL verstanden hast? Lieben Gruß Pard80.120.190.234 16:38, 18. Jun. 2007 (CEST)
- Um den Artikel grundlegend zu ändern müsst ich mich erst mal tatsächlich mit der Materie vertraut machen, also die originalen Quellen lesen etc. Es gibt schließlich sehr wohl auch mathematische Fachliteratur zum Thema, nicht nur die populärwissenschaftlichen Artikel, wie sie etwa unter "Weblinks" stehen. Mir fehlt aber ehrlich die Muße dazu, ich hab viel dringendere Sachen auf meiner to-do-Liste, besonders kunsthistorisches (etwa den Grazer Dom - furchtbarer Artikel). Ich nehm es mir zugegebenermaßen relativ oft heraus, auf den Diskussionsseiten nur mal zu äußern, was mir spontan negativ auffällt an einem Artikel, ohne dann selbst gleich was zu ändern. Bekanntlich ist es auch Mist, wenn tausend Leute jeweils ein Wort im Artikel ändern, wenn es wirklich was Gscheites werden soll ist's am besten wenn ein Berufener sich der Sache annimmt - in diesem Fall also du als Freund und Verehrer des NBL. Ich werd aber selbstverständlich auch dann weiter rummeckern. --Mediocrity 17:00, 18. Jun. 2007 (CEST)
Dein Meckern war ja nicht immer angenehm, aber es hat nach der langen Zeit, die ich untaetig verfliessen lassen musste, bewirkt, dass ich meine Gedanken wieder buendeln musste, weil ich selber den Artikel schon lange vollkommen umschreiben will. Es steht manches Unwichtige in dem Artikel, und vieles ist nicht klar dargestellt. Bisher erfaehrst Du aus der Fachliteratur nur: Hier gilt das NBL, da nicht, da doch wieder, aber nein, hier wieder nicht. Keiner sagt, wann genau das NBL gelten wird und wann nicht. Und die herkoemmlichen Signifikanztests versagen auch oft, sodass manche wie Nigrini bereits verzweifelt versuchen, eigene Signifikanztests zu zimmern (die sie wie rechtfertigen, mit den herkoemmlichen?). Was beweist, dass da einiges beim NBL, was dessen Wurzeln betrifft, als raetselhaft angenommen wird, jedenfalls nicht ganz verstanden wird. Naja. Liebe Gruesse Pard 83.22.155.187 12:18, 21. Jun. 2007 (CEST)
Mit Deiner Bemerkung "nur Populärwissenschaftliches" hast Du, was die die Weblinks betrifft, sicher recht. Nicht recht hast Du damit bei der angeführten Literatur. Wenn Du Dich mit i.e. dem Neuesten auf diesem Gebiet befassen möchtest, lies einfach folgende Literatur: Peter N. Posch: Ziffernanalyse in Theorie und Praxis - Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz - ISBN 3-8322-4492-1. Das ist in etwa der Succus dessen, was bisher über das NBL in wissenschaftlichen Kreisen weithin bekannt ist.
- 3. Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in empirischen Datensätzen mit folgenden Wahrscheinlichkeiten p(d) auf: Das steht im Kapitel "Benford-Verteilung". Hier wird also die Verteilung durch das Gesetz erklärt, ein Kapitel weiter unten das Gesetz durch die Verteilung. Nicht so schlau, oder?
Antwort: Ja, das ist nicht besonders schlau. Es ist schön, wenn es Leute gibt, die Läuse suchen und sie auch finden.
- 4. Was besagt das Benford'sche Gesetz? Das steht nirgends im Text. Was bedeutet wenn die Mantissen der Logarithmen des Datensatzes einer Gleichverteilung folgen? Kann man das bitte auch mathematisch formalisieren?
Antwort: Das Benfordsche Gesetz besagt, dass bei Datensätzen, die bestimmten Voraussetzungen genügen, die man definieren kann, die Wahrscheinlichkeit des Auftretens einer beliebig langen Ziffernsequenz einem logarithmischen Gesetz folgt, was bedeutet, dass Ziffernsequenzen umso wahrscheinlicher sind, je kürzer sie sind und je kleiner sie wertmäßig sind. So ist beispielsweise die Auftretenswahrscheinlichkeit der Anfangsziffernsequenz "12" höher als jene der Anfangsziffernsequenz "1135", weil log13-log12 = 0,034762106 größer ist als log1136-log1135 = 0,00038247.
Zu Mantissen und Logarithmen: ich h a t t e es ursprünglich im Text. Man hat es mir herausgestrichen, weil das unter "Logarithmus" zu finden sei. Damit du Dir das Suchen ersparst: Ein Logarithmus ist - irgendwie - so etwas wie die fraktale (das ist nur als Dezimalzahl oder Bruch darstellbare) Anzahl der Stellen minus eins einer Zahl. 20 hat den 10-er-Logarithmus 1,30103, und hat 2 Stellen, aber schon 10 hatte 2 Stellen, und 20 liegt näher an 100, die 3 Stellen hat, also sollte eine stetige Stellenanzahl von 20 größer als 2 sein, und zwar 2,30103. Oder anders: Der Logarithmus ist die Antwort auf die Frage: Wieviele Nullen hat, fraktal betrachtet, die 10? Antwort: 1. Und wieviele Nullen hat, fraktal betrachtet, die 2? Antwort: 0,30103. Soviel um Dir - falls Du zu den Vielen gehörst, die so gut wie keine Ahnung haben, was ein Logarithmus ist - ein Gefühl zu geben, was man über den Logarithmus denken könnte. Keiner erklärt ihn so. Der Logarithmus log x einer Zahl x ist jene Hochzahl über der Basis (die ist im Falle des dekadischen Logarithmus gleich 10), sodass 10^logx gleich x ergibt. Ein Logarithmus besteht aus einer Zahl vor dem Komma und Dezimalstellen hinter dem Komma. Dieser Rest hinter dem Komma ist die Mantisse. Sie ist "gleichverteilt", wenn die Logarithmen so fallen, dass diese Nachkommareste zwischen 0 und 1 gleich häufig verteilt sind. Dass diese Forderung in praxi fast immer nur höchstens "so gut wie" oder "in etwa"" erfüllt wird, bedarf keiner Erklärung, oder doch? Wenn doch, kommen wir in das Dickicht der Signifikanztests... Die mathematische Statistik ist ein weites Land.
- Genau das ist ja der Punkt. Was sagt das Benford'sche Gesetz? Etwas über Konvergenz empirischer Verteilungsfunktionen? Ist das Benford'sche Gesetz überhaupt eine mathematische Aussage, oder eben nur eine Heuristik für empirische Daten? Wenn ja, dann sollte man die Artikel Benford-Gesetz und Benford-Verteilung unbedingt trennen, da letzteres ja tatsächlich einen mathematischen Sachverhalt beschreibt.
- Die Frage war auch nicht was das Wort Logarithmus bedeutet, sondern was das Wort folgen bedeutet. Wenn das einen mathematischen Sachverhalt beschreibt muss man es ja auch mathematisch formulieren können.
- "folgen" bedeutet im Wortzusammenhang "einer Gleichverteilung folgen", dass anhand eines wissenschaftlich anerkannten und den Eigenschaften der Daten adäquaten Signifikanztests die Hypothese, die Mantissen seien trotz mehr oder minder geringfügiger Abweichungen, die als zufällige Fehler gesehen werden, gleichverteilt oder "folgen einer Gleichverteilung", bei vorheriger Wahl eines geeigneten Signifikanzniveaus (z.B. 5%) nicht verworfen werden kann. Sollte der liebe Gott sich dann vielleicht ins Fäustchen lachen und sagen, die habe ich aber schön hereingelegt, die glauben jetzt, das wäre eine Gleichverteilung, aber es ist in Wirklichkeit gar keine, dann hat der Signifikanztest bei Wahl des Signifikanziveaus 5% halt eine seiner 5 Fehlurteile von 100 gefällt. Jetzt klarer? Nix is absolut sicher. Wer absolute Sicherheit will, darf sich mit Wissenschaft nicht beschäftigen, könnte Sir Karl Popper gesagt haben.
- Okay. Ich verstehe Benfords Gesetz so: "Das Benforsche Gesetz besagt, dass für eine große Klasse realer (empirischer) Datensätze die Mantissen der Logarithmen der Daten in etwa gleichverteilt sind". Ja?
- Ja. Und man kann schon vor einer Benford-Analyse sagen, ob dieser Datensatz, wenn er nicht künstlich dafür geschrieben wurde, auch den Benford-Test bestehen oder nicht bestehen sollte.
- Gut. Und wie?
- Indem Du Dir Parameter aus den Meßwerten errechnest, wie das geht, brauche ich einem Mathematiker hoffentlich nicht zu erklären.
- Man kann also, ohne die Daten zu analysieren, sagen ob sie das Benforsche Gesetz erfüllen. Wie macht man das? Durch eine Analyse. Habe ich das richtig zusammengefasst? So macht es nämlich keinen Sinn.
- Ohne eine BENFORD ANALYSE durchzuführen. GANZ ohne Analyse geht die Chose nicht.
- Man kann also, ohne die Daten zu analysieren, sagen ob sie das Benforsche Gesetz erfüllen. Wie macht man das? Durch eine Analyse. Habe ich das richtig zusammengefasst? So macht es nämlich keinen Sinn.
- Indem Du Dir Parameter aus den Meßwerten errechnest, wie das geht, brauche ich einem Mathematiker hoffentlich nicht zu erklären.
- Gut. Und wie?
- Ja. Und man kann schon vor einer Benford-Analyse sagen, ob dieser Datensatz, wenn er nicht künstlich dafür geschrieben wurde, auch den Benford-Test bestehen oder nicht bestehen sollte.
- Okay. Ich verstehe Benfords Gesetz so: "Das Benforsche Gesetz besagt, dass für eine große Klasse realer (empirischer) Datensätze die Mantissen der Logarithmen der Daten in etwa gleichverteilt sind". Ja?
- "folgen" bedeutet im Wortzusammenhang "einer Gleichverteilung folgen", dass anhand eines wissenschaftlich anerkannten und den Eigenschaften der Daten adäquaten Signifikanztests die Hypothese, die Mantissen seien trotz mehr oder minder geringfügiger Abweichungen, die als zufällige Fehler gesehen werden, gleichverteilt oder "folgen einer Gleichverteilung", bei vorheriger Wahl eines geeigneten Signifikanzniveaus (z.B. 5%) nicht verworfen werden kann. Sollte der liebe Gott sich dann vielleicht ins Fäustchen lachen und sagen, die habe ich aber schön hereingelegt, die glauben jetzt, das wäre eine Gleichverteilung, aber es ist in Wirklichkeit gar keine, dann hat der Signifikanztest bei Wahl des Signifikanziveaus 5% halt eine seiner 5 Fehlurteile von 100 gefällt. Jetzt klarer? Nix is absolut sicher. Wer absolute Sicherheit will, darf sich mit Wissenschaft nicht beschäftigen, könnte Sir Karl Popper gesagt haben.
- 5. wenn die Varianz innerhalb des Datensatzes einen bestimmten, von der Klasse der Verteilung, nach welcher der Datensatz verteilt ist, abhängigen Mindestwert nicht unterschreitet. Die Klasse der Verteilung, nach welcher der Datensatz verteilt ist: das ist doch laut Voraussetzung eine Benford-Verteilung, oder?
Antwort: Die Daten selbst sind irgendwieX-verteilt, die Logarithmen der Daten irgendwieandersY-verteilt, ihre Mittelwerte normalverteilt, ihre Varianzen chi-Quadrat-verteilt, und die Ziffernsequenzen der einzelnen Zahlen, wenn die obigen Parameter "passen", sind benford-verteilt. Alles, was man in einem Datensammelsurium betrachten kann, ist irgendwie verteilt. Mathematische Statistik ist ein weites Land. Ein bekannter Autor für statistische Studien ist z.B. BORTZ. Schlag doch nach.
- 6. Mit einer Konstanten multiplizierte Datensätze mit Benford-verteilten Anfangsziffern sind wiederum Benford-verteilt. Ein Datensatz kann m.E. nicht Benford-verteilt sein, da die Benford-Verteilung stetig ist. Richtig? Oder geht's hier doch plötzlich wieder nur um Anfangsziffern?
Antwort: Genau genommen ist dann nichts irgendwie verteilt, denn wir haben haben immer mit Datensätzen zu tun, und die sind eo ipso cum grano salis nicht stetig. Die "Anfangsziffern" sind nur der "Anfang" der Benford-Saga. Es geht immer um die ganzen Ziffernsequenzen, die, egal wo das Komma steht, immer die gleiche Mantisse haben. Prüf 's nach: 2,718281828 hat den dekadischen Logarithmus 0,434294482, und 2718,2818828 hat 3,434294482 als dekadischen Logarithmus, die Mantisse = Nachkommazahl ist immer 0,434294482. Es geht NIE nur um die Anfangsziffern. Vielen ist auf die Schnelle mehr als die Anfangsziffer zu viel, und der Effekt ist am stärksten bei der Anfangsziffer. Und ferner: Nur ein Daten s a t z, also ein Sammelsurium von Daten, kann irgendeiner Verteilung folgen, nie eine Zahl für sich. Alles, was wir als stetig definieren, ist reine Theorie. Sogar die Quanten, so klein sie auch sein mögen, sind nicht stetig. Man kann nicht einmal beliebig kleine Räume oder Zeitabschnitte postulieren, weil es sie ungequantelt einfach nicht gibt, wenn die Physiker recht haben. Somit ist jedes infinitesimale Denken ein nützliches, ungemein genaues, aber die eher diskrete Realität doch wieder nicht völlig abbildendes Verfahren. Gott sei Dank ist die Struktur aber so fein gequantelt, dass das Stetigkeitsdenken weniger Schaden in unseren Berechnungen anrichtet als allzu diskrete Betrachtung. Vor allem die Schönheit der theoretischen stetigen Funktionen ist oft bestechend in ihrer Einfachheit, schon allein das wäre ein Grund, für die Stetigkeit zu plädieren, wo immer sie zu finden ist. Aber ganz genau stimmen tut 's letzten Endes nicht.
- Richtig müsste es also wohl heißen: Mit einer Konstanten multiplizierte Datensätze mit ungefähr Benford-verteilten Anfangsziffern sind wiederum ungefähr Benford-verteilt. Richtig? Während aber möglicherweise eine Benford-verteilte Zufallsvariablemit einer Zahl multipliziert wieder Benford-verteilt ist.
- Das "ungefähr" erklärt sich doch schon 3-mal aus dem, was ich oben gesagt habe. Nix ist absolut genau nach der Theorie verteilt. Auch die Pilze wachsen nicht nach Lehrbuch, und trotzdem überleben die meisten Sammler. Man sagt "x-verteilt" zu einer Zufallsvariablen, wenn sie den Signifikanztest auf "x-Verteilung" erfolgreich passiert, eine Zufallsvariable kann wegen ihrer Zufallskomponente ohnehin nie ganz von einer theoretischen Funktion erzeugt werden. Aber es ist doch erstaunlich, wie wenig man wissen muss, um in aller Bescheidenheit doch so viel über solche Zufallsvariablen aussagen zu können. Einem Buchhalter ist dies alles möglicherweise zu wenig.
- Ich wiederhole: Eine Zufallsvariable ist nicht zufällig und hat keine Zufallskomponenten. Eine Zufallsvariable ist nicht dann x-verteilt wenn sie irgendeinen Test besteht, sondern wenn die Verteilungsfunktion der Zufallsvariablen jene einer x-Verteilung ist.
- Du glaubst offenbar an die Vorbestimmung von allem durch ein höheres Wesen. Eine Zufallsvariable ist zum z.B. das Würfeln mit einem Würfel. Wenn es keine Zufallskomponente gibt, dann sag mir bitte, wie Du den Würfel werfen musst, damit es eine Sechs wird. Wie musst Du die zehnte Billardkugel in einer Reihe von ideal hintereinander liegenden Billardkugeln anstoßen, damit die erste Kugel, die ja den ganzen Impuls aufnimmt, genau gerade wegrollt? Zwei Zufallsvariablen mit zufälligen Komponenten, die Du für den einzeln herausgegriffenen Fall nicht beherrschen kannst. Dazu gibt es nämlich die Statistik, die dann darüber leicht verallgemeinerte Aussagen trifft.
- Ich wiederhole: Eine Zufallsvariable ist nicht zufällig und hat keine Zufallskomponenten. Eine Zufallsvariable ist nicht dann x-verteilt wenn sie irgendeinen Test besteht, sondern wenn die Verteilungsfunktion der Zufallsvariablen jene einer x-Verteilung ist.
- Das "ungefähr" erklärt sich doch schon 3-mal aus dem, was ich oben gesagt habe. Nix ist absolut genau nach der Theorie verteilt. Auch die Pilze wachsen nicht nach Lehrbuch, und trotzdem überleben die meisten Sammler. Man sagt "x-verteilt" zu einer Zufallsvariablen, wenn sie den Signifikanztest auf "x-Verteilung" erfolgreich passiert, eine Zufallsvariable kann wegen ihrer Zufallskomponente ohnehin nie ganz von einer theoretischen Funktion erzeugt werden. Aber es ist doch erstaunlich, wie wenig man wissen muss, um in aller Bescheidenheit doch so viel über solche Zufallsvariablen aussagen zu können. Einem Buchhalter ist dies alles möglicherweise zu wenig.
- Richtig müsste es also wohl heißen: Mit einer Konstanten multiplizierte Datensätze mit ungefähr Benford-verteilten Anfangsziffern sind wiederum ungefähr Benford-verteilt. Richtig? Während aber möglicherweise eine Benford-verteilte Zufallsvariablemit einer Zahl multipliziert wieder Benford-verteilt ist.
UND: Nix aus der Praxis ist mit Sicherheit irgendwie verteilt. Risikobehaftete Hypothesen entscheiden darüber, ob die Aussage, ein realer Datensatz "folge" einer x-Verteilung, nicht verworfen werden kann oder zu verwerfen ist. Es gibt keine Methode, die uns sagen kann, die Zufallsvariable X aus der Realität sei x-verteilt. Die Zufallsvariablen, über die DU redest, sind die theoretischen, die dann einer gewissen Verteilung folgen. Diese theoretischen Zufallsvariablen sind die makellosen, die Maße, an welchen wir die realen Datensätze messen. Aber die praktischen ähneln den theoretischen höchstens mehr oder weniger. Wären sie gleich, wäre das - Zufall...
- Das Werfen mit einem Würfel ist NICHT eine Zufallsvariable. Denn: Eine Zufallsvariable ist eine messbare Funktion. Ist das Werfen mit einem Würfel eine messbare Funktion? Nein. Das Werfen mit einem Würfel ist natürlich zufällig. Eine Zufallsvariable aber ist NICHT zufällig. Eine Zufallsvariable ordnet nur bestimmten Mengen, z.B. der Menge {1}, ein Maß, also eine Wahrscheinlichkeit, zu, z.B. P(X=1)=1/6. Dass nichts aus der Praxis mit Sicherheit irgendwie verteilt ist weiß ich auch. Trotzdem gibt es Verteilungen, und zwar unabhängig von der Praxis. Ich wiederhole: Gib bitte die PDF oder Verteilungsfunktion der Benford-Verteilung an. Ohne das wirst du ja nicht feststellen können, ob Daten "annähernd" Benford-verteilt sind. So wie du wissen musst was eine Gleichverteilung ist (also z.B. PDF oder Verteilungsfunktion einer Gleichverteilung), um feststellen zu können ob Daten "annähernd" gleichverteilt sind.--Mediocrity 10:40, 14. Jun. 2007 (CEST)
- Ein Mathematiker ist für die Praxis schon fast verloren. Der ganze Blimelblamel bringt doch nichts. Die PDF ist oben erklärt. Klar weiß ein jeder, was eine Gleichverteilung ist, im Lehrbuch besteht sie aus einem geraden Strich in einem Intervall, und das Integral drunter ist 1. In der Praxis sehen Histogramme gleichverteilter Datensätze aus wie stark abgenutzte Kämme.
- Das Werfen mit einem Würfel ist NICHT eine Zufallsvariable. Denn: Eine Zufallsvariable ist eine messbare Funktion. Ist das Werfen mit einem Würfel eine messbare Funktion? Nein. Das Werfen mit einem Würfel ist natürlich zufällig. Eine Zufallsvariable aber ist NICHT zufällig. Eine Zufallsvariable ordnet nur bestimmten Mengen, z.B. der Menge {1}, ein Maß, also eine Wahrscheinlichkeit, zu, z.B. P(X=1)=1/6. Dass nichts aus der Praxis mit Sicherheit irgendwie verteilt ist weiß ich auch. Trotzdem gibt es Verteilungen, und zwar unabhängig von der Praxis. Ich wiederhole: Gib bitte die PDF oder Verteilungsfunktion der Benford-Verteilung an. Ohne das wirst du ja nicht feststellen können, ob Daten "annähernd" Benford-verteilt sind. So wie du wissen musst was eine Gleichverteilung ist (also z.B. PDF oder Verteilungsfunktion einer Gleichverteilung), um feststellen zu können ob Daten "annähernd" gleichverteilt sind.--Mediocrity 10:40, 14. Jun. 2007 (CEST)
Dass es theoretische Verteilungen gibt, dafür danken wir herzlich. Sonst hätten wir nix zum Vergleichen mit den Signifikanztests. Aber auf Basis eines realen Datensatzes kann ich nie beurteilen, wie der wirklich verteilt ist, ich kann es nur annehmen, weil ein Signifikanztest, der sich diesmal hoffentlich grad nicht geirrt hat, meint, dass man diese oder jene Verteilung nicht ausschließen kann. In der Theorie weiss man immer alles, aber in der Praxis nützt das dann nicht viel. Man sagt, ein Datensatz sei normalverteilt, wenn mich der Signifikanztest nicht zum Verwerfen zwingt, und wenn ich mir dann das Histogramm ansehe, wird mir mulmig: ob das bei genügend n wirklich eine NV wird oder nicht doch eher die Schattenzeichnung eines Unfallautos?
- 7. Benfords Gesetz besagt in seiner einfachsten Konsequenz, dass die führenden Ziffern n (n = 1...9) mit folgenden Wahrscheinlichkeiten erscheinen: Die führenden Ziffern wovon? Von Datensätzen? Dann stimmen die Prozentzahlen wohl bestenfalls asymptotisch.
Antwort: Der Angelsachse sagt "leading digit of a figure" (er meint damit: führende Ziffer einer Zahl) und meint damit jene Ziffer, die die höchste Potenz der jeweiligen Zahlenbasis in dieser Zahl repräsentiert, bei 785.234,12 wäre dies die "7". Wohlgemerkt, es geht aber nie NUR um die Anfangsziffer allein (s.o.), bei ihr ist der Effekt nur am allergrößten.
- Die Frage war: Führende Ziffer wovon? Von bestimmten Datensätzen wohl. Für welche gilt das? Das sollte in der Aussage drinstehen. So wie das dasteht könnte einer meinen dass das für alle Datensätze gilt, was ja sicher nicht wahr ist.
- Nehmen wir an, wir hätten einen Datensatz aus 3 Zahlen, 123, 245 und 997. Dann sind die führenden Ziffern des Datensatzes 1, 2 und 9. Die führenden Ziffern sind die kürzesten denkbaren Anfangssequenzen aller Zahlen eines Datensammelsuriums.
- Die Frage war: Führende Ziffer wovon? Von bestimmten Datensätzen wohl. Für welche gilt das? Das sollte in der Aussage drinstehen. So wie das dasteht könnte einer meinen dass das für alle Datensätze gilt, was ja sicher nicht wahr ist.
Ordnest Du diese nach Häufigkeiten, siehst Du BEI ALLEN Datensätzen, die nicht künstlich so präpariert wurden, dass die Ziffern 1 bis 9 im Zehnersytem (oder 1 bis 3 im Vierersystem, usf.) so gut wie nie gleich häufig auftreten.
- Die Frage ist: Für welche Datensätze gilt das Benfordsche Gesetz? Antwort: Für so manche, aber nicht für alle. Ja?
- Ja sicher. Aber genau definierbar für welche und genau definierbar für welche nicht. Das ist in der Wissenschaft ganz normal.
- Niemand hat im übrigen jemals behauptet, das NBL könne für beliebige Datensätze gelten, es gab stets Einschränkungen, wie überall. Dass das NBL für allerlei Scharlatanerie missbraucht wird, hat wahrscheinlich den einen Grund, dass das bekannte Häufigkeitsdiagramm eine degressiv fallende Kurve suggeriert, womit man viele Entwicklungen im Leben beschreiben könnte. Diese haben aber wohl nicht einmal den Deut mit dem NBL zu tun. Immer gibt es solche, die hoffen, dass sie die Antwort auf alles in einem Satz oder einer Gesetzmäßigkeit finden können. Es gibt aber nur einen einzigen Satz, der immer stimmt, und der betrifft auch unsere etwas lang werdende Diskussion: "Auch das geht vorüber". Mich erstaunt, wie wenig über dieses Phänomen an die Universitäten durchgedrungen ist. Die einzige mir bekannte Ausnahme im Umkreis von 800 km ist die Uni Ulm. Herzlichen Gruß Pard 80.120.190.234 09:38, 14. Jun. 2007 (CEST)
- Ich bitte zum wiederholten mal genau zu erklären: Was exakt besagt das Benfordsche Gesetz (in einer mathematischen Fomulierung) und für welche Datensätze gilt es? Zum Vergleich übrigens ein Zitat aus der englischen Wikipedia: , also called the first-digit law, states that in lists of numbers from many real-life sources of data, the leading digit is 1 almost one third of the time, and larger numbers occur as the leading digit with less and less frequency as they grow in magnitude, to the point that 9 is the first digit less than one time in twenty. This is based on the observation that real-world measurements are generally distributed logarithmically, thus the logarithm of a set of real-world measurements is generally distributed uniformly. In diesem Sinn besagt das Benfordsche Gesetz einfach nur, dass viele realen Datensätze logarithmisch verteilt sind. --Mediocrity 10:40, 14. Jun. 2007 (CEST)
- Ich verweise auf die Quellen und Verweise auf Abhandlungen im web; da Du selbst Mathematiker bist, werden dort alle Deine Fragen geklärt werden. Oder kontaktiere Posch von der Uni Ulm. Ich beherrsche das Schreiben mathematischer Zeichen in dieser Textverarbeitung nicht.
- Der englische Autor ist als einer unter vielen in die "logarithmische Falle" des NBL getappt. Es stimmt zwar, dass die Anfangssequenzen logarithmisch verteilt sind, dies liegt aber nicht daran, dass die Logarithmen gleichverteilt sind, sondern die Mantissen der Logarithmen, und diese sind die Reste dieser Logarithmen modulo 1. Aus einer Verteilung von Resten von Logarithmen von Datensätzen direkt auf die Verteilung der Datensätze selbst zu schließen ist tollkühn, und ich würde das nicht riskieren. Der Autor hat das aber sicher deshalb nicht so tollkühn gefunden, weil es ihm gar nicht bewußt war, worüber er genau schreibt, und daß er einen Weltzusammenhang gefunden zu haben glaubte, den es - leider - so nicht gibt.
- Tatsächlich, das ist in der englischen Wikipedia falsch fomuliert. Da sollte statt thus the logarithm... vielmehr thus the _Mantissen_ of the logarithm... Dann passt's aber; dass das NBL für viele reale Datensätze gilt folgt daraus, dass viele reale Datensätze logarithmisch verteilt sind.
- Der englische Autor ist als einer unter vielen in die "logarithmische Falle" des NBL getappt. Es stimmt zwar, dass die Anfangssequenzen logarithmisch verteilt sind, dies liegt aber nicht daran, dass die Logarithmen gleichverteilt sind, sondern die Mantissen der Logarithmen, und diese sind die Reste dieser Logarithmen modulo 1. Aus einer Verteilung von Resten von Logarithmen von Datensätzen direkt auf die Verteilung der Datensätze selbst zu schließen ist tollkühn, und ich würde das nicht riskieren. Der Autor hat das aber sicher deshalb nicht so tollkühn gefunden, weil es ihm gar nicht bewußt war, worüber er genau schreibt, und daß er einen Weltzusammenhang gefunden zu haben glaubte, den es - leider - so nicht gibt.
- Ich verweise auf die Quellen und Verweise auf Abhandlungen im web; da Du selbst Mathematiker bist, werden dort alle Deine Fragen geklärt werden. Oder kontaktiere Posch von der Uni Ulm. Ich beherrsche das Schreiben mathematischer Zeichen in dieser Textverarbeitung nicht.
- Ich bitte zum wiederholten mal genau zu erklären: Was exakt besagt das Benfordsche Gesetz (in einer mathematischen Fomulierung) und für welche Datensätze gilt es? Zum Vergleich übrigens ein Zitat aus der englischen Wikipedia: , also called the first-digit law, states that in lists of numbers from many real-life sources of data, the leading digit is 1 almost one third of the time, and larger numbers occur as the leading digit with less and less frequency as they grow in magnitude, to the point that 9 is the first digit less than one time in twenty. This is based on the observation that real-world measurements are generally distributed logarithmically, thus the logarithm of a set of real-world measurements is generally distributed uniformly. In diesem Sinn besagt das Benfordsche Gesetz einfach nur, dass viele realen Datensätze logarithmisch verteilt sind. --Mediocrity 10:40, 14. Jun. 2007 (CEST)
- Die Frage ist: Für welche Datensätze gilt das Benfordsche Gesetz? Antwort: Für so manche, aber nicht für alle. Ja?
- Ich bitte um genaue Antworten. mfg.--Mediocrity 10:01, 12. Jun. 2007 (CEST)
Jetzt habe ich fast einen kleinen Artikel geschrieben... Ich hoffe, dass meine Antworten nicht allzu mittelmäßig ausgefallen sind. Herzliche Grüße Pard 80.120.190.234 17:18, 12. Jun. 2007 (CEST)
Soviel von meiner Seite dazu. Liebe Grüße. --Mediocrity 12:01, 13. Jun. 2007 (CEST)
Verwaister Artikel
BearbeitenKönnte jemand, der sich inhaltlich mit dem Thema auskennt, vielleicht einen Link auf Theodore Hill in diesen Artikel hier einbauen? Der Artikel ist verwaist und es wäre schön, wenn wir einen passenden Link finden könnten.--schreibvieh muuuhhhh 11:58, 15. Mai 2007 (CEST)
- Theodore Hill war sicher ein bedeutender Pionier auf dem Gebiet des NBL. Ich werde mich im Rahemn der Neufassung des Artikels auch auf seine Arbeit beziehen. Pard 80.120.190.234 14:25, 13. Jun. 2007 (CEST)
Hallo Anton
BearbeitenDie Diskussion über das Benfordsche Gesetz bordet langsam über. Ich habe den Text ins Word kopiert, das ergab über 20 Seiten. Schöne Resonanz, meine ich. Der Artikel gehört neu verfasst, viele Kommentatoren haben recht, es ist manches unklar geblieben. Aber ich muss zugeben, es ist auch erst vieles klar geworden, was früher nur als empirisches Ergebnis punktuell dalag. Herzliche Grüße Pard 80.120.190.234 14:25, 13. Jun. 2007 (CEST)
- Hallo Pard, schön, dass du wieder aufgetaucht bist. Ich habe mich lange nicht mehr um den Artikel gekümmert (war nicht schon alles gesagt?). Nachdem ich Zipf und Paretto zusammen fassen konnte, habe ich Benford wohl aus den Augen verloren. Du schreibst den Artikel neu? Bitte lasse meine Beispiele überleben, und die allgemeine Formulierung für die Verteilung der n.ten Ziffer. Wann stellst du die neue Version zur Diskussion?. Viele Grüße, Anton 15:01, 14. Jun. 2007 (CEST)
- Keine Ahnung, lieber Anton, gegenwärtig hält mich hier die Diskussion in Trab. Ich meine aber, dass gewisse Erkenntnisse aus der Diskussion in die neue Version einfließen können. Deine Beispiele lasse ich gerne überleben. Wo ich irrtümlich eins killen sollte: Stell 's einfach wieder 'rein. Liebe Grüße Pard 80.120.190.234 15:37, 14. Jun. 2007 (CEST) (Hab mein Passwort vergessen und kann mich daher nicht mehr anmelden)
Hallo zusammen Auch wenn das nun etwas pedantisch wirken könnte, habe ich in der allgemeinen Formel die Gaussklammer noch gesetzt. Diese ist allerdings klar nur für den Fall nötig. Naja... zwecks Lesbarkeit könnte man diese natürlich auch weglassen und stillschweigend annehmen, dass man die Gaussklammer zu setzen hat, wenn die Summationsgrenzen nicht ganzzahlig sind. Mir wäre eine solche Konvention jedoch neu und deshalb würde ich die so belassen. Weiter ist die Schreibweise mit dem natürlichen Logarithmus selbstverständlich korrekt und ein schöner Dienst an Leute, die die entsprechenden Wahrscheinlichkeiten explizit (mit einem Taschenrechner) berechnen wollen aber konsequenterweise sollte man meines Erachtens nach auch dort gleich den Logarithmus zur Basis verwenden. Gruss --84.72.192.27 23:00, 7. Aug. 2007 (CEST)
Beispiel für Anwendungen
BearbeitenHallo, wäre das hier nicht ein gutes Beispiel für eine Anwendung? Geheimnisvolle Statistik: Hinweise auf Wahlfälschung im Iran --194.76.39.219 10:59, 18. Jun. 2009 (CEST)
- Ja, dieser Artikel von Roukema sollte auf jeden Fall als Anwendungsbeispiel aufgenommen werden, wenn sich seine Ergebnisse als valide herausstellen. Übrigens: der Standard hat auch ein nettes Interview mit ihm geführt. --Herr-Schlauschlau 20:24, 30. Jun. 2009 (CEST)
Formelfehler
BearbeitenHallo, die spezielle Ausprägung der allgemeinen Formel für die erste Ziffer ist nicht ganz korrekt, ich habe sie korrigiert (bitte bestätigen): Vorher:
Nun:
Vorher war mit n = 1 die zweite Ziffer gemeint (Positionen werden aber ab 0 gezählt, siehe Artikel), was offensichtlich auch nicht die Kürzung liefert. (nicht signierter Beitrag von 141.12.67.167 (Diskussion | Beiträge) 12:40, 17. Jul 2009 (CEST))
Frage zu "Warum folgen so viele reale Datensätze dem NBL?"
BearbeitenÜberschrift: Warum folgen so viele reale Datensätze dem NBL? [Bearbeiten]
Zitat:
Das NBL besagt, dass die Auftretenswahrscheinlichkeiten der Ziffernsequenzen in den Zahlen von realen Datensätzen (damit sind hier solche gemeint, die keinen Manipulationen unterlagen) genügend umfangreich sind und Zahlen in der Größenordnung von x bis mindestens 10000 x aufweisen. Daten also, welche einigermaßen weit verteilt (dispergiert sind), nicht gleichverteilt sind, sondern logarithmischen Gesetzen folgen.
Die ersten beiden Sätze sind grammatikalisch vermurkelt. Könnte der Autor bitte schreiben, was er meint?
Die Antwort auf die Frage "Warum?" finde ich auch nicht, d.h. kein Erklärungsansatz für dieses Phänomen. Hier scheinen sich merkwürdige pseudowiss. Ansätze zu tummeln --- ist das Ganze vielleicht unseriös und ein Hoax??? --Cami de Son Duc 17:53, 4. Mär. 2010 (CET)
- Hoax? Wenn ja, ein sehr guter:-), ist immerhin im Handelsblatt, ich hab zum ersten mal im Economist davon gelesen. Mir persönlich kommt das auch nicht so super überraschend vor, bei Flüssen muss man es sich so vorstellen, das 200km einfach doppelt so lang ist wie 100km, dementsprechend viele Flüsse werden in diesen Abstand fallen. Zwischen 900 und 1000km wird es wieder eng, zwischen 1000 und 2000km sind wieder viele. Halt ich eigentlich für nachvollziehbar. --94.222.12.227 23:50, 6. Mär. 2010 (CET) (aka kricket, nur grade nicht angemeldet...)
http://www.dsprelated.com/showarticle/55.php (nicht signierter Beitrag von 84.115.143.134 (Diskussion | Beiträge) 10:51, 12. Mär. 2010 (CET))
Beispiel Supermarktpreise
BearbeitenDieses Beispiel ist nicht glücklich gewählt, da gerade hier die Anfangsziffer 9 überproportional oft auftaucht, wohl um den Kunden zu signalisieren, das der Preis noch "n-stellig" statt "n+1 - stellig" ist. (nicht signierter Beitrag von 87.149.65.219 (Diskussion | Beiträge) 12:53, 6. Mai 2010 (CEST))
- Volle Zustimmung. Bei Preisänderungen wird ja z.B. aus x,98 dann x,48 demzufolge die 8 exzessiv oft auftritt. --178.12.136.239 15:48, 17. Mär. 2021 (CET)
DSP
BearbeitenHier gibt es einen Erklärungsansatz 1 - verstehe aber zu wenig von der Sache, um es als Privat-TF oder validen Beitrag zu deuten...--Mager 21:04, 6. Jun. 2010 (CEST)
Übertragbarkeit
BearbeitenHat einmal jemand versucht, ob man das Gesetz auf die Häufigkeitsverteilung von Buchstaben anwenden kann, bzw. ob es sich dort auch zeigt? Markus (nicht signierter Beitrag von 89.204.136.53 (Diskussion) 16:42, 18. Sep. 2011 (CEST))
- Und zwar wie? Auf Anfangsbuchstaben? --84.130.158.220 09:09, 21. Sep. 2011 (CEST)
Auffällige Abweichung bei den Eurostat Zahlen Griechenlands
BearbeitenIch habe den Artikel selbsz nicht gelesen, daher nur den Verweis.
Fact and Fiction in EU-Governmental Economic Dat
Bernhard Rauch, Max Göttsche, Gernot Brähler, Stefan Engel
Article first published online: 28 APR 2011 Rauch, B., Göttsche, M., Brähler, G. and Engel, S. (2011), Fact and Fiction in EU-Governmental Economic Data. German Economic Review, 12: 243–255. doi: 10.1111/j.1468-0475.2011.00542.x
http://onlinelibrary.wiley.com/doi/10.1111/j.1468-0475.2011.00542.x/abstract (nicht signierter Beitrag von Toytoy (Diskussion | Beiträge) 08:12, 21. Sep. 2011 (CEST))
- Auch tagesschau.de hat Wind davon bekommen und es als "Schlusslicht" veröffentlicht: Man muss nur die richtigen Leute fragen verweist als Quelle der Info auf "Mathematiker der Technischen Universität Ilmenau". --92.231.128.8 22:07, 24. Okt. 2011 (CEST)
Beweisbarkeit
BearbeitenSollte nicht etwas zur prinzipiellen Beweisbarkeit solcher statistischer Sätze gesagt werden?--löschfix 10:17, 31. Okt. 2011 (CET)
Wahlmanipulation
BearbeitenWird nur kurz erwähnt, daher die Frage, wurde das die Korektheit von Wahlergebnissen schon öfter nach dieser Methode untersucht? Wenn ich mich recht erinnere wurde das auch mit den Präsidentschaftswahlen im Iran 2009 mal so gemacht und die Manipulation nachgewiesen.--Antemister (Diskussion) 20:29, 6. Mär. 2012 (CET)
- Das Gesetz mag sicher einen Anhaltswert geben für Manipulationen in der Wirtschaft, aber bei Wahlergebnissen halte ich es für ungeeignet. Beispiel dieser Bericht über Wahlfälschung, wobei ich dem Artikel nicht zustimme. Die Links über tatsächliche Wahlmanipulation halte ich jedoch ausnahmslos für seriös in diesem Artikel. Ich denke extreme Abweichungen gegenüber der vorherigen Wahl zugunsten einer beliebigen Partei in einem Wahllokal bedürfen einer Überprüfung durch nachzählen und sind zielführender als das Benfordsche Gesetz. --178.12.136.239 15:48, 17. Mär. 2021 (CET)
Aufräumen, Abschnitt "Spiel"
BearbeitenErstens muss hier dringend mal aufgeräumt werden (Einige Diskussionsbeiträg sind ja noch von 2003) und zweitens klingt der Abschnitt "Ein Spiel" eher wie eine Aufgabe aus einem Grundschulmathebuch und hat rein gar nichts in einer Enzyklopädie zu suchen... --82.113.122.166 11:06, 12. Sep. 2012 (CEST)
- Da bin ich auch für, das ist nicht relevant für den Artikel. 131.246.18.253 14:39, 3. Feb. 2014 (CET)
Vorkommen in der Realität
BearbeitenIch habe gerade den Satz "Aufgrund dieses Sachverhaltes sind beispielsweise einmal Betrügereien bei Krankenkassen aufgedeckt worden, weil die Betrüger bei den Rechnungen zu viele Rechnungsbeträge mit der 6 als erster Ziffer erstellt hatten." entfernt, da dafür keinerlei Quellen vorhanden waren und auch die Position im Text eher zum Abschnitt "In der Wirtschaft" gehört. Dort habe ich einen aktuellen Fall von Kleinkriminalität ergänzt, bei der der Richter wörtlich sich auf das Benfordsche Gesetz bezog, das zum Auffliegen des Diebstahls führte. Sieh der verwiesene Artikel, letzter Absatz. --5156246 (Diskussion) 08:36, 22. Feb. 2013 (CET)
Skaleninvarianz
Bearbeitenwarum ist das Benford´sche Gesetz das einzige skaleninvariante? -->Pareto-Verteilung! (nicht signierter Beitrag von 141.24.172.214 (Diskussion) 02:09, 14. Apr. 2013 (CEST))
Allgemeines NBL
BearbeitenDen Satz "Die Formulierung des „allgemeinen NBL“ ist wesentlich komplexer und enthält die bekannte Form des NBL als Grenzverteilung. Ihre Darstellung würde den Rahmen dieser Seite sprengen." hierher verschoben.
Der Artikel bietet ausreichend Platz, auch die allgemeine Darstellung mit aufzunehmen (notfalls als neuen Artikel)...
Abrev (Diskussion)
Fehlende Erklärung
BearbeitenKönnte mal jemand erklären wieso dieses Gesetz gilt? (nicht signierter Beitrag von 91.34.31.35 (Diskussion) 05:47, 8. Mär. 2014 (CET))
- Hallo Erich, siehe Benfordsches_Gesetz#Warum_viele_Datensätze_dem_NBL_folgen. Abrev (Diskussion)
Standardabweichung
BearbeitenHallo an alle,
ich habe eine Frage zur Standardabweichung
1. Ist eine Datenmenge deren Anfangsziffern der Benfordverteilung folgen damit zwingend Log-Normverteilt?
2. Sind die Anfangsziffern einer Lognormverteilte Datenmengen die eine Standabweichung unter 0,74 hat, nicht Benfordverteilt oder nicht zwingend Benfordverteilt. Ich gehe davon aus, dass 0,74 der dekadische Log ist. Die Lognormverteilung definiert sich aber über den natürlichen Log.
3. Im Artikel steht geschrieben, dass wenn die Standardabweichung kleiner als 0,74 ist und damit die Mantissen der Logarithmen (= die Logarithmen der Mantissen???)normalverteilt sind, der Mittelwert der Lognormverteilung (dekadischer oder natürlicher ?) die Auftretenshäufigkeit der Ziffern bestimmt.
Ich gehe davon aus, dass diese Frage den normalen Artikel sprengen würden, aber vielleicht kann in der Diskussion geklärt werden, in wie weit, der o.g. Mittelwert auf die Ziffernerwartung Einfluss hat.
Denn im Gegensatz zu der Bemerkung im Artikel, dass diese Erscheinung nur sehr selten auftritt, hab ich damit in meiner Praxis sehr häufig zu tun. Bemerkenswerterweise sind diese Fälle fast immer Benfordverteilt. siehe z.B. http://www.vwi.tu-dresden.de/~treiber/statistik2/statistik_download/folien19_Benford.pdf Siehe auch Frage 1.
Hier möchte ich auf das Zitat in der Diskussion verweisen: "Wird dieser Datensatz dem NBL genügen?, so kann ich eine eindeutige Antwort geben, indem ich den Datensatz mit statistischen Methoden einer kurzen Analyse unterziehe (Mittelwert, Varianz, Spannweite etc.). Angenommen, meine Antwort wäre ... Fall 2 NEIN (weil die Daten nicht lognormverteilt sind), aber das Ergebnis der nachfolgenden Benford-Analyse wäre ... Fall 2 JA: Dann hat in beiden Fällen jemand mit den Daten gespielt." Dieser Satz widerspricht den ausfürhungen in dem o.g. Link "Wie der zentrale Grenzwertsatz ist Benford's law erstaunlich robust und gilt verblüffend gut, auch wenn seine Voraussetzung (ein gleichverteilten Logarithmus) nicht erfüllt ist"
Viele grüße und danke Anni (nicht signierter Beitrag von Annilognorm (Diskussion | Beiträge) 15:35, 13. Jan. 2016 (CET))
Schreibweise
BearbeitenMan schreibt "Benfords Gesetz" oder das "benfordsche Gesetz". Ich weiss nicht was den Majo-Poweruser dazu bringt, mittels Editwar eine falsche Schreibweise durchdrücken zu wollen. Konstruktiv ist das jedenfalls nicht. --62.202.180.226 12:19, 24. Apr. 2016 (CEST)
- Die Schreibweise ist nicht falsch, siehe WP:RS#Von Personennamen abgeleitete Adjektive. --79.250.111.59 14:02, 24. Apr. 2016 (CEST)
digitale Späßchen
BearbeitenMan darf doch davon ausgehen, daß der im Text verwendete dekadische Logarithmus dem dezimalen Zahlensystem geschuldet ist? Nun, damit gibt sich die Wahrscheinlichkeit für eine „1“ als führender Stelle in einer binären Zahl zu … Nur schade, daß die Register jeder CPU das nur mit 50% so sieht! 😜
BTW: wenn man die aktuellen Zahlen der 77 Städte von der Liste der Großstädte in Deutschland nimmt, die Prozente und Jahreszahlen (und natürlich die Zeilennummern) wegläßt, wird die Ähnlichkeit der Verteilungskurven schon etwas vage. 46,3 bis 151,8 Prozent Übereinstimmung mit der Theorie bei den ersten Ziffern, 47,5 bis 180 Prozent bei den zweiten … (nicht signierter Beitrag von 93.205.113.73 (Diskussion) 00:50, 14. Jul. 2016 (CEST))
- Bitte WP:DS beachten. Hast Du einen konkreten Vorschlag zur Verbesserung des Artikels? Die Basis des Logarithmus wird durchaus bereits thematisiert, es wird insofern im Artikel nicht stillschweigend von Dezimalzahlen ausgegangen. --84.130.141.55 12:14, 14. Jul. 2016 (CEST)
Quelle gefunden mit den Werten für die 3. und 4. Stelle
BearbeitenSchaut mal hier in dieser Arbeit auf Seite 14
Problematische Priorisierung
BearbeitenDieser Artikel krankt an seiner Mathematik-Lastigkeit. Er setzt bei vielen Formeln höheres Basiswissen voraus. Die Relevanz des Themas anhand praktischer Beispiele ist dagegen stiefmütterlich behandelt und unterbelichtet.
Allein der Artikel aus der Epoch Times erklärt das Thema um Längen besser. Dieser Artikel gehört zu jenen mit reiner Binnenperspektive. Keinesfalls lesenswert, sondern eine Zumutung. Umschreiben.--Rkendlbacher (Diskussion) 12:07, 28. Mär. 2022 (CEST)