Diskussion:Normalverteilung

From Wikipedia, the free encyclopedia

Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.
Archiv
Wie wird ein Archiv angelegt?

Abgeschnittene Normalverteilung

Die "normale" Normalverteilung erstreckt sich bekannterweise über den gesamten reelen Wertebereich R, also über dem offenen Intervall <NegativeInfinity; PositiveInfinity>. Das heißt aber auch, dass x Werte weit ab vom Erwartungswert μ immer noch eine Wahrscheinlichkeit größer als Null haben, also (p(x >> μ) > 0) und (p(x << μ) > 0), auch wenn diese sehr klein sein mag. Nun ist es aber in der Praxis häufig so, dass man nur eine annähernde Normalverteilung der Zufallsgröße vorliegen hat. Die mehrfach erwähnte Zwölferregel (man addiere 12 über dem Intervall[-0.5;+0.5] gleichverteilte Zufallszahlen, um eine standardnormalverteilte Zufallsgröße zu bekommen) hat meines Erachtens einen Haken. Für eine "Daumenpeilung" mag die Zwölferregel ja noch ausreichen, aber die Wahrscheinlichkeit p, dass die Summe S aus 12 über [-0.5; +0.5] gleichverteilten Zufallszahlen, größer als +6 oder kleiner als -6 ist, ist definitiv gleich Null, also (p(S > +6) = 0) und (p(S < -6) = 0), was bei der "normalen" Normalverteilung aber niemals der Fall ist.

Man könnte jetzt die Anzahl der Summanden NS erhöhen, damit sich die Summe aus NS gleichverteilten Zahlen über [-a; +a] immer besser an eine "normale" Normalverteilung (mit (μ = 0) und (δ = (sqrt(NS) * DeviationOfUniformDistribution))) anpasst, aber "erhöht" man entweder das Signifikanzniveau α von (α = 0.01) (also 1 Prozent) auf z.B. (α = 0.001) (also 1 Promille), oder erhöht deutlich die Anzahl der durchgeführten Tests z.B von NT = 103 auf NT >= 109, oder erhöht die Anzahl der Intervalle für den Chi-Quadrat-Anpassungstest von NI = 24 auf NI >= 210, hat man das gleiche Anpassungsproblem wie vorher, das heißt, sowohl ein Chi-Quadrat-Anpassungstest als auch ein Kolmogorov-Smirnov-Anpassungstest lehnen die Hypothese, unsere Zufallsgröße sei normalverteilt, wieder zuverlässig ab, falls man auf irgend eine Art und Weise die Testkriterien verschärft. Mit anderen Worten: unsere Zwölferregel ist tatsächlich nur annähernd und nicht wirklich normalverteilt.

In der englischen Wikipedia gibt es für solche Art von Anpassungsproblemen schon eine allgemeine Lösung mit den Begriff der "truncated distribution" und speziell auch die "truncated normal ditribution", zu deutsch würde das wohl eher beidseitig begrenzte Normalverteilung als abgeschnittene Normalverteilung heißen, aber das soll hier nicht das Thema sein. Wichtig ist hier nur, dass eine "abgeschnittene" Normalverteilung, im Gegegnsatz zur "normalen" Normalverteilung, zwei zusätzliche reelle Parameter a und b (mit NegativeInfinity << a < b << PositiveInfinity) hat, welche die Endpunkte des Werteintervalls [a, b] der "abgeschnitten" Normalverteilung angeben und somit das unendliche Werteintervall <NegativeInfinty; PositiveInfinity> der "normalen" Normalverteilung ersetzen. Die Wahrscheinlichkeit, das x kleiner als a oder größer als b ist, ist hier im Gegensatz zur "normalen" Normalverteilung stets gleich 0, (also (p(x < a) = 0) und (p(x > b) = 0)). Damit die Fläche unter der ProbabilityDensityFunction (PDF) einer "abgeschnittenen" Verteilung aber immer noch 1 ergibt, wird die PDF entsprechend "zusammengeschoben". Damit ändern sich aber nicht nur die Form der PDF sondern auch die charakteristischen Merkmale bzw. Parameter (avg, var, dev, skn, kur, exz, ...) einer "abgeschnitten" Verteilung entsprechend im Vergleich zu der "normalen" Verteilung.

Natürlich gibt es auch nur einseitige Beschränkungen von Wahrscheinlichkeitsverteilungen mit unendlichen Wertebereichen. Das Thema ist also schon etwas umfangreicher, als ich es hier umrissen habe. Vielleicht gibt es so etwas, wie die "abgeschnittenen" Verteilungen ja auch schon in der deutschen Wikipedia (und ich war nur zu blöd, es zu finden, dann helft mir bitte auf die Sprünge), aber wenn nicht, sollte so etwas auch hier eingeführt oder besser verlinkt werden, denn das Prinzip, welches hinter den "abgeschnittenen" Verteilungen steckt, müßte meines Erachtens doch auf fast jede "unendliche" Verteilung anwendbar sein, oder? --Aragorn321 (Diskussion) 12:03, 13. Okt. 2015 (CEST)

Der deutsche statistische Fachbegriff für truncated distribution ist gestutzte Verteilung, z. B.: P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, gestutzte Verteilung, S. 146-148.--Sigma^2 (Diskussion) 13:29, 12. Mär. 2023 (CET)
Es wäre sinnvoll, einen Abschnitt oder einen Artikel "gestutzte Normalverteilung" analog zu truncated normal distribution" zu schreiben.--Sigma^2 (Diskussion) 10:21, 3. Jun. 2023 (CEST)
Inzwischen gibt es den Artikel Stutzung, in dem auch gestutzte Normalverteilungen behandelt sind.--Sigma^2 (Diskussion) 12:33, 15. Okt. 2023 (CEST)
Ich habe einen Verweis darauf unter Anwendungen eingefügt.--M.J. (Diskussion) 10:42, 17. Dez. 2023 (CET)

Kontinuierliche Irwine-Hall-Verteilung

Aber auch bei der "abgeschnittenen" Normalverteilung melden die Anpassungstests bei NT >= 109 Testwiederholungen, einer "kleinen" Anzahl von Summanden (NS <= 12), einem strengen Signifikanzniveau (α <= 0.001) und einer großen Intervallanzahl (NI >= 210) kleinere Probleme. Es kommt daher schnell der Verdacht auf, dass die Zwölferregel durch die "abgeschnittene" Normalverteilung zwar durchaus etwas besser beschieben wird als durch die "normale" Normalverteilung, aber dass dies immer noch nicht "das Gelbe vom Ei" ist.

Ich bin durch reinen Zufall auf die englische Irwin-Hall-Verteilung (Irwin-Hall-Distribution) gestoßen, welche exakt die Verteilung einer Summe aus (N >= 1) über dem Intervall [0 ; 1] gleichverteilten Zufallswerten beschreibt. Im Fall (N = 1) oder (N = 2) entspricht dies genau der kontinuierlichen Gleich- oder Dreiecksverteilung. Um so größer N wird, um so mehr passt sich die Irwin-Hall-Verteilung der Normalverteilung an. Selbstverständlich kann man die Irwin-Hall-Verteilung noch um die zwei reellen Parametern A und B (mit A < B) erweitern, so dass sie exakt die Verteilung einer Summe S aus N über dem Interval [A ; B] gleichverteilten Zufallswerten beschreibt. Wie das genau gemacht wird, ist bei der englischen Bates-Verteilung (Bates Distribution) zu finden, welche exakt die Verteilung des Mittelwertes AVG = (S / N) aus N über dem Interval [A ; B] gleichverteilten Zufallswerten beschreibt.

Mit anderen Worten, man testet häufig gegen die "falsche" sprich "unendliche" oder "normale" Verteilung, nur weil man von der "richtigen" Verteilung nur noch nix wußte. Und wenn jeder Anpassungstest dann beharrlich "nein" sagt, schiebt man die Schuld bequemerweise dem "schlechten" Zufallsgenerator in die Schuhe, der manchmal aber gar nicht "schuldig" ist, wie obiges Beispiel mit der Zwölferregel hoffentlich anschaulich genug zeigt.

--Aragorn321 (Diskussion) 12:29, 22. Okt. 2015 (CEST)

Es gibt hier keinen Bezug zum Artikel. Es geht um die Qualität von Zufallserzeugung.--Sigma^2 (Diskussion) 10:25, 3. Jun. 2023 (CEST)
Wenn man den Artikel über die Gleichverteilung um die Faltung gleichverteilter Zufallsvariablen erweitern würde, wäre dort ein guter Platz für die genannten Verteilungen.--Sigma^2 (Diskussion) 10:39, 3. Jun. 2023 (CEST)

Versicherungsmathematik: mittlerer Schadenshöhen

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

Ich reime mir mal zusammen: Es gibt kleine, mittlere und große Schadenshöhen. Kleine und große Schadenshöhen sind wohl weniger normalverteilt. Aber ohne eine Velinkung des Begriffes mittlere Schadenshöhe ist dieser Satz ziemlich wertlos. Zudem scheint mir dieser Satz stark abhängig vom versicherten Gut. Ich würde ihn streichen. --Siehe-auch-Löscher (Diskussion) 10:36, 23. Mär. 2018 (CET)

Ich habe den unbelegten und teils unverständlichen Satz im Artikel gelöscht und hier abgelegt:
In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.
--Sigma^2 (Diskussion) 12:28, 3. Jun. 2023 (CEST)

Entropie

Die Bemerkungen über die Entropie sind falsch, siehe entsprechend englischsprachigen Artikel, dort ist die Entropie korrekt beschrieben. (nicht signierter Beitrag von 2003:DE:2F2C:A594:FCCC:DBE3:71D6:898A (Diskussion) 16:08, 7. Mär. 2021 (CET))

Ein bisschen mehr Erklärung wäre nützlich gewesen. Der englischsprachige Artikel schwankt ohne Erläuterung zwischen 'log' und 'ln'. Dort ist – ohne Beleg – ein Ausdruck für angegeben, der vermutlich falsch ist, sich jedenfalls nicht mit anderen Quellen deckt.--Sigma^2 (Diskussion) 14:11, 12. Mär. 2023 (CET)
Allerdings ist die Formel für die Entropie in der Tabelle falsch. --Sigma^2 (Diskussion) 14:31, 12. Mär. 2023 (CET)
Immerhin ist , also ident zu dem Ausdruck in unserem Artikel. Das beweist aber noch nicht viel. --Wrongfilter ... 14:34, 12. Mär. 2023 (CET)
In der Tat; die richtige Formel ist mit zwei Belegen im Text zu finden und inzwischen auch in der Tabelle.--Sigma^2 (Diskussion) 12:44, 3. Jun. 2023 (CEST)

Ausreißer

Es heißt im Artikel:

Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung.

Außerhalb der zweifachen Standardabweichung zu landen, hat eine Wahrscheinlichkeit von 4.55%. Das ist eine geometrisch verteilte Zufallsvariable, die als Erwartungswert 1/4.55%≈21.978 hat. Analog haben wir bei der dreifachen Standardabweichung eine Wahrscheinlichkeit von ungefähr 0.27% außerhalb zu landen. D. h. 1/0.27%≈370.37. Da von "ca. jeder 500. Messwert" zu sprechen, ist keine gute Abschätzung. Oder übersehe ich etwas? Bitte um Peer review, dann würde ich es beheben. --Anthroporraistes (Diskussion) 12:39, 11. Mär. 2023 (CET)

  1. Es gibt keinen Zusammenhang zum statistischen Fachbegriff des Ausreißers, der einen Wert bezeichnet, der gerade nicht der Verteilung zugeordnet wird. Wenn überhaupt, dann gibt es einen Zusammenhang zu Extremwert.
  2. "Das ist eine geometrisch verteilte Zufallsvariable" ist wenig verständlich. Welche, wie definierte, diskrete Zufallsvariable ist in diesem Zusammenhang geometrisch verteilt?
  3. Bei groben Abschätzungen ist es üblich, zunächst mit 10er-Potenzen (Größenordnungen) zu arbeiten, dann mit den dazwischen liegenden Halbierungen. Außerhalb des Drei-Sigma-Bereichs liegt bei der Normalverteilung etwa 0,27 % Wahrscheinlichkeit, somit etwa jede 370-te Beobachtung: . Die grobe Angabe "ca. jeder 500. Messwert" ist als Veranschaulichung vertretbar, eine Änderung auf die nicht ganz so grobe Abschätzung "ca. jeder 400. Messwert" aber auch. Eine ganzzahlige Abschätzung wäre "ca. jeder 370. Messwert". --Sigma^2 (Diskussion) 13:25, 11. Mär. 2023 (CET)
    Den ersten Punkt verstehe ich nicht, wie hängt der mit dem Kommentar zusammen? Zum zweiten Punkt: Die Trefferwahrscheinlichkeit für einen Ausreißer wird durch denjenigen Bereich bestimmt, der außerhalb der genannten Streuintervalle liegt. Zudem hängt die auf eine Zufallszahl folgende Zufallszahl nicht von letzterer ab. Das Warten auf den ersten "Treffer" (=Ausreißer) wird durch die geometrische Verteilung beschrieben. Zum dritten Punkt: Ich würde es auf 400 ändern. LG --Anthroporraistes
    Dann war ich zum ersten Punkt nicht deutlich genug. Der Begriff 'Ausreißer' wird von Dir vollkommen falsch verwendet. Eine Beobachtung aus einer Verteilung ist kein Ausreißer deswegen, weil diese aus den Verteilungsrändern kommt. Ausreißer sind Werte in einer Beobachtungsreihe, die nicht aus der Verteilung kommen, aus der die übrigen Beobachtungen entstammen, sondern z. B. durch Messfehler, durch Verschreiben, durch Übertragungsfehler oder Geräteausfall fälschlich in einen Datensatz geraten sind. Ausreißer können eventuell dadurch auffallen, dass ein extrem großer oder kleiner Wert vorliegt, der nicht zur Verteilung passt, welche die übrigen Daten beschreibt.
    Ritualisiert einen Teil großer und kleiner Beobachtungen in einem Datensatz zu Ausreißern zu erklären, ist statistisch gesehen völliger Unsinn, auch wenn es in manchen Anwendungsbereichen üblich ist (z. B. bei kommerziellen Mietspiegel-Erstellern). Für diesen Zweck gibt es in der Statistik Ausreißertests.
    Allerdings transportiert der von mir oben verlinkte Wikipedia-Artikel Ausreißer diesen Unsinn leider teilweise in der Einleitung, wie ich jetzt erst gesehen habe. Dort ist Änderungsbedarf.
    Dies ist ein Standardwerk zu Ausreißern in statistischen Daten : Vic Barnett, Toby Lewis: Outliers in Statistical Data. 3. Auflage. Wiley, Chichester 1995 (584 Seiten). Hier gibt es dazu eine Buchbesprechung. Gruß, --Sigma^2 (Diskussion) 00:15, 12. Mär. 2023 (CET)
    Wenn man annimmt, dass eine Zufallsvariable normalverteilt ist, wäre das Sprechen über Ausreißer dann doch nicht mehr möglich. Bei der Normalverteilung hat jeder Wert, egal wie weit vom Erwartungswert entfernt, eine - wenn auch sehr kleine - Auftretenswahrscheinlichkeit. Was hieße es hier, nicht aus der Verteilung zu kommen? Der Artikel zur Normalverteilung schreibt: "Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt." --Anthroporraistes (Diskussion) 12:01, 12. Mär. 2023 (CET)
    Der Text "werden oft als Ausreißer behandelt" ist überarbeitungsbedürftig. Wenn damit suggeriert wird, das solche Beobachtungen ausgeschlossen werden sollten, ist es Unsinn. Dass man sich eventuell solche Daten genauer ansieht, weil Sie eventuell Ausreißer sein könnten, ist in Ordnung. --Sigma^2 (Diskussion) 13:19, 12. Mär. 2023 (CET)
    Okay, danke für deinen kritischen Input. Apropos, da du den Artikel "Multiples Testen" geschrieben hast, kann es sein, dass bei der Konsonanz ein Tippfehler ist? Sollte dort bei , als eine der stärkeren Hypothesen, nachfolgend stehen? (Index) Ich habe allerdings keine Erfahrung mit multiplem Testen, ist das erste, was ich dazu lese. --Anthroporraistes (Diskussion) 13:29, 12. Mär. 2023 (CET)
    PS: Ich verstehe jetzt auch den ersten Punkt. Die Verlinkung auf diesen Artikel hat mich verwirrt. Dieser hier hat es für mich geklärt. --Anthroporraistes (Diskussion) 14:53, 12. Mär. 2023 (CET)
    Danke für den Hinweis auf den Fehler in Multiples Testen. Es war auch mein Fehler, dass ich auf falsch auf Extremwert verlinkt hatte, sorry. Extremwertstatistik und Extremwertverteilungen bilden ein wichtiges Teilgebiet der mathematischen Statistik, wobei Extremwert ein häufig verwendeter Begriff für den maximalen oder minimalen Wert einer Stichprobe ist und im weiteren Sinn aber auch für die größten oder kleinsten Werte einer Stichprobe verwendet wird. Da muss noch eine Begriffsklärungsseite Extremwert in die Wikipedia. --Sigma^2 (Diskussion) 15:25, 14. Mär. 2023 (CET)
    PS: Siehe auch Ordnungsstatistik für die Verteilung von Minimum und Maximum.--Sigma^2 (Diskussion) 15:34, 14. Mär. 2023 (CET)--

Kontaminierte Normalverteilung

Im Abschnitt "Kontaminierte Normalverteilung" findet sich die Behauptung, dass die angegebene Verteilung die Eigenschaft hat das 92.5% aller Werte im Bereich von liegen. Das kommt mir äußerst fraglich vor, und tatsächlich sind wenn ich die Verteilung simuliere wie erwartet 65.5% der Werte in diesem Interval.

Wo kommen die 92.5% her? Sind die frei erfunden oder ist (was ich vermute) ein durchaus interessantes Beispiel falsch kopiert worden? 2A00:23C6:1526:9F01:A582:88E9:C806:D450 10:08, 30. Jun. 2023 (CEST)

Hast du den Querstrich bei berücksichtigt? Gemeint ist nicht der Parameter in der Angabe der Verteilung, sondern die tatsächliche Standardabweichung der kontaminierten Verteilung. Bei einer Simulation mit 10000 Punkten () bekomme ich und 9249 Punkte im Intervall . --Wrongfilter ... 10:58, 30. Jun. 2023 (CEST)

Herleitung der Normalverteilung aus der Binomialverteilung

So genannte "Streuintervalle"

Tabelle "Erwartete Anteile ..."

Normierte Normalverteilung

verblüffende Übereinstimmung

MathML Fehler

Tabelle in Eigenschaften > Momenterzeugende

Related Articles

Wikiwand AI