Benutzer:MM-Stat/Daten

From Wikipedia, the free encyclopedia

Datensätze

Hier findet sich eine Übersicht in der deutschen Wikipedia für Beispiele und Grafiken verwendeter Datensätze. Zu jedem Datensatz sind entsprechende Verweise auf die Daten und ihre Beschreibungen aufgeführt. Die Übersicht ist nach Datensätzen geordnet. Beispiele, die explizit ausgewiesen auf computergenerierten oder ausgedachten (Zufalls-)Daten basieren und Beispiele, deren Datengrundlage direkt im Artikel gegeben ist, werden hier nicht berücksichtigt.

Diese Übersicht soll

  • Wikipedia-Autoren dienen, Beispiele und Grafiken zu konstruieren bzw. zu erweitern oder zu überprüfen und
  • Lesern ermöglichen, sich noch eingehender und eigenständig mit vorhandenen Beispielen und Datensätzen zu befassen.

Sollte ein Link nicht mehr funktionieren oder wenn dir ein Datensatz fehlt, bitten wir um selbstständige Korrektur bzw. Ergänzung oder eine kurze Mitteilung auf der Diskussionsseite des Portals. Die Seite wird so oft wie möglich gewartet und erweitert.

Übersicht Datensätze

Die folgende Tabelle stellt Daten und Beschreibungen der hier vorgestellten Datensätze übersichtlich zusammen.

Weitere Informationen Name, Anz. Beob. ...
Name Anz.
Beob.
Anz. Variablen
und
Skalenniveau
Daten Beschreibung
Boston Housing 506 12 metrisch-stetig Daten Beschreibung
1 ordinal
1 nominal-binär
Iris Flower 150 4 metrisch-stetig Daten Beschreibung
1 nominal
Olympia 1984
(track records)
55 15 metrisch-stetig Belcham und
Hymans (1984)[1]
siehe
unten
1 nominal
cube6 64 6 metrisch-stetig Daten (XML) siehe
unten
Eiscreme 30 3 metrisch-stetig Daten Beschreibung
4 metrisch-diskret
Flohkäfer
(flea beetles)
74 6 metrisch-stetig Beschr.
1 nominal
Kriegsschiffe 114 2 nominal Daten siehe
unten
1 ordinal
2 metrisch-diskret
7 metrisch-stetig
Titanic
(Kreuztabellen)
2201
2 nominal GNU R
(datasets)
?Titanic in R
oder hier
2 ordinal
Schließen

Klassische Datensätze

Es existieren einige sehr bekannte Datensätze, die in der Vergangenheit besonders häufig als Beispieldatensätze für Lehrzwecke genutzt wurden.

Boston Housing

Der Boston Housing-Datensatz beschreibt die Wohnverhältnisse in 506 Gebieten von Boston auf Basis einer Erhebung aus dem Jahr 1970.[2] Der Datensatz enthält 13 stetige und eine binäre (Dummy-)Variable. Die Dummy-Variable gibt an, ob das entsprechende Gebiet direkt am Charles River liegt. Der Median der Hauspreise pro Gebiet ist die abhängige Variable in der ursprünglichen Analyse.

Es existieren auch Erweiterungen des Boston Housing Datensatzes mit zusätzlichen Informationen über die räumlichen Gegebenheiten.

Iris

Der Iris flower-Datensatz besteht aus jeweils 50 Beobachtungen dreier Arten von Schwertlilien (Iris) (Iris Setosa, Iris Virginica und Iris Versicolor), an denen jeweils vier Attribute der Blüten erhoben wurden: Die Länge und die Breite des Sepalum (Kelchblatt) und des Petalum (Kronblatt).[3]

Von R. A. Fisher wurde der Datensatz zur Demonstration der Güte einer diskriminanzanalytischen Methode genutzt, bei der aus den Blüteneigenschaften die Zuordnung der Art erfolgte.[4]

Olympia 1984 (Olympic track records dataset)

Datensatz über die Olympischen Spiele des Jahres 1984.[5]

Der Datensatz enthält die Rekorde je Disziplin von 55 Nationen, die an den 1984er Olympischen Spielen teilgenommen haben. Er umfasst sieben Disziplinen der Frauen (100, 200, 400, 800, 1500, 3000 Meter und der Marthonlauf (42.195 Meter)) und acht Disziplinen der Männer (100, 200, 400, 800, 1500, 5000, 10000 Meter und der Marthonlauf (42.195 Meter)). An jeder der 55 Beobachtungen (Nationen) wurden also 7+8=15 Merkmale erhoben.

Der Datensatz wurde in der Vergangenheit unter anderem zur Veranschaulichung der Hauptkomponentenanalyse genutzt.[6][7][8]

Weitere Datensätze

cube6

Der cube6-Datensatz enthält 64=26 Datenpunkte (Beobachtungen), die auf den Ecken eines 6-dimensionalen Hyperwürfels liegen. Die sechs Koordinaten eines Eckpunktes können als Werte der Variablen "Koordinate 1 bis 6" angesehen werden.

Für mehr Informationen zum 6-dimensionalen Hyperwürfel siehe z.B. hier: Eigenschaften sechsdimensionaler Hyperwürfel (englisch).

Eiscreme

Grundlage des Eiscreme-Datensatzes ist eine Erhebung, in der in 30 Perioden von jeweils vier Wochen (18.03.1951 - 11.07.1953) die Höhe des Konsums von Speiseeis (in Pint pro Kopf) gemessen wurde.[9] Ziel der Studie bzw. von Folgestudien war, die Frage zu klären, ob der Speiseeiskonsum vom Preis, dem Einkommenshöhe (beides in US-Dollar), der mittleren Temperatur in der aktuellen Periode, der mittleren Temperatur in der vorhergehenden Periode (beide in Grad Fahrenheit) und/oder dem Jahr, in dem die Erhebung durchgeführt wurde, abhängt. Der Datensatz eignet sich z.B. für Zeitreihenanalysen.

Flohkäfer (flea beetles)

Der Flea Beetles-Datensatz[10] enthält Messungen an 74 Flohkäfern dreier Arten bezüglich sieben physischer Eigenschaften betreffend den Kopf, Tarsus und Aedeagus.

Kriegsschiffe

Der Datensatz beschreibt verschiedene Eigenschaften von Artillerie-Schiffen, die zur Zeit des Zweiten Weltkriegs im Einsatz waren.

Titanic

Der Titanic-Datensatz enthält Daten über Passagiere des Kreuzfahrtschiffs Titanic und deren Überlebensstatus.[11] Der ursprüngliche Datensatz[12] ist mittlerweile in auf verschiedene Weisen überarbeiteten Versionen erhältlich[13]. Ein bzgl. Klasse, Geschlecht, Alter und Überlebensstatus zusammengefasster Datensatz ist in GNU R über den Befehl data(Titanic) abrufbar.

Datenquellen

Wer auf der Suche nach Datensätzen zur Erstellung von Beispielen und Grafiken oder zur eigenständigen Auseinandersetzung mit (realen) Daten ist, wird zum Beispiel in den hier aufgeführten Datensammlungen fündig. Erweiterungen um weitere Anbieter und Informationen zu den vorhandenen Einträgen sind willkommen.

ALLBUS

Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist eine von der GESIS seit 1980 alle zwei Jahre durchgeführte repräsentative Befragung von jeweils ca. 2800 bis 3500 Bürgern der BRD, die Daten bzgl. Einstellungen, Verhaltensweisen und der Sozialstruktur der Bevölkerung der Bundesrepublik Deutschland erhebt.[14]

Zugang

Zur Verfügung stehen folgende für Forschungs- und Ausbildungsaktivitäten gebührenfreie Downloads:

  • Die ALLBUS-Vollversion, die nur für registrierte Nutzer verfügbar ist und
  • ALLBUScompact-Datensätze mit reduzierter Demographie.

Weblinks

  • ALLBUS: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften

Data and Story Library

Die "Data and Story Library" (DASL) ist eine (englischsprachige) frei zugängliche Online-Sammlung von Datensätzen (data) und deren Beschreibungen (stories), die die praktische Anwendung und damit Übung statistischer Methoden ermöglichen sollen.

Während die data-Seiten eine Kurzbeschreibung und den Datensatz selbst liefern, finden sich auf der jeweils zugehörigen "story"-Seite weitere Hintergründe zum Datensatz sowie häufig auch Beispielanalysen.

Zugang

Die Datensätze sind unter Data and Story Library (DASL) kostenlos öffentlich zugänglich.

Europäische Kommission für Wirtschaft und Finanzen

Die Europäische Kommission für Wirtschaft und Finanzen bietet verschiedene die Wirtschaft der EU-Mitgliedsstaaten betreffende Datensätze (z.B. AMECO).

Zugang

Wirtschaftsdatenbanken und -indikatoren

Eurostat

Eurostat ist das statistische Amt der Europäischen Union. Die angebotene Datenbank bietet Statistiken über die Mitgliedsländer der EU hinsichtlich vielfältiger Bereiche.

Zugang

Datenbank des Statistischen Amts der Europäischen Gemeinschaft (EUROSTAT)

General Social Survey

Der General Social Survey (GSS) ist eine seit 1972 in den USA durchgeführte Bevölkerungsumfrage, die der Erhebung demographischer Daten der (über 18-jährigen) Bürger und ihren Einstellungen zu verschiedenen Themen dient. Der GSS kann somit als US-amerikanisches Pendant zur deutschen ALLBUS angesehen werden.

Zugang

GNU R

Die frei verfügbare statistische Programmiersprache GNU R verfügt schon in der Kerndistribution über eine große Anzahl von Datensätzen, die mit dem Befehl data(Name des Datensatzes) abgerufen werden können. Viele Pakete enthalten weitere Datensätze, an denen die in den Paketen enthaltenen statistischen Methoden exemplarisch angewendet werden können.

Zugang

Der Befehl data() listet alle in den momentan geladenen Paketen verfügbaren Datensätze auf, der Befehl data(package = .packages(all.available = TRUE)) die Datensätze in jeglichen installierten (auch nicht geladenen) Paketen.

SOEP

Das Sozio-oekonomische Panel (SOEP)[15] ist eine seit 1984 jährlich an über 12.000 Privathaushalten in Deutschland durchgeführte repräsentative Panelerhebung.

Zugang

Die SOEP-Daten dürfen (fast) ausschließlich für die eigene wissenschaftliche Forschung genutzt werden. Unter bestimmten Bedingungen ist der Einsatz in der Lehre gestattet.[16] Der Datensatz ist aus Gründen des Datenschutzes nicht online verfügbar. Nach erfolgreichem Abschluss eines sog. Datenweitergabevertrags wird der SOEP-Datensatz auf einer DVD für 30EUR an den Interessenten gesandt.[17][18] Bei der Publikation von Analyseergebnissen ist besonders auf Wahrung der Anonymität der Befragten zu achten.

Weblinks

Statistische Ämter

Das Statistische Bundesamt und die statistischen Ämter der Bundesländer bieten thematisch vielfältige Datensätze über die BRD und ihre Bundesländer an, siehe auch Amtliche Statistik.

Zugang

Im Rahmen der Beispielerstellung oder eigenständigen Übung an realen Datensätzen besonders zu erwähnen sind die für "alle interessierten Personen und Einrichtungen"[19] frei online abrufbaren Campus-Files und die per CD/DVD erhältlichen Public-Use-Files, die vollständig anonymisierte Mikrodaten enthalten.

Weblinks

Mikrozensus

Der Mikrozensus ist eine vom statistischen Bundesamt jährlich durchgeführte repräsentative Bevölkerungsumfrage in Deutschland, die der "Bereitstellung statistischer Informationen über die wirtschaftliche und soziale Lage der Bevölkerung sowie über die Erwerbstätigkeit, den Arbeitsmarkt und die Ausbildung"[20] dient. Jedes Jahr wird eine Zufallsstichprobe von 1% der deutschen Privathaushalte befragt, d.h. etwa 390.000 Haushalte mit 830.000 Menschen.

Zugang

Weblinks

Weitere

Hier finden sich weitere empfehlenswerte Datenangebote, die noch einer näheren Beschreibung bedürfen:

Einzelnachweise

Internal Stuff

Related Articles

Wikiwand AI