Registerdaten abgefragt in Juni 2021 und folgende Variablen wurden synthetisiert
## [1] "NUTS1" "BDL" "GCD" "EC_DEGURBA"
## [5] "GEBAEUDEJAHR" "BAUPERIODE" "GEB_EIGEN" "GEB_WOHN"
## [9] "GEB_WOHN_QUAL" "HH_SIZE" "age" "age_c"
## [13] "GESCHL" "HH_STATUS" "FAMST" "ANZAHL_NWS"
Verglichen werden in diesem Report die Inputdaten, entsprechen Registerdatenabzug mit den synth. Daten generiert durch das Tool von mostlyAI sowie den synth. Daten generiert durch das R-Packet simPop
.
Für die synth. Daten von mostlyAI wurde der Inputdatensatz nach NUTS-1 Region aufgeteilt und jeweils separat ein synth. Datensatz erstellt da nicht genug Speicher zur Verfügung stand um das Modell auf ganz Österreich zu trainieren. Die Parameter für die Modellierung für das Modell von mostlyAI sind im File config_input.json abgebildet.
Staatsbürgerschaft in unterschiedlicher Granularity abgebildet
STAATB
: gröbste Zuordnung; AT - EU/EFTA - OtherSTAATB_mid
: mittlere Zuordnung; AT - EU/EFTA - Kontinente - OtherSTAATB_high
: genauerste Zuordnung; ISO-CodeISO-Code 40
sollte Werte “AT” für mittlere und gröbste Zuordnung ergeben.
Anzahl Personen mit Staatsbürgerschaft ISO-Code 40 und zugehörigen Ausprägungen für Staatsbürgerschaft nach mittlerer und gröbster Zuordnung für Inputdaten
Anzahl Personen mit Staatsbürgerschaft ISO-Code 40 und zugehörigen Ausprägungen für Staatsbürgerschaft nach mittlerer und gröbster Zuordnung für mostlyAI
Anzahl Personen mit Staatsbürgerschaft ISO-Code 40 und zugehörigen Ausprägungen für Staatsbürgerschaft nach mittlerer und gröbster Zuordnung für simPop
Gemeindecode ist eine 5-stellige Nummer wobei die erste Stelle dem Bundesland entspricht.
Bundsland laut Variable BDL
und Bundsland laut GCD
für Inputdaten
Bundsland laut Variable BDL
und Bundsland laut GCD
für mostlyAI
Bundsland laut Variable BDL
und Bundsland laut GCD
für simPop
Haushalte sollten nicht ausschließlich aus Kindern bestehen und zumindest 1 Erwachsene Person enthalten. Regiserdaten entsprechen hier auch nicht immer der Melderealität und die Inputdaten wurden diesbezüglich auch nicht im Vorfeld bereinigt.
Unterer Teil der Verteilung von Anzahl an Haushalten nach ältester Person für Inputdaten
Unterer Teil der Verteilung von Anzahl an Haushalten nach ältester Person für mostlyAI
Unterer Teil der Verteilung von Anzahl an Haushalten nach ältester Person für simPop
Die Haushaltsgröße, Variable HH_SIZE
, sollte immer mit der tatsächlichen Anzahl an Personen im Haushalt übereinstimmen.
Anzahl Haushalte nach Haushaltsgröße
Anzahl Haushalte nach Bundesland und Urbanität (EC_DEGURBA
)
Anzahl Personen nach Bundesland und Urbanität (EC_DEGURBA
)
Anzahl Personen nach Alter und Geschlecht (1~männlich, 2~ weiblich)
Anzahl Personen nach Erwärbstätigkeit und Geschlecht
Anzahl Personen nach Alter und Geschlecht (1~männlich, 2~ weiblich)
Anzahl Personen nach Erwärbstätigkeit und Geschlecht
Anzahl Personen nach Alter und Geschlecht (1~männlich, 2~ weiblich)
Verteilung Jahreseinkommen nach Geschlecht (1~männlich, 2~ weiblich) Einkommen = Einkommen laut Lohnzettel + Einkommen laut Einkommensssteuererklärung Einkommen ist topcoded bei 250000€
Perzentile
Anzahl Personen nach Erwärbstätigkeit und Geschlecht
Anzahl Personen nach Alter und Geschlecht (1~männlich, 2~ weiblich)
Anzahl Personen ohne Einkommen nach Alter und Geschlecht
Anzahl Personen mit höchstem Einkommen pro Haushalt nach Geschlecht
Anzahl Personen mit höchstem Einkommen pro Haushalt nach Alter und Geschlecht
Anzahl Personen mit höchstem Einkommen pro Haushalt nach Bildung
Perzentile
Perzentile
Perzentile
Perzentile
Perzentile
Perzentile