Abstract
Population size estimation is one of the most challenging problems in official statistics (Wallgren & Wallgren, 2007). Information about the number of people living in a given country or region has an impact on the distribution of European funds, resources for health care or the GDP calculation. Furthermore, Eurostat’s visions for the post-census 2021 emphasise the idea of moving away from a traditional, decennial census to a rolling virtual census based solely on administrative data supplemented with sample surveys. The above mentioned actions are the result of a paradigm shift in statistics (and official statistics in particular), which can be summarised as the reuse of all available data instead of creating new ones (cf. Zhang 2021). However, the use of these non-statistical data leads to fundamental statistical and economic questions. For instance, in an experimental study conducted by Statistics Poland (2020) and involving 9 registers, the count of the foreign population in Poland was 2.1 million as at 31.12.2019. But is this figure the actual number of foreigners staying in Poland? How is this estimate affected by non-sampling errors?
The project seeks to answer these questions by filling methodological and knowledge gaps. On the one hand, we propose new approaches to estimating the population size along with their characteristics; on the other hand, applying them with a view to estimating the number of foreigners in Poland will provide knowledge that will be useful beyond the 2021 census.
The main goal of the project is to develop methods for estimating the size of the foreign-born population in Poland and its characteristics using multiple data sources that contain potential errors. The aim of the project is twofold. On the one hand, we focus on estimating the size of the foreign-born population based on non-statistical sources such as admin data. The main motivation behind this approach is to provide census-like statistics without conducting a traditional census. Secondly, characteristics of foreign-born populations included in admin data are scarce and can be supplemented by non-random samples, such as big data derived from smartphones. The project aims to broaden the knowledge of the foreign-born population in Poland by using admin data and other non-statistical data sources and developing sound and novel statistical methodology.
The novelty of the project consists in:
- proposing new estimators that take into account different sources of non-sampling errors and account for the resulting uncertainties, which propagate to economic indicators, such as GDP;
- developing methods for estimating the irregular and illegally working population and proposing new estimators that account for misclassification to provide unbiased estimates of the foreign-born population characteristics derived from mobile big data;
- developing methods of inference for non-probability samples based on selection models and non-ignorable non-response.
We plan to closely collaborate with Statistics Poland, use anonymised unit-level data from the police and aggregated data from the Polish Border Guard and the National Labour Inspectorate. In addition, we plan to use sample surveys conducted by the National Bank of Poland and unique mobile big data about behavioural and socio-demographic characteristics derived from thousands of foreigners smartphones (aggregated data).
To make our contribution more international, we have established a collaboration with experts in this field from the University of Southampton, Utrecht University, Istat and the Sapienza University of Rome.
The results of the project should also contribute to producing more reliable estimates of the contribution of immigrants to the labour force and to GDP growth in Poland. Project results will be the basis for conducting statistical analyses on the socio-economic situation of Poland’s regions and for projections of their development. We also note that estimators and results of our study are not only limited to migration statistics but will also have an impact on other fields, such as macroeconomics, economic policy or sociology.
Literature (selected):
1.Wallgren i Wallgren (2007). Register-based statistics: administrative data for statistical purposes, Wiley.
2.GUS (2020). Populacja zagraniczna w Polsce w czasie pandemii COVID-19.
3.Zhang (2012). Topics of statistical theory for register-based statistics and data integration. Statistica Neerlandica, 66(1):41–63.
Szacowanie wielkości populacji jest jednym z najbardziej wymagających problemów w statystyce oficjalnej (Wallgren & Wallgren, 2007). Informacje o liczbie ludności w danym kraju lub regionie mają wpływ na dystrybucję funduszy europejskich, zasoby na opiekę zdrowotną lub obliczanie PKB. Ponadto, cele Eurostatu na okres po spisie powszechnym w 2021 roku podkreślają ideę odejścia od tradycyjnego, dziesięcioletniego spisu na rzecz ciągłego spisu wirtualnego opartego wyłącznie na danych administracyjnych uzupełnionych o badania próbkowe.
Powyższe działania są wynikiem zmiany paradygmatu w statystyce (a szczególnie w statystyce oficjalnej), którą można streścić jako ponowne wykorzystanie wszystkich dostępnych danych zamiast tworzenia nowych (por. Zhang 2021). Jednak wykorzystanie tych danych nie-statystycznych prowadzi do fundamentalnych pytań statystycznych i ekonomicznych. Na przykład, w badaniu eksperymentalnym przeprowadzonym przez GUS (2020) i obejmującym 9 rejestrów, liczba populacji zagranicznej w Polsce wynosiła 2,1 miliona na dzień 31.12.2019. Ale czy ta liczba to rzeczywista liczba cudzoziemców przebywających w Polsce? Jak ta estymacja jest wpływana przez błędy nielosowe?
Projekt ma na celu odpowiedź na te pytania, wypełniając luki metodologiczne i wiedzowe. Z jednej strony, proponujemy nowe podejścia do szacowania wielkości populacji wraz z ich charakterystykami; z drugiej strony, zastosowanie tych metod w celu oszacowania liczby cudzoziemców w Polsce dostarczy wiedzy przydatnej poza spisem z 2021 roku.
Głównym celem projektu jest opracowanie metod szacowania wielkości populacji urodzonej za granicą w Polsce i jej charakterystyk przy użyciu wielu źródeł danych, które mogą zawierać potencjalne błędy. Celem projektu jest dwuznaczne. Z jednej strony, koncentrujemy się na szacowaniu wielkości populacji urodzonej za granicą na podstawie danych nie-statystycznych, takich jak dane administracyjne. Główną motywacją tego podejścia jest dostarczenie statystyk spisowych bez przeprowadzania tradycyjnego spisu. Z drugiej strony, charakterystyki populacji urodzonej za granicą zawarte w danych administracyjnych są skąpe i mogą być uzupełnione przez próby nielosowe, takie jak duże dane z telefonów komórkowych. Projekt ma na celu poszerzenie wiedzy o populacji urodzonej za granicą w Polsce poprzez wykorzystanie danych administracyjnych i innych źródeł danych nie-statystycznych oraz opracowanie solidnych i nowatorskich metod statystycznych.
Wkład projektu polega na:
- Propozycji nowych estymatorów uwzględniających różne źródła błędów nielosowych i uwzględniających wynikające z nich niepewności, które propagują się do wskaźników ekonomicznych, takich jak PKB;
- Opracowaniu metod szacowania populacji pracującej nieregularnie i nielegalnie oraz propozycji nowych estymatorów uwzględniających błędy klasyfikacji w celu dostarczenia nieobciążonych szacunków charakterystyk populacji urodzonej za granicą pochodzących z dużych danych mobilnych;
- Opracowaniu metod wnioskowania dla prób nielosowych opartych na modelach selekcji i nieignorowalnej odmowie.
Planujemy bliską współpracę z GUS, wykorzystanie zanonimizowanych danych jednostkowych od policji oraz danych zagregowanych od Straży Granicznej i Państwowej Inspekcji Pracy. Ponadto planujemy wykorzystać badania próbkowe przeprowadzone przez Narodowy Bank Polski oraz unikalne duże dane mobilne dotyczące zachowań i charakterystyk społeczno-demograficznych pochodzące od tysięcy telefonów komórkowych cudzoziemców (dane zagregowane).
Aby nasz wkład był bardziej międzynarodowy, nawiązaliśmy współpracę z ekspertami w tej dziedzinie z Uniwersytetu w Southampton, Uniwersytetu w Utrechcie, Istat i Uniwersytetu Sapienza w Rzymie.
Wyniki projektu powinny również przyczynić się do produkcji bardziej wiarygodnych szacunków wkładu imigrantów w siłę roboczą i wzrost PKB w Polsce. Wyniki projektu stanowić będą podstawę do przeprowadzania analiz statystycznych dotyczących sytuacji społeczno-ekonomicznej regionów Polski i prognoz ich rozwoju. Zauważamy również, że estymatory i wyniki naszego badania nie są ograniczone tylko do statystyk migracyjnych, ale będą miały również wpływ na inne dziedziny, takie jak makroekonomia, polityka gospodarcza czy socjologia.
Literatura (wybrana):
1.Wallgren i Wallgren (2007). Register-based statistics: administrative data for statistical purposes, Wiley.
2.GUS (2020). Populacja zagraniczna w Polsce w czasie pandemii COVID-19.
3.Zhang (2012). Topics of statistical theory for register-based statistics and data integration. Statistica Neerlandica, 66(1):41–63.
Research Plan
- Statistical analysis of data used in the project
- Developing a signs-of-life methodology for assessing the quality of register data
- Developing new population size estimators for foreign-born populations
- Developing new estimators of the irregular and illegally working foreign-born population
- Developing new data integration methods for non-probability samples (big data)
- Estimating the quality of registers based on the signs-of-life methodology
- Estimating the size of the foreign-born population in Poland
- Estimating the size of the irregular and illegally working foreign-born population in Poland
- Estimating characteristics of the foreign-born population in Poland based on non-probability samples (big data)
- Estimating the impact of project estimates on selected macroeconomic indicators
- Statystyczna analiza danych wykorzystywanych w projekcie
- Rozwój metody śladów życia do oceny jakości rejestrów administracyjnych
- Rozwój nowych estymatorów wielkości populacji cudzoziemców
- Rozwój nowych estymatorów wielkości nieregularnej i nielegalnie pracującej populacji cudzoziemców
- Rozwój nowych metod estymacji na podstawie prób nielosowych (big data)
- Ocena jakości rejestrów administracyjnych na podstawie metodyki śladów życia
- Estymacja wielkości populacji cudzoziemców w Polsce
- Estymacja wielkości nieregularnej i nielegalnie pracującej populacji cudzoziemców w Polsce
- Estymacja charakterystyk populacji cudzoziemców w Polsce z wykorzystaniem prób nielosowych (big data)
- Estymacja wpływu szacunków otrzymanych w projekcie na wybrane wskaźniki makroekonomiczne