Punkty adresowe PRG – kody pocztowe analiza jakości REGEX

Dzisiaj krótki wpis o jakości danych kodów pocztowych w punktach adresowych PRG.

Kod pocztowy w Polsce w zasadzie każdy wie jak wygląda – to dwie cyfry kreska trzy cyfry czyli np. 80-210. Będąc ciekawym jak wygląda jakość w danych punktów adresowych PRG (strona CODGiK dane z 19-07-2017) zrobiłem małą analizę za pomocą funkcji REGEX. Odrzuciłem wszystkie kody pocztowe o prawidłowej strukturze oprócz 00-000, który nie istnieje i wygenerowałem z nich bazę geopackage z kodami pocztowymi wątpliwej jakości, którą możecie pobrać tutaj.

Bazę da się otworzyć w Qgis dodając jako warstwę wektorową. Pewnie da się też w Arcgis ale wersja 10.5 ustawicznie się zawiesza więc nie będę próbował.

Mały zrzut ekranu czego możecie się spodziewać.

Błędne kody pocztowe w darmowych punktach adresowych PRG
Błędne kody pocztowe w darmowych punktach adresowych PRG

Wstępna analiza wykazuje poważne błędy więc nie będę publikował analiz szczegółowych, z których część każdy może sobie wytworzyć sam. Wystarczy np. przerzucić punkty  do dowolnej bazy danych (np. spatialite), usunąć kod 00-000 i w qgis uruchomić polecenie Wektor > Narzędzia Geoprocessingu > Otoczka Wypukła wybierając ustawienia jak na obrazku poniżej.

Trochę czasu i patrząc na efekt od razu będzie widać gdzie kod pocztowy odstaje. To tam gdzie utworzona figura będzie miała mocno wyciągnięte wierzchołki.

Oczywiście warto sprawdzić czy problem nie występuje w danych gmin czyli rejestrze EMUiA. Łatwo to zrobić pobierając i przeglądając przetworzone dane EMUiA np firmy Geo-System w bazie spatialite, które znajdziecie w jednym z poprzednich wpisów http://geoinformatyka.com.pl/infrastruktura-informacji-przestrzennej-po-polsku-czesc-2-dane-emuia-geo-systemu/ lub pobierając aktualne dane ze strony http://www.punktyadresowe.pl/index.php?strona=danepubliczne i przetwarzając je samodzielnie

Można by było szybko i prosto poprawić te dane mając ogólnie dostępne zakresy kodów pocztowych prowadzonych przez Pocztę Polską. Niestety nasz Narodowy Operator nie ma zwyczaju już takich danych upubliczniać mimo, że to jedna z podstawowych danych która pozwala min na poprawę jakości rejestrów państwowych i geokodowanie danych. A może komuś uda się na nim wymóc publikowanie takich danych ? 😉

Zaktualizowałem statystyki dla punktów adresowych PRG w zależności od wersji. Możecie je znaleźć w dziale do pobrania

Widać po nich jasno, że ruszyła aktualizacja danych z EMUiA. Wystarczyłoby dopracować metody tej aktualizacji i kontroli jakości danych a PRG miałby szansę wyglądać poprawnie. Tyle że Ministerstwo Cyfryzacji ma inny pomysł. 

Na koniec zachęcam do skorzystania z oferty moich szkoleń. W ramach szkolenia możemy razem z uczestnikami przygotować automatyczne procedury kontroli danych, które pokażą a czasem  nawet poprawią dane. Programy szkolenia dostosowuję do indywidualnych potrzeb.