Analiza jakości punktów adresowych PRG za pomocą sieci neuronowych GNN.


O punktach adresowych i ich jakości wiele już razy pisałem na tym blogu. W związku z tym, że ostatnio dość intensywnie zajmuję się analizą możliwości użycia różnych rozwiązań opartych o AI w celach automatyzacji monotonnych i czasochłonnych prac, postanowiłem potestować możliwości automatycznej kontroli jakości danych punktów adresowych PRG z GUGiK.

W dniu 26.12.2025 roku pobrałem więc dane adresowe PRG w SHP i zacząłem je przetwarzać w środowisku Pythona. Użyłem ~5.5 mln punktów adresowych, które posiadały identyfikatory miejscowości i ulic, w celu sprawdzenia czy na podstawie tych atrybutów wytrenowany model będzie stanie pokazać punkty odstające. Po kilku próbach z różnymi ustawieniami i parametrami do treningu modelu, uzyskałem wytrenowany model, którym sprawdziłem dane PRG.

W celu wizualizacji wyników wytworzyłem szybki portal z wynikamii analizy. Dla możliwości sprawdzenia poprawności wskazanych błędów dodałem warstwę z WMTS GUGiK z ortofotomapą i usługą WMS PRG, które są widoczne przy dużym powiększeniu.

Dowiedz się więcej

Topologia działek w EGiB

Kilka miesięcy temu Główny Urząd Geodezji i Kartografii zaczął publikować aktualizowane, scalone do obszaru województw i kraju, dane działek EGiB z powiatowych WFS. Był to kluczowy krok w kierunku uzyskania spójnych i aktualnych danych z obszaru całego kraju bez potrzeby samodzielnego łączenia tych danych z powiatowych usług pobierania.

Dane te umożliwiają również przeprowadzanie różnych testów i analiz, w tym takich które sprawdzają ich spójność informacyjną i topologiczną na poziomie województw i kraju.

Topologia danych

Topologia czyli analiza wzajemnego położenia geometrii działek w skrócie polega na sprawdzeniu przylegania działek tak, aby tworzyły wspólna powierzchnię obejmującą obszar całego powiatu. Nie ma więc możliwości, żeby geometrie działek się nakładały lub między nimi tworzyły się tzw. szczeliny czyli pasy ziemi niczyjej.

Błędem będą też niepoprawne geometrie działek, w tym samozapętlenia lub podwójne punkty w tym samym miejscu ponieważ nie występują w rzeczywistości i tego typu błędy nie pozwalają na analizy GIS. Oczywiście takie błędy można poprawić automatycznie np. w Postgis, lecz nie robiłem tego, gdyż wpłynęłoby to na wynik poniższej analizy topologii.

Dowiedz się więcej

Analiza jakości przypisania kodów pocztowych do punktów w danych Państwowego Rejestru Granic.

Na obrazku poniżej obszary ograniczające kod pocztowy wyznaczone na podstawie ~8mln punktów adresowych z danych PRG GUGiK. Dlaczego jakość tych danych jest ważna ? Ponieważ od nich zależy poprawność geokodowania danych w różnych systemach w tym systemach rządowych.

Widoczne czerwone obszary to obraz błędów, które są ewidentne i spektakularne, natomiast na obrazku nie widać tysięcy błędów, które są widoczne dopiero przy powiększeniu. (przykładowy rysunek poniżej).

Dowiedz się więcej

Scalona Baza Danych Ogólnogeograficznych BDOO dla Polski wersja 2022.

W serwisie geoportal.gov.pl GUGiK opublikował nową wersję danych Bazy Danych Obiektów Ogólnogeograficznych (BDOO) z dnia 26.05.2022 roku. W związku z tym, że są to oddzielne dane w postaci plików XML dla poszczególnych województw, pojawiły się zapytania o scaloną postać takiej bazy dla terenu całej Polski.

Poniżej udostępniam wytworzoną przeze mnie scaloną dla całego kraju bazę BDOO w postaci plików XML i bazy geopackage wraz z projektem do Qgis.

Nowa BDOO
Scalona baza BDOO dla całej Polski.

Dowiedz się więcej

Walidacja plików XML/GML – dlaczego jest potrzebna ?

[Aktualizacja 26-07-2018]

Jak już wspomniałem na tym blogu walidacja danych xml / gml za pomocą schematu XSD polega na sprawdzeniu zgodności struktury i warunków zapisanych w schemacie z zapisanymi w pliku xml zagnieżdżeniami i wartościami atrybutów oraz elementów.

Walidacja jest operacją automatyczną sprawdzającą plik i dającą jednoznaczny wynik „spełnia” lub „nie spełnia”. Nie powinno się dać również w procesie walidacji wyłączyć warunków ze schematu nie zmieniając go. Gwarantuje to z dość dużą pewnością że pliki

Dowiedz się więcej

Punkty adresowe PRG – kody pocztowe analiza jakości REGEX

Dzisiaj krótki wpis o jakości danych kodów pocztowych w punktach adresowych PRG.

Kod pocztowy w Polsce w zasadzie każdy wie jak wygląda – to dwie cyfry kreska trzy cyfry czyli np. 80-210. Będąc ciekawym jak wygląda jakość w danych punktów adresowych PRG (dane dostępne tutaj) zrobiłem małą analizę za pomocą funkcji REGEX. Odrzuciłem wszystkie kody pocztowe o prawidłowej strukturze oprócz 00-000, który nie istnieje i wygenerowałem z nich bazę geopackage z kodami pocztowymi wątpliwej jakości, którą możecie pobrać tutaj.

Dowiedz się więcej

Infrastruktura Informacji Przestrzennej po polsku. Część 3 – Usługa ATOM

1. Co to jest usługa ATOM ?
Usługa ATOM to w skrócie usługa pobierania zmieniających się treści. Klient usługi czyli program na komputerze co jakiś czas odpytuje usługę na serwerze pobierając mały plik XML. Zawiera on informację o tym jakie dane są dostępne, kiedy zostały aktualizowane i co zawierają. W momencie gdy dostawca danych zmienia pliki u siebie na serwerze, aktualizuje również automatycznie plik opisujący te dane wskutek czego klient po następnym pobraniu pliku XML i porównaniu z poprzednim

Dowiedz się więcej

Wczytywanie danych GML BDOO za pomocą wtyczki Qgis GML Application Schema Toolbox

Qgis ciągle się rozwija i oferuje nowe narzędzia w tym również do czytania i przetwarzania w sposób nieco bardziej zaawansowany plików GML. Odpowiadając na potrzebę wczytywania danych GML w sposób umożliwiający przekazanie relacji zawartych w schematach danych XSD powstała wtyczka Qgis GML Application Schema Toolbox umożliwiająca takie czytanie danych GML. Wtyczkę możecie doinstalować poprzez menu Qgis Wtyczki > Zarządzaj wtyczkami.

Spróbujmy użyć wtyczki do wczytania darmowych danych BDOO

Dowiedz się więcej

Infrastruktura informacji przestrzennej po polsku. Część 1 – Dane EMUiA w poszukiwaniu zaginionego schematu XSD

Teoretycznie każda gmina w Polsce prowadzi Ewidencję Miejscowości Ulic i Adresów zwaną EMUiA. Każda z gmin prowadzi ją w dowolnie wybranym przez siebie systemie (i dobrze), który powinien wydawać takie same dane GML w schemacie danych opisanym w rozporządzeniu. W idealnym teoretycznym modelu prawnym powinniśmy więc otrzymać dane z każdej gminy zapisane w jednakowej strukturze.

Ze względu na to że firma Geo-System opublikowała dostęp do danych EMUiA dla gmin prowadzonych w systemie IMPA (duże brawa) postanowiłem zobaczyć jak wyglądają dane w

Dowiedz się więcej

Darmowe dane BDOO w GML – jak je wczytać do QGIS

[Aktualizacja do nowej wersji danych BDOO z 28.07.2016 – baza spatialite z dołączonymi słownikami]

Kilka dni temu CODGiK opublikował dane BDOO (Bazę Danych Obiektów Ogólnogeograficznych 1:250000), którą można pobrać za darmo. Dane zostały zapisane w formacie GML, który ogólnie jest czytany przez QGIS poprzez zwykłe dodanie warstwy wektorowej.

Pierwszy z postulatów, którzy zgłaszają użytkownicy na różnych forach to fakt, że dane są podzielone na województwa. Większość wolałaby mieć całą Polskę w całości. Połączyłem więc dane w jeden zestaw dla całej Polski w GML do pobrania poniżej.

Drugi problem, który jak mi się wydaje niewiele osób zauważyło,

Dowiedz się więcej