Automatyzacja analizy plików PDF i geokodowania w QGIS za pomocą Bielika i usługi ULDK.

Wielokrotnie słyszałem, że informacja rozproszona w postaci elementów lokalizacji zawarta w dokumentach to 80% informacji przestrzennej, która istnieje, lecz ze względu na pracochłonność jej pozyskanie jest problematyczne.

Największym wyzwaniem dla pozyskania takiej informacji nie jest samo rysowanie na mapie, czy geokodowanie, lecz żmudne ręczne wyciąganie informacji z setek, a czasem tysięcy stron dokumentów.

Ze względu na to że nie tak dawno uczestniczyłem w szkoleniu Eskadry Bielika i Google, zacząłem się zastanawiać jakby tu stworzyć jakieś narzędzie, które samo przeczyta dokumenty, przeanalizuje je, a następnie naniesie automatycznie na mapę w QGIS ich zakres przestrzenny.

Dodatkowymi zmiennymi, które brałem pod uwagę, było zachowanie prywatności i bezpieczeństwa przetwarzanych danych, w tym brak zewnętrznego promptowania w procesie przetwarzania oraz oparcie modelu AI wyłącznie o lokalną kartę graficzną w moim laptopie.

Założyłem, że celem takiego narzędzia będzie pobranie ze wskazanego katalogu wszystkich pdf z uchwałami o nadaniu nazw ulic, a następnie ich automatyczne przetworzenie do warstwy poligonowej GIS z wczytaniem do Qgis.

Dowiedz się więcej

Analiza jakości przypisania kodów pocztowych do punktów w danych Państwowego Rejestru Granic.

Na obrazku poniżej obszary ograniczające kod pocztowy wyznaczone na podstawie ~8mln punktów adresowych z danych PRG GUGiK. Dlaczego jakość tych danych jest ważna ? Ponieważ od nich zależy poprawność geokodowania danych w różnych systemach w tym systemach rządowych.

Widoczne czerwone obszary to obraz błędów, które są ewidentne i spektakularne, natomiast na obrazku nie widać tysięcy błędów, które są widoczne dopiero przy powiększeniu. (przykładowy rysunek poniżej).

Dowiedz się więcej

Darmowe dane BDOO w GML – jak je wczytać do QGIS

[Aktualizacja do nowej wersji danych BDOO z 28.07.2016 – baza spatialite z dołączonymi słownikami]

Kilka dni temu CODGiK opublikował dane BDOO (Bazę Danych Obiektów Ogólnogeograficznych 1:250000), którą można pobrać za darmo. Dane zostały zapisane w formacie GML, który ogólnie jest czytany przez QGIS poprzez zwykłe dodanie warstwy wektorowej.

Pierwszy z postulatów, którzy zgłaszają użytkownicy na różnych forach to fakt, że dane są podzielone na województwa. Większość wolałaby mieć całą Polskę w całości. Połączyłem więc dane w jeden zestaw dla całej Polski w GML do pobrania poniżej.

Drugi problem, który jak mi się wydaje niewiele osób zauważyło,

Dowiedz się więcej

Darmowe dane CODGiK – PRG to nie tylko punkty adresowe.

Centralny Ośrodek Dokumentacji Geodezyjnej i Kartograficznej udostępnia dane Państwowego Rejestru Granic na swojej stronie za darmo. Mało kto wie, że pod jakże mylącym opisem linku punkty adresowe znajduje się w spakowanych plikach GML rejestr (uwaga duży plik), który zawiera również inne dane.

Najprościej byłoby oczywiście zorientować się w zawartości pliku XML

Dowiedz się więcej

Wydajność przetwarzania danych z plików GML w QGIS

Przetwarzając duże ilości danych szczególnie w plikach GML łatwo można natknąć się na sytuację kiedy wydajność QGIS jest niewystarczająca.

Przykładowy plik jakim się posłużymy w celu zobrazowania wpływu jaki ma kilka czynników na przetwarzanie i wyświetlanie danych to dane z PRG z adresami zapisane przez CODGiK w formacie GML. Można je pobrać bezpłatnie na stronie CODGiK

Dowiedz się więcej

Jak wczytać powiązania Xlink zawarte w danych XML/GML BDOT10k i BDOO w Qgis

Pisząc poprzedni post w którym udostępniłem połączone dane BDOO dla całej Polski poruszyłem temat problemów związanych z xlinkiem czyli połączeniem danych zawartych w xml z innymi danymi np danymi słownika. Wobec dość dużego odzewu, w części krytykującego samo stosowanie w danych gml odnośników xlink:href czuję się w obowiązku kilka rzeczy wyjaśnić:

1. Co to jest xlink:href ?

Xlink:href to połączenie między danymi tworzone na zasadzie relacji. Specyfikację dla tego elementu znajdziecie tutaj

Dowiedz się więcej

Darmowe dane z CODGiK – wczytywanie numerycznego modelu terenu

Zgodnie z nowelizacją ustawy prawo geodezyjne i kartograficzne darmowe stały się dane numerycznego modelu terenu o interwale siatki co najmniej 100m. Dane te dostepne są na stronie CODGiK.

Wczytywanie danych do programu SAGA GIS i QGIS
1. Pobieramy dane numerycznego modelu terenu dla województwa pomorskiego
2. Otwieramy program SAGA GIS i w zakładce Tools

Dowiedz się więcej

Pobieranie danych za pomocą usługi pobierania WFS z geoportalu 2 – spatialite GUI

Na stronie geoportalu 2 – geoportal.gov.pl znajduje się lista adresów usług WFS. Pobierzemy dane skorowidzy dla ortofotomap, które są pomocne np przy zamawianiu danych z CODGiK lub WODGiK.

Pierwszym krokiem jest określenie parametrów usługi

Dowiedz się więcej

Kontrolowanie wczytywania pliku GML do QGIS – plik gfs

W trakcie wczytywania pliku GML do QGIS tworzony jest w tym samym katalogu plik gfs o nazwie zgodnej z nazwą pliku gml. Plik ten jest plikiem xml tworzonym automatycznie przez QGIS zawierającym informację o wczytywanym gml, nazwie kolumn w QGIS, typie pól oraz zasięgu przestrzennym. Plik gfs można wykorzystać by wpłynąć na sposób w jaki Qgis wczytuje dane z pliku GML.

Przykładowe dane które można użyć do ćwiczeń to plik z adresami z województwa pomorskiego

Dowiedz się więcej

Plik shp – co każdy GISowiec wiedzieć powinien

Specyfikacja pliku shp powstała w firmie ESRI w 1998 roku. Od tego czasu wiele na rynku GIS się zmieniło.

1.Pliki i atrybuty wchodzące w skład formatu SHP

Według specyfikacji powyżej podstawowymi – minimalnymi wymagalnymi plikami wchodzącymi w format shp są pliki o rozszerzeniach:

*.shp – plik z geometrią

*.shx – plik z indeksem

*.dbf – plik z tabelą atrybutów w postaci tabeli dBase

Według ESRI istnieją jeszcze opcjonalne rozszerzenia

Dowiedz się więcej