Analiza możliwości usługi OpenLS GUGiK na przykładzie geokodowania danych teleadresowych urzędów.

Jakiś czas temu GUGiK w ramach projektu geoportal udostępnił usługę OpenLS służącą do geokodowania adresów za pomocą państwowych danych adresowych z rejestru emuia.

Sposób zadawania pytań do ww. usługi opisałem już kilka lat temu tutaj. Ostatnio na stronie geoportalu pokazała się również dokumentacja ze wzorami zapytań do tej usługi wytworzona przez GUGiK.

Dzisiaj za pomocą zbudowanego przeze mnie klienta dla tej usługi w technologii .NET spróbuję przetestować z czym możemy się zmierzyć próbując geokodować dane w tej usłudze.

Jako przykładowe dane posłużą dane teleadresowe urzędów w Polsce które możecie znaleźć pod tym linkiem: http://administracja.mac.gov.pl/adm/baza-jst/baza-teleadresowa-jst-d/7788,Baza-teleadresowa-JST-do-pobrania.html

Są to oficjalne dane o średnim stopniu standaryzacji, które można potraktować jako próbkę reprezentatywną danych teleadresowych, które w Polsce istnieją.

Jako najbardziej rzeczywisty przyjmuję scenariusz, w którym posiadamy adres w postaci ulica numer, kod pocztowy miejscowość czyli dokładnie takie jakie można znaleźć w większości danych teleadresowych w Polsce.

W celu zgeokodowania danych z pobranego excela wytwarzam postać adresu akceptowaną przez program czyli adres|kod pocztowy|miejscowość

Wyniki geokodowania:

Na 2808 rekordów nie zgeokodowało się 645 co stanowi około 22% danych. Jest to wynik wstępny który zmieni się znacząco po poprawie danych.

Przyczynami braku dopisania współrzędnych dla tych danych było:

  • brak słownikowania ulic czyli postać nazwy ulicy, którą usługa nie była w stanie zweryfikować np. pl. Marszałka J. Piłsudskiego.
  • litera w adresie po spacji lub brak spacji między ulicą a nazwą ulicy np – Al.Wojska Polskiego 25 A|59-600|Lwówek Śląski – prawidłowo powinno być Al. Wojska Polskiego 25A
  • w punkcie adresowym nie należy wpisywać miejscowości w przypadku gdy miejscowość nie ma ulicy np. nie zgeokoduje się adres Paszowice 137|59-411|Paszowice natomiast adres 137|59-411|Paszowice już tak
  • brak danych w bazach danych  – np. ul. Szkolna 6|58-410|Marciszów
  • literówki – czyli np brak spacji, zmiany w nazwach ulic, błędy polegające na nie przypisaniu literki do adresu. np Wybrzeże Juliusza Słowackiego 12,-14|50-411|Wrocław
  • brak lub niewłaściwe dane np Al. Wyzwolenia 20, 22, 22a,24|58-300|Wałbrzych

Wnioski:

Należy przed geokodowaniem zestandaryzować dane do postaci akceptowanej przez usługę. Można do tego użyć zwykłego Excela lub narzędzia np Open Refine.

Przy wytwarzaniu danych należałoby użyć podłączonych usług słownikowych dla adresów np w Excelu w celu przypisania postaci adresu, który będzie akceptowany przez usługę. Postaram się pokazać w kolejnych wpisach jak taka usługa działa.

Przy skomplikowanych adresach rozwiązaniem jest upraszczanie danych np. pl. Marszałka J. Piłsudskiego 1|55-100|Trzebnica nie zgeokoduje się ale już pl. Marszałka Piłsudskiego 1|55-100|Trzebnica tak

Ze względu na to że dane te dotyczą obiektów administracji państwowej osiągnięty wynik powinien być statystycznie wyższy niż dla zwykłych adresów ze względu na to że dane takie są/powinny być używane w celu generowania różnego rodzaju opracowań urzędowych, które głównie dane adresowe urzędów używają.

Bez oceny pozostaje usługa odwrotnego geokodowania czyli znalezienia najbliższego adresu do pozycji ze względu na to że nie została przez GUGiK wdrożona. A szkoda. Czasem dobrze wiedzieć gdzie np wezwać taksówkę. Straż czy Policja zawsze dotrą po współrzędnych.

W następnym wpisie ocenię jakość geokodowania tj. odległość od rzeczywiście określonego przez twórcę danych punktu w stosunku do współrzędnych w zgeokodowanych danych za pomocą usługi geoportalu.

Jeśli jesteście zainteresowani jak takie geokodowanie wygląda za pomocą klienta zamieszczam film z działania programu.

Niniejszy wpis NIE POWSTAŁ jako element promocji jakiegokolwiek projektu w tym dofinansowanego z Unii Europejskiej oraz NIE jest efektem prowadzenia marketingu szeptanego. Jako podatnik życzyłbym sobie żeby zamiast wydawać pieniądze na tego typu promocję GUGiK pokazywał serię artykułów technicznych jak z danych i usług korzystać oraz przekazywał użytkownikom docelowym proste i działąjące narzędzia, które na to pozwalają.

Żaden element tego wpisu nie może zostać wykorzystany w prezentacjach, szkoleniach artykułach bez pisemnej zgody autora zgodnie z opisem na dole strony.