PDOK 'cbsgebiedsindelingen2024.gpkg'.'gebiedsindelingen_register' bevat veel onnodige spaties, codes niet koppelbaar

Bij het inladen van de koppeltabel ‘gebiedsindelingen_register’ uit de meest complete geopackage genaamd ‘cbsgebiedsindelingen2024.gpkg’ zie ik dat er veel spaties achter elke waarde in deze laag staan. De waardes lijken opgevuld te zijn met spaties:

{"gm_code":"GM1680    ","gm_naam":"Aa en Hunze","am_code":"AM01      ","am_naam":"Groningen                                         ","ar_code":"AR05      ","ar_naam":"Noord-Nederland                                   ","cr_code":"CR07      ","cr_naam":"Noord-Drenthe                                     ","cs_code":"CS070     ","cs_naam":"Noord-Drenthe                                     ","cp_code":"CP0700    ","cp_naam":"Noord-Drenthe                                     ","gg_code":"GG0706    ","gg_naam":"GGD Drenthe                                       ","jz_code":"JZ04      ","jz_naam":"Drenthe                                           ","kk_code":"KK42      ","kk_naam":"Noord                                             ","lb_code":"LB2205    ","lb_naam":"Drentse Veenkoloni\u00ebn en Hondsrug                  ","lg_code":"LG02      ","lg_naam":"Veenkoloni\u00ebn en Oldambt                           ","ld_code":"LD01      ","ld_naam":"Noord-Nederland                                   ","pv_code":"PV22      ","pv_naam":"Drenthe                                           ","es_code":"ES03      ","es_naam":"Drenthe                                           ","mc_code":"MC07      ","mc_naam":"Noord- en Midden Drenthe                          ","ra_code":"RA0102    ","ra_naam":"Drenthe                                           ","rt_code":"RT12      ","rt_naam":"Gerechtshof Arnhem-Leeuwarden                     ","et_code":"ET0301    ","et_naam":"Drenthe                                           ","tr_code":"TR12      ","tr_naam":"Groningse, Friese en Drentse Zandgronden          ","tg_code":"TG04      ","tg_naam":"Bos en Heide Noordoost-Nederland                  ","vt_code":"VT02      ","vt_naam":"Drenthe                                           ","vr_code":"VR03      ","vr_naam":"Drenthe                                           ","zk_code":"ZK06      ","zk_naam":"Drenthe                                           "}

Bij het inladen kom je hier niet direct achter en dit kan veel hoofdpijn opleveren. De waardes zijn nu natuurlijk geen geldige identificatie sleutels en kunnen niet worden gekoppeld. Bij het debuggen in pandas en/of sqlite is het extra lastig om de spaties op te merken.

Eerdere en nieuwere leveringen hebben dit probleem niet. Kunnen jullie dit probleem verhelpen?

1 like

Beste @Jelle, bedankt voor je bericht. We zien inderdaad wat je bedoelt. We gaan dit verder onderzoeken en komen hier op terug.

1 like

Beste @Jelle, we hebben van de data-aanbieder CBS een aangepaste geopackage ontvangen. Deze is vervangen in de ATOM: CBS Gebiedsindelingen 2016 t/m heden ATOM
De spaties zijn verwijderd in het ‘gebiedsindelingen_register’.

4 likes

Hoi @Yvette_PDOK,

Bedankt voor je reactie. Helaas blijkt sindsdien in meerdere geopackages voor deze laag de encoding niet goed te zijn (latin-1 ipv. utf-8). Hierdoor heeft bijvoorbeeld regel met pv_code ‘PV21’ de pv_naam ‘Fryslân’ ipv. ‘Fryslân’.

Alvast bedankt!

1 like

Beste @Jelle, we zien dit inderdaad in de geopackage van 2025 terugkomen. Je geeft aan dat je dit in meerdere geopackages ziet. Kun je aangeven in welke allemaal? Dan kunnen we wat gerichter op zoek naar een oplossing.

1 like

Excuus. Ik heb het gecontroleerd en zie het probleem inderdaad alleen in de geopackage van 2025.

1 like

Beste @Jelle, we hebben de vraag uitgezet bij de data-aanbieder.