Interessante code, ook met Pandas.
Bedenk dat in BAG XML de volledige historie zit, dus alle status/voorkomen wijzigingen voor ieder object. Er wordt nooit iets weggegooid. Dan lijkt het of je meerdere objecten van zelfde identificatie krijgt…
Dus een find()
in de XML-boom geeft alle objecten, ook niet-meer bestaande en fout-ingevoerde objecten mogelijk ook met char-encoding issues. Dit zijn nu net de zaken die NLExtract oplost. Er is een hele reeks status-en om rekening mee te houden, sommige objecttype-specifiek bijv “Pand gesloopt”. Nu zal in straatnamen en woonplaatsen niet heel veel veranderen.
BAG zelf is in Windows encoding, uit m’n hoofd ISO 8559/Windows-1252. NLExtract zet dat om naar UTF-8 PostGIS-DB. Dan zorgen dat de DB-client ook in UTF-8 staat, dan gaat het goed. Zoiets moet ook voor Oracle kunnen.