Grote datasets (50.000+) geocoderen

We hebben een applicatie ontwikkeld waarmee de gebruiker datasets kan importeren. Als daar geen coördinaten bij staan wordt de data m.b.v. de locatieserver van coördinaten voorzien. Het kan echter voor komen dat er een flink grote dataset (50.000+ locaties) geïmporteerd wordt. Op dat moment lopen we (vermoedelijk) tegen wat rate limits aan. Vanaf precies 25.000 locaties worden de requests namelijk erg langzaam. Kan dat kloppen? Naar mijn weten is er geen bulk geocodeer-endpoint beschikbaar, dus het idee is nu om het geocoderen in delen op te splitsen met een korte pauze ertussen. Mijn vraag is echter wat de huidige rate limits zijn? Dan kunnen we daar de batchgroottes en pauzes op af stemmen. Andere slimme oplossingen zijn natuurlijk ook welkom!

Wij hebben op dit moment geen rate limits op de locatieserver, dus als het voor jullie langzaam wordt, wordt het voor iedereen langzaam. Daarnaast is de locatieserver niet bedoeld voor bulk geocoderen.

Als je de geometrieen voor adressen of iets anders nodig hebt, hebben wij download producten waar je de data kan ophalen en dan toevoegen aan een etl proces.

Voor adressen bijvoorbeeld is er de inspireadressen download service beschikbaar, hierin zitten alle BAG-adressen en deze wordt maandelijks geupdated: https://geodata.nationaalgeoregister.nl/inspireadressen/atom/inspireadressen.xml

Hoi Wouter, bedankt voor je antwoord. Dat andere gebruikers last van ons krijgen is niet de bedoeling, dus dan moeten we een andere oplossing gebruiken. De inspireadressen klinkt inderdaad als een betere oplossing voor bulk geocoderen. Het vergt echter nog wel een vertaalslag om dit systematisch te gebruiken en bij te werken, dus daar moeten we dan nog wat op verzinnen.

Hallo,

Het geocoderen van (bulk) adressen heb ik in mijn werk nogal eens nodig. Hiervoor heb ik een (vrij eenvoudig) PostgreSQL script gemaakt, dat gebruik maakt van de landelijke BAG adressen (zoals aangeboden bij NLExtract).

Het script geocodeert op basis van postcode, huisnummer en huisletter, en geeft naast X en Y coördinaten ook terug hoe goed het geocoderen gelukt is (huisnr + huisletter, alleen huisnr, alleen postcode-6 of mislukt).

Ik gebruik het script naar eigen tevredenheid: op mijn eigen laptop is het geocoderen van enkele 100.000en adressen geen enkel probleem: ook bij 600.000 adressen crashte het niet.

Mocht er belangstelling voor zijn, dan geef ik graag wat meer toelichting.

Groet,
Willem Hoffmans
Ruimtemaatwerk

1 like