Ik heb inmiddels ook een download-programmaatje gemaakt en alles gedownload, afgelopen weekend en heb nu 954.008 unieke entries opgehaald.
Waar ik tegenaan liep, was dat ik een heleboel dubbelen kreeg.
(Nog even los gezien van het feit dat het eerste van je 100 opgehaalde records steeds gelijk is aan de laatste van de vorige ‘batch’, als je als offset steeds de laatste publication_timestamp gebruikt).
Het blijkt dat de ‘offset’ (publication_timestamp) NIET in strikt chronologische volgorde komt.
Dat leverde bij mij ca 20% aan dubbelen op (1.2 miljoen records opgehaald om 954.000 unieken over te houden).
Ik kan nu geen kant en klare URL geven die gelijk 100 records ophaalt waarin dat zichtbaar is want de service lijkt momenteel plat te liggen (ik krijg nu 502 Bad Gateway terug), maar ik heb genoteerd dat de eerste groep dubbelen al na 1290 records optreedt.
Dit kan ik er nog wel aan toevoegen:
Na 2020-07-06 16:52:46.714 volgt 2020-07-06 16:52:40.381.
Een sprongetje terug van zo’n 6 seconden.
Dit verschijnsel trad best vaak op.
Een andere kleine tekortkoming is dat er soms wat rare unicode karakters zitten in de tekst_signs en in de straatnamen. Het eerste voorbeeld daarvan zit al in het 5e record: Schoonlo?rstraat.
Ik hoop dat ze dit soort dingetjes nog verbeteren…