Pleidooi voor een Datamoraal

Ik ben beslist geen moraalridder, noch een milieuridder, maar duurzaamheid is tegenwoordig een ding. En als ik aan duurzaamheid denk dan denk ik aan besparing. Energiebesparing natuurlijk, maar bijvoorbeeld ook het minimaliseren van acties voor het maximaliseren van levensduur. Dat minimaliseren van acties kan diep gaan. Met de juiste datastructuur namelijk worden lees- en schrijfacties minder belastend voor de hardware. Minder belastend is minder slijtage is langere levensduur. Dat idee.

In die zin hebben databeheerders wellicht een verantwoordelijkheid. We hebben afgelopen decennia mogen leven in een tijdperk van overdaad. Er was overdadig veel rekenkracht, allengs bijgebeend door overdadig veel opslag, en natuurlijk duizelingwekkende internet- en netwerksnelheden. Dat heeft uiteraard geleid tot bepaalde ontwerpbeslissingen en gewoontes waar de onbegrensde beschikbaarheid van deze parameters voor lief werd genomen.

Daar houd ik zelf niet zo van want overdaad is over het algemeen niet bevorderlijk voor innovatiedrang en bovendien worden beslissingen waar eigenlijk over nagedacht moet worden makkelijker terzijde geschoven als zijnde niet-relevant. En dat leidt dan weer tot iets wat ik zou willen omschrijven als databasevervuiling. Niet om een link te leggen met milieuvervuiling, alhoewel we in de huidige omstandigheden niet echt aan die link kunnen ontkomen.

Wat is dan databasevervuiling? Dat is het vullen van databases met onduidelijke, niet-gebruikte, en/of redundante data. Overdadige databasevulling waarvan de noodzaak niet of niet meer duidelijk is, of erger, waarvoor ueberhaupt geen noodzaak is.

En die databasevulling bezet dus niet alleen onnodige opslagruimte, maar wordt dus ook iedere keer weer meeverzonden in netwerkbevragingen. En dat is dus vrij evidente energieverspilling. Of meer positief gezegd: daar is dus makkelijk energiebesparing te halen.

Zo heb ik als voorbeeld eens gekeken naar de BGT terugmeldingen. Die bestaan uit een behoorlijke lijst velden met beroerd lange namen waarvan het merendeel niet eens wordt gebruikt, en waarvan veel ook overdadig is. Voor een lokale cache heb ik vervolgens alle overdadige informatie verwijderd en wat velden ingekort, en toen eens gekeken wat er overblijft.

Wat bleek? Er was minder dan 50% van de originele opslagruimte nodig. Dat is dus nog voordat er eventuele compressie wordt toegepast. Meer dan 50% reductie! Denk daar eens over na. Als je al die non-informatie weglaat bij elke bevraging van de dataset over internet, hoeveel energie zou dat wel niet besparen?

En zo zou ik dus, zonder de milieuridder uit te hangen, willen pleiten voor een nieuwe mindset bij het ontwerpen van een database. Wees altijd spaarzaam met ruimte en informatie. In de beperking toont zich de meester, zeg maar. Ik denk dat dat namelijk niet alleen kan leiden tot efficiency met betrekking tot energiegebruik en duurzaamheid, maar door het aanbrengen van extra beperkingen, ook tot meer efficiency in de informatiewaarde van de datasets en betere innovaties in de toekomst.

4 likes

Ook interessant: AGILE-GISS - Thinking Geographically about AI Sustainability (copernicus.org).

PDF: agile-giss-4-42-2023.pdf (copernicus.org)