Toegankelijkheid van data binnen en buiten het e-depot

Op dinsdag 27 oktober 2020 werd vanuit de Kennisplatforms E-depot en Toegang tot data de tweede sessie georganiseerd uit de webinarreeks “Toegankelijkheid organiseren”. Ad van Heijst (VHIC), bevlogen en gepassioneerd spreker, nam de aanwezigen mee in zijn visie op archiefselectie en stelde daarbij kritische vragen!

Voor analoge en digitale archieven hebben we al een duidelijk beleid staan: we hebben vastgesteld wat we bewaren en wat we vooral niet bewaren. Denk aan de vernietigingslijsten, zodat de depots niet volstromen. Nu we steeds meer digitaal werken is de trend ontstaan om in tegenstelling tot wat de Selectielijsten zeggen over de ‘archiefbescheiden ongeacht hun vorm’ alles maar digitaal te bewaren. Het zonder selectiecriteria opslaan van ‘alle’ beschikbare data heeft echter nadelige consequenties voor de toegankelijkheid van de data, voor de AVG-bepalingen omtrent persoonsgegevens, zelfs ook voor het milieu. Archiefselectie vanaf de bron is en blijft daarom bittere noodzaak. Dat begint met het opstellen van datamanagementbeleid. Ad legde uit waarom archiefselectie voor digitale data dringender dan ooit noodzakelijk is en vroeg zich daarbij af of een e-depot wel de meest duurzame opslagmethode is voor digitale data.

Ad’s betoog had de subtitel “toegankelijkheid van data binnen en buiten het e-depot”. De strekking van het verhaal was dat we onszelf vanaf het begin af aan moeten afvragen:

• Waarom willen we deze data opslaan?
• Hoe willen we de data opslaan?
• Hoe willen we de data toegankelijk houden?
• Hoe lang willen we de data bewaren?
• Hoe betrouwbaar en duurzaam is onze opslagmethode?

Om bij de kern deze keuzes te maken, raadt Ad aan om te beginnen met het opstellen van een datamanagementbeleid. Je moet hiervoor bij het ontwerp van de informatiesystemen beginnen en dus aan de voorkant van het proces; daar waar de data ontstaat. Niet te onderschatten daarbij is de toenemende waarde van metadata voor records. Door slim gebruik te maken van de metadata die de gebruikte systemen ons bieden, kun je met een minimale inspanning die metadata voor records behouden. Ad nam ons mee door de metadata die straks al wordt meegenomen in het design van systemen, de minimale interne afspraken die hiervoor nodig zijn en hoe je deze meeneemt van de dynamische situatie naar het semi-statisch informatiebeheer. In deze semi-statische fase ga je ontdubbelen en laat je de gegevens alvast ‘afkoelen’ alvorens je het blijvend te bewaren deel in bevroren, niet meer wijzigbare toestand in een digitaal archief opneemt. De data gaat dus door een trechter alvorens het hier belandt. Hij benadrukte hoe belangrijk het is om bij de ingest de metadata in het submission information package mee te nemen, zodat het archival information package, dat hierdoor ontstaat, steeds zonder gegevensverlies te migreren is naar andere systemen.

Dit alles moet je volgens Ad dus in beleid vormgeven. Daarbij is het goed om oog te houden op de toekomst. Elke medewerker in een werkproces wordt zijn eigen archivaris. Dit betekent dat we niet alleen de processen als uitgangspunt moeten nemen, maar ook het netwerk aan mensen dat samenwerkt aan projecten. De belangrijkste informatie zit bij sleutelfiguren: zorg dat je die op tijd in beeld hebt. Als er een kunst is van het weggooien, zoals FutureLab zegt in haar rapport “De toekomst van de informatievoorziening van het Rijk in 2030” , dan is er zeker ook een ‘kunst van het selecteren’ nodig, en niet te vergeten ‘de kunst van duurzaam bewaren’. De Chief Data Minimizer is born, oftewel: elke organisatie dient serieuze aandacht te besteden aan het ontdubbelen en het verwijderen van nutteloze informatie. Wat een deelnemer de opmerking ontlokte: moeten we dan in selectielijsten niet het vernietigen van kopieën verplicht stellen? Een terechte vraag, en goed om na te denken over hoe we schijven, samenwerkingsomgevingen en procesapplicaties kunnen ontdoen van nutteloze informatie. Macro-economisch gezien gaat het in Nederland al snel om honderden terabytes, dus een enorme hoeveelheid gegevens die we zonder nut bewaren. En dat tikt goed aan, zeker wanneer we beseffen dat een TB in de Cloud gelijk staat aan de uitstoot van 1 ton CO2. En om dat te compenseren zou je jaarlijks 200 boompjes moeten planten, elk jaar opnieuw.

Een andere vraag uit de aanwezigen was over de prijs van de opslag van 1 Terabyte. Ad noemde de prijs van 1.850 euro per Terabyte, die ooit is genoemd in verband met de opslag van archiefmateriaal in het depot van het Nationaal Archief, maar eigenlijk is dat een slag in de lucht: de total cost of ownership zijn veel hoger, zo blijkt onder meer uit dit document uit 2017 van het Regionaal Archief Alkmaar: Niet alleen de kosten van de opslagruimte op de schijf moeten worden gerekend, maar ook de personeelskosten, de omgeving waar de informatie wordt beheerd, de personeelskosten, de afschrijving e.d, De Total Cost of Ownership gaan uit van alle kosten voor de opslag van informatie samen, dus de beheerskosten op personeel gebied, de ruimte waar de informatie is opgeslagen. Daar maken ook de kosten van de milieuvervuiling deel van uit.

Het Kennisplatform E-depot en Toegang tot Data is te bereiken via https://kia.pleio.nl/groups/view/32601572/kennisplatform-toegang-tot-data/blog/view/55815315/webinarreeks-toegankelijkheid-organiseren , deelname aan de sessies is gratis.

Terug naar overzicht