Over deze site

Verwerking en opslag

Na aanlevering van de gedigitaliseerde bestanden vindt een aantal kwaliteits- en integriteitscontroles plaats. Deze controles zijn zoveel mogelijk geautomatiseerd, zoals:

  • aanwezigheid van alle bestanden
  • naamgeving en directorystructuur
  • XML-validatie
  • checksumcontroles
  • uniciteit van identifiers
  • omvang van bestanden (geen zero byte-bestanden)
  • volledigheid van alle digitale objecten

Daarnaast vindt een aantal "handmatige" controles plaats door steekproefsgewijs een aantal bestanden te openen en te controleren. Dit betreft onder meer:

  • de beeldkwaliteit van de images (uitgevoerd door kwaliteitsmanagers)
  • de segmentering van artikelen
  • de herkenning van het soort artikel
  • de inhoudelijke correctheid van de metagegevens
  • de correcte samenhang tussen de verschillende bestanden
  • de correctie van de krantenkoppen.

Controleapplicatie

Ter ondersteuning van de controlewerkzaamheden heeft de Koninklijke Bibliotheek een speciale applicatie ontwikkeld (de generieke controleapplicatie) die voor alle digitaliseringsprojecten van de KB wordt gebruikt. De verwerking van bestanden vindt batchgewijs plaats. Er zijn uitgebreide configuratiemogelijkheden waarmee voor ieder project de bestandstypen en de gewenste controles kunnen worden ingesteld. De applicatie biedt een webbased gebruikersinterface waarmee de steekproefcontroles goed ondersteund worden. Alle controleresultaten worden geregistreerd in een onderliggende database, zodat er voor alle batches rapportages kunnen worden opgevraagd over de voortgang en de controleresultaten.

De grote hoeveelheden gedigitaliseerd materiaal die wekelijks bij de KB binnenkomen, stellen hoge eisen aan de verwerkingscapaciteit van deze controleapplicatie. De werkomgeving die hiervoor is ingericht, bestaat uit 27 TB aan opslagruimte en een geclusterde serveromgeving waarop de verwerkingssoftware draait.

Conversie en opslag

Naast kwaliteitscontroles worden in de verwerkingsfase conversies uitgevoerd om de bestanden in de data-infrastructuur (gegevensarchitectuur, zie onder) van de Koninklijke Bibliotheek op te nemen. Het gaat onder andere om nabewerkingen op de Dublin Core en de MPEG21-DIDL-bestanden.

De metadata worden vervolgens in de metadata-database opgeslagen en geïndexeerd. De tekstbestanden worden eveneens geïndexeerd.

Duurzame opslag

De masterbestanden worden duurzaam opgeslagen. Dat wil zeggen dat ze zodanig worden bewaard dat ze op lange termijn opnieuw kunnen worden gebruikt, ook als in de toekomst computertechnieken en bestandsformaten veranderen. De Koninklijke Bibliotheek heeft voor duurzame opslag van digitaal materiaal een speciaal opslagsysteem ontwikkeld; het e-Depot. De master-images met bijbehorende metadata worden gereed gemaakt voor opname in het e-Depot.

Momenteel wordt gewerkt aan een vernieuwd e-Depot dat tevens geschikt is voor het opslaan van de master-bestanden van digitaliseringsprojecten. Zolang het vernieuwde e-Depot niet gereed is, worden deze bestanden in een tijdelijke opslagomgeving bewaard.

Opslag voor het web

De afgeleide- en tekstbestanden worden opgeslagen in een afzonderlijk filesysteem, dat is bedoeld voor opslag van bestanden die op een website gepresenteerd worden. Er is een vaste directorystructuur waardoor een bestand op basis van de identifier gemakkelijk kan worden teruggevonden door de resolver. De vorm van de bestandsnamen is eveneens volgens vaste regels, gebaseerd op de identifier van de krant. Er worden bewust geen inhoudelijk betekenisvolle metagegevens in de bestands- of directorynamen gebruikt.

Opslagbehoefte

De opslagbehoefte voor de krantencollectie is groot. In het e-Depot is naar schatting 140 TB aan opslag nodig. Voor de overige bestanden (bedoeld voor presentatie op het web) is naar schatting 70 TB nodig.