Over deze site
- Het project
- Het selectieproces
- De geselecteerde kranten
- Technische informatie
- Documentatie
Productie content
Na de voorbewerking wordt het materiaal gedigitaliseerd. Onder digitaliseren verstaan we niet alleen het scannen van het materiaal maar ook het omzetten van beeldbestanden naar machineleesbare tekst door middel van optische tekenherkenning (Optical Character Recognition; OCR) en het toevoegen van metagegevens.
Verschillende bestandstypen
Bij het digitaliseren worden van iedere krant verschillende soorten bestanden gemaakt:
- van iedere pagina één master-beeldbestand
- van iedere pagina één afgeleide beeldbestand
- van ieder afzonderlijk artikel een machineleesbaar tekstbestand
- van iedere krant beschrijvende metadata zoals titel en datum
- van iedere krant een pdf-bestand
- technische metadata over de totstandkoming van de master-beeldbestanden
- structurele metadata over de indeling van de krant en de pagina's
Kwaliteit van het resultaat
De kwaliteit van de digitale bestanden is niet alleen afhankelijk van de kwaliteit van het productieproces, maar hangt ook af van de conditie van de oorspronkelijke krant. Originele kranten zijn vaak slecht gedrukt (bijvoorbeeld doordrukken van de inkt; 'bleeding ink'), vlekkerig en gescheurd.
Sommige kranten in verzamelbanden zijn zo strak in de kneep gebonden dat het moeilijk is de afzonderlijke pagina's goed te digitaliseren. In het geval van microfilm kan de conditie van de filmdrager de kwaliteit ook beïnvloeden.
Specificaties voor de beeldbestanden
In de Databank Digitale Dagbladen wordt onderscheid gemaakt tussen twee soorten beeldbestanden: masterbestanden en afgeleide bestanden. De masterbestanden vormen de basis voor alle verdere bewerkingen en zullen worden bewaard in het duurzame opslagsysteem van de KB, het e-Depot. Afgeleide bestanden worden gebruikt voor presentatie op internet en als 'intermediair' voor de OCR.
JPEG2000
Voor master- en afgeleide beeldbestanden wordt het JPEG2000-formaat gebruikt. Dit bestandsformaat biedt goede ondersteuning voor het tonen van beelden in verschillende kwaliteitsniveau's (resolution levels) en voor in- en uitzoomen (tiling). Van oudsher wordt voor master-beeldbestanden meestal het TIFF-bestandsformaat gebruikt. De KB heeft voor JPEG2000 gekozen omdat dit functioneel gezien vergelijkbare kwaliteit biedt, terwijl de bestandsomvang ongeveer de helft bedraagt. Daardoor is de benodigde opslag veel minder. Vanwege de grote omvang van de collecties en de hoge kosten van opslag in het e-Depot is dit een belangrijke factor.
De ondersteuning van het JPEG2000-formaat voor verschillende kwaliteitsniveau's maakt het heel goed mogelijk om één bestand als master- én als afgeleide beeldbestand te gebruiken. Dit zou grote voordelen in benodigde opslagruimte bieden. Bij de KB is dit echter niet mogelijk, omdat het e-Depot (waar de master-bestanden in zullen worden opgeslagen) geen functionaliteit voor webtoegang biedt. Daarom worden afzonderlijke master- en afgeleide beeldbestanden gecreëerd. In Alternative File Formats for Storing Master Images of Digitisation Projects (pdf) staan de resultaten beschreven van het onderzoek bij de KB gedaan.
Beeldkwaliteit
De kwaliteit van de beeldbestanden heeft te maken met de mate waarin een scan een getrouwe weergave is van het origineel. Dat wordt bepaald door factoren als bitdiepte, resolutie, opslagformaat en compressie. De Koninklijke Bibliotheek streeft naar meetbare en 'objectieve' kwaliteitsnormen. Kwaliteitsmanagers controleren de beeldbestanden systematisch en in overleg met de leverancier worden afspraken gemaakt over de optimale afstemming van de apparatuur en software. Bij de kwaliteitscontrole van de beeldbestanden spelen zogenaamde technische targets een belangrijke rol. Dit zijn testbeelden die aan het begin van een productieperiode worden vervaardigd, aan de hand waarvan de beeldkwaliteit te meten is.
Optical Character Recognition
Van ieder artikel wordt een XML-bestand gemaakt met de fulltext in een eenvoudig XML-formaat. Deze tekstbestanden worden gebruikt voor presentatie op het web en voor het tekstueel doorzoekbaar maken van de collectie (fulltext index). Een voorbeeld van een tekstbestand van een artikel.
Voor de OCR wordt gebruik gemaakt van de OCR-software Finereader. Hoe beter de beeldbestanden van de krantenpagina's, des te succesvoller de OCR. In het algemeen geldt dat OCR-resultaten bij historische teksten slechter zijn dan bij moderne teksten. Dit wordt onder meer veroorzaakt door beschadigingen in het origineel, doordruk van inkt, het gebruik van andere lettertypen en bladindeling en door historische spellingvariatie. Tijdens het proces kunnen daardoor fouten optreden, waardoor er verkeerde tekens in de tekst komen te staan. Het is ondoenlijk om alle fouten handmatig te corrigeren vanwege de grote omvang. Alleen de koppen van de artikelen worden gecorrigeerd.
De machineleesbare tekst is dus de basis bij het tekstueel doorzoeken van de kranten (fulltext). Een goed OCR-resultaat verhoogt de toegankelijkheid van de collectie. Het pilotproject 'Historische kranten in beeld' leverde een woord accuratesse op van circa 60-70%. De verwachting is dat de resultaten met dagbladen uit de 17e en 18e eeuw vergelijkbaar zullen zijn.
Onderzoek en ontwikkeling
De Koninklijke Bibliotheek is betrokken bij onderzoek naar methoden en technieken om de OCR-resultaten van historische teksten te verbeteren. De KB is projectleider van het Europese project Impact waarin de ontwikkeling van OCR-technologie een belangrijk doel is om de toegankelijkheid van historische teksten te verbeteren. Daarnaast doet de KB een pilotproject met de universiteit van Tilburg om geautomatiseerd OCR-fouten en historische spellingsvarianten te kunnen opsporen . Tevens heeft de KB technieken voor automatische classificatie en het automatisch genereren van samenvattingen onderzocht, de resultaten zijn beschreven in het Eindveslag Tekstontsluiting (pdf). Wel geldt als ongeschreven regel dat slechte machineleesbare tekst maar in beperkte mate 'intelligenter' doorzoekbaar kan worden gemaakt.
Lay-out analyse
Van iedere pagina wordt een bestand met layout-informatie geleverd. Hierin ligt van ieder tekstonderdeel de plaats op de pagina vast (coördinaten), zodat ieder woord of ieder tekstblok bij het tonen van de pagina gehighlight kan worden. Voor het vastleggen van de layout-informatie wordt het ALTO-formaat gebruikt. Een voorbeeld van een ALTO-bestand voor deze collectie.
Beschrijvende metadata
Beschrijvende metadata worden onder meer gebruikt om de collectie kranten doorzoekbaar te maken. Voor deze metadata wordt de standaard Dublin Core gebruikt. De volgende beschrijvende metadata zijn opgenomen:
- volledige titel van de krant;
- PPN (Pica Productie Nummer, de identifier in de GGC-catalogus);
- datum van verschijning. In geval van drukfouten wordt deze tijdens de materiaalanalyse gecorrigeerd.
- editie: ochtend-, middag-, avondeditie of dag;
- copyright: auteursrechthebbenden van de krant op het moment van digitaliseren (2009-2011). Zie verder de Disclaimer over auteursrecht.
- uitgever;
- verspreidingsgebied. Dit betreft de geografische reikwijdte van de krant: landelijk, regionaal/lokaal, Suriname, Nederlands Indië/Indonesië of Nederlandse Antillen.
- plaats van uitgave;
- jaargang en nummer van de krant;
- verschijningsperiode van de krant;
- verschijningsjaren van de krant die in dit krantenproject gedigitaliseerd worden;
- alternatieve titel (naam waaronder de krant ook bekend is, bijvoorbeeld NRC voor Nieuw Rotterdamsche Courant);
- voorloper (eerdere titel waaronder de krant is verschenen, bijvoorbeeld Algemeen Handelsblad is een voorloper van NRC);
- bezitskenmerk: de plaats waar het origineel kan worden gevonden, bijvoorbeeld het signatuur bij de KB.
De beschrijvende metadata worden als XML-blok in de MPEG21-DIDL-bestanden opgenomen.
Artikelsegmentering
De gehele collectie wordt op artikelniveau ontsloten. Dit betekent dat de tekst van ieder artikel afzonderlijk beschikbaar is en dat er enkele metadata van ieder artikel zijn:
- titel: de kop van het artikel;
- soort artikel. Hierbij wordt onderscheid gemaakt tussen familieberichten (geboorte-, doop-, trouw- en overlijdensberichten), advertenties (commerciële advertenties en zogenaamde kleine advertenties), losse illustraties (cartoons, losse foto's met onderschrift e.d.) en algemene artikelen (alles wat niet in de andere categorieën valt).
Het herkennen van de afzonderlijke artikelen (segmentering) wordt semi-automatisch gedaan, met een correctieslag door menselijke operatoren. Het identificeren van krantenkoppen, artikelen en andere 'eenheden' op een krantenpagina vindt plaats doordat de software afzonderlijke elementen als tekstblokken, plaatjes en horizontale/verticale lijnen kan herkennen en registreren. Door vervolgens de afzonderlijke tekstblokken te OCR'en en de inhoud te analyseren, worden verschillende segmenten onderscheiden: artikelen, advertenties, titels, et cetera. Verschillende familieberichten of advertenties die in één kolom staan, worden samengevoegd tot één artikel, om het aantal artikelen enigszins te beperken.
Er zijn gedetailleerde instructies opgesteld waarmee de operatoren de artikelen kunnen herkennen, bijvoorbeeld op basis van layout. Artikelen die over meerdere pagina's verspreid staan, worden samengevoegd tot één artikel. Ook zijn er instructies voor het categoriseren van het soort artikel, zoals familieberichten en advertenties. De operatoren die de segmentering en categorisering doen, zijn over het algemeen buitenlanders die geen Nederlands kennen. Op basis van de instructies blijken zij goed in staat de artikelen te herkennen. Dit alles zijn belangrijke maar ook arbeidsintensieve onderdelen van het proces.
Structurele metadata
In structurele metadata ligt de opbouw van iedere krant vast (de pagina's en de artikelen) en de relatie tussen de verschillende bestanden (per nummer één pdf, per pagina twee beeldbestanden, per artikel één tekstbestand etc.). Voor het vastleggen van dit soort gegevens wordt vaak het METS-formaat gebruikt. Bij de KB wordt hiervoor vooralsnog MPEG21-DIDL gebruikt. Dit heeft vergelijkbare mogelijkheden en wordt in de algemene technische gegevensarchitectuur van de KB gebruikt. Een voorbeeld van een MPEG21-bestand in deze collectie.
Technische metadata
Deze metadata beschrijven de technische eigenschappen van de master-beeldbestanden, zoals beeldformaat, resolutie, productiewijze e.d. Deze gegevens zijn van belang voor de lange-termijnopslag in het e-Depot. Hiervoor wordt de standaard Z39.87 gebruikt en het MIX-formaat.