manuscripta.se

En forskningsinfrastruktur för medeltida och tidigmoderna handskrifter i Sverige

Presentation för Kungl. Vitterhetsakademien

Kungliga biblioteket, Stockholm, 9 november 2023

Patrik Granholm, Kungliga biblioteket

Introduktion

  • En internationell forskningsinfrastruktur för medeltida och tidigmoderna handskrifter i Sverige

  • Utvecklas och förvaltas av KB

  • TEI är metadataformatet för handskriftsbeskrivningarna
  • IIIF används för tillgängliggörande av digitiserade handskrifter
  • Aktuell status
    • 520 handskrifter (379 digitiserade) från 9 institutioner
    • ca 110 000 sidor
    • ca 7 000 auktoritetsfiler för personer, organisationer, platser, verk och bibliografiska poster
  • Innehåller i dagsläget främst handskrifter på grekiska, fornsvenska, isländska och latin
  • Det långsiktiga målet är att inkludera samtliga medeltida och tidigmoderna handskrifter i Sverige

Handskriftsbeskrivningar (TEI)

  • Metadataformatet TEI (Text Encoding Initiative) är en standard för uppmärkning av text i digital form baserad på XML
  • TEI är standardformatet för beskrivningar av medeltida handskrifter
  • TEI lämpar sig väl för detaljerade handskriftsbeskrivningar eftersom den hierarkiska strukturen i TEI motsvarar de fyra delar som används i handskriftskatalogisering:
    • Beskrivning av innehåll
    • Kodikologisk beskrivning
    • Proveniens
    • Bibliografi
  • TEI har stöd för beskrivningar av kodikologiska enheter
  • TEI taggning möjliggör avancerade sökningar och konvertering mellan olika metadataformat

Digitaliserade handskrifter (IIIF)

  • IIIF (International Image Interoperability Framework) tillhandahåller standardiserade metoder (API:er) för att beskriva och leverera bilder över webben
  • IIIF utvecklas och förvaltas av ett internationellt konsortium bestående av bibliotek, museer, arkiv, mjukvaruföretag och andra organisationer
  • IIIF har på kort tid fått ett stort genomslag och används idag av många kulturarvsinstitutioner

  • IIIF ger slutanvändaren möjlighet att
    • manipulera bilder på olika sätt (t.ex. ändra storlek, skala, beskära och rotera)

    • citera och dela en bild (eller en del av en bild) med en stabil URI

    • annotera bilder (t.ex. kommentera, transkribera och markera)

    • jämföra och sammanfoga bildmaterial från olika samlingar

Teknisk infrastruktur

  • Byggd med öppen programvara
    • eXist-db, en XML databas som har funktioner för indexering och sökning, samt för konvertering av TEI till HTML
    • Bilder levereras med IIPImage Server och bildvisaren Mirador
    • Redigerings- och sökgränssnitt byggt med React.js
  • Källkod och metadata finns på GitHub
  • Bilder och metadata är fritt tillgängliga utan restriktioner (Public Domain)
  • Detaljerade handskriftsbeskrivningar har licensen CC-BY

Ny datamodell

Kort beskrivning: titel, ursprung, datering, material, omfång, storlek, språk, dekorationer, digitisering

Detaljerad beskrivning: innehåll, kodikologi, historia etc.

Detaljerad beskrivning: innehåll, kodikologi, historia etc.

Detaljerad beskrivning: innehåll, kodikologi, historia etc.

Demo

HTR - Handwritten Text Recognition

  • Använda AI för att träna HTR-modeller på digitiserade handskrifter
  • Berika manuscripta.se med transkriptioner som möjliggör fulltextsökning
  • Exempel på fulltextsökning i bildvisningsgränssnittet med IIIF
    • Dra ikonen          till bildvisaren i manuscripta.se/search)
    • I bildvisaren klicka sedan      Toggle Sidebar och       Search

Tack

manuscripta.se

patrikgranholm.com

patrik.granholm@kb.se