Dall’atramentum al pixel
Veneranda Biblioteca Ambrosiana; fcusimano@ambrosiana.it Responsabile della Catalogazione e del Digital Asset Management (D.A.M.) presso la Veneranda Biblioteca Ambrosiana (Milano); Research Affiliate presso il Navari Family Center for Digital Scholarship (CDS), Hesburgh Libraries, University of Notre Dame (IN, USA); Visiting Fellow presso il Digital Humanities Advanced Research Centre (/DH.arc), Dipartimento di Filologia Classica e Italianistica, Alma Mater Studiorum Università di Bologna.
Come l’Intelligenza Artificiale e il Machine Learning possono aiutarci a “leggere” gli antichi manoscritti digitalizzati e a entrare “dentro al testo” scritto
Abstract
La tradizione degli studi umanistici si basa sull'attenta analisi delle fonti scritte, compresi i manoscritti antichi e i libri stampati. Questo processo può richiedere molto tempo e può comportare problemi logistici per il recupero degli originali. Questi documenti vengono analizzati in modo dettagliato e su più livelli, concentrandosi sulle caratteristiche materiali dell'esemplare e del supporto scrittorio, nonché sugli elementi informativi, decorativi e testuali. La decodifica della scrittura e della mise en page/mise en texte fornisce informazioni preziose per gli studiosi. Queste informazioni possono essere di natura storica, artistica, letteraria, paleografica o diplomatica. Gli studiosi con un occhio attento, educato dallo studio e dall'esperienza sul campo, possono percepire anche i dettagli più minuti. Tuttavia, quando un computer "legge" un antico manoscritto o un documento stampato, cosa succede? I moderni sistemi informatici offrono una notevole potenza di calcolo e avanzate capacità grafiche e ottiche che supportano bibliotecari, archivisti e storici. Termini tecnici come OCR-Riconoscimento ottico dei caratteri, HTR-Riconoscimento del testo manoscritto, Segmentazione dei documenti, Riconoscimento del layout, Intelligenza artificiale, Machine Learning e Deep Learning stanno diventando sempre più competenze essenziali nelle "istituzioni della memoria" e nella ricerca umanistica che coinvolge la tecnologia informatica.
English abstract
The tradition of humanistic studies is based on the careful analysis of written sources, including ancient manuscripts and printed books. This process can be time-consuming, and logistical challenges may arise when retrieving the originals. Such documents are typically analyzed in detail and on multiple levels, focusing on the material characteristics of the specimen and the writing support, as well as the informative, decorative, and textual elements. The decoding of writing and mise en page/mise en texte provides valuable information for scholars. This information can be historical, artistic, literary, palaeographic, or diplomatic in nature. Scholars with an attentive eye, educated by study and experience in the field, can perceive even the most minute details. However, when a computer “reads” an ancient manuscript or printed document, what happens? Modern computer systems offer significant computing power and advanced graphical and optical capabilities that support librarians, archivists, and historians. Technical terms such as OCR-Optical Character Recognition, HTR-Handwritten Text Recognition, Document Segmentation, Layout Recognition, Artificial Intelligence, Machine Learning, and Deep Learning are increasingly becoming essential skills in “memory institutions” and humanistic research that involve computer technology.