La lletra del dimoni

8.06.2016

Ara que és temps de selectivitat i els exàmens d’universitat s’estan acabant, segur que molts de vosaltres recordareu aquells moments tensos en què havies de demanar els apunts al company més motivat de classe. El problema, a vegades insalvable, era contemplar aquells gargots. Cap d’aquells dibuixos explicaven res sobre anatomia, física, història de la filosofia o literatura universal, era pura especulació gràfica només intel·ligible pel seu propi autor. Justament en aquell moment et maleïes els ossos i et preguntaves per què ho deixaves tot a darrera hora… Bé, qui no s’hagi trobat en aquesta situació, menteix o és un ciborg.

Pergamí de 1205. ACVOC-AHT: 9/2 Fons de les Esglésies de Sant Pere, Pergamins, carpt. III, doc. 10

Pergamí de 1205. ACVOC-AHT: 9/2 Fons de les Esglésies de Sant Pere, Pergamins, carpt. III, doc. 10

Ara imagineu-vos què és el que passa quan la separació entre vosaltres i els “apunts” que teniu al davant és més gran, imagineu-vos que es tracta d’una separació temporal, com ara uns quants anys, posem un centenar. La dificultat és encara més gran, pensareu. Doncs sí, és un obstacle insalvable per uns ulls poc entrenats. Però us he de confessar que hi ha un avantatge. Tractar amb documentació anterior a l’adopció massiva de la màquina d’escriure (a Catalunya, inicis del segle XX), té un factor a favor: la gent aprenia de petit cal·ligrafia. Què implica això? Amb paciència, uns quants minuts i alguna diòptria acabes traient l’entrellat, i fins i tot acabes llegint amb celeritat qualsevol document d’un mateix període. Però no us vull enganyar, com més erudit era l’autor, pitjor era la seva lletra. Un clar exemple el trobem amb Sant Francesc d’Assís, que va llegar a la humanitat els seus pensaments en un grapat de documents escrits, qualificats pels experts com a littera infernalis, una lletra del dimoni, vaja.

Aquí arribem al moll de l’os: com puc llegir això? No sé què hi diu? Tens tres alternatives:

1. Aprendre.

2. Demanar ajuda a algú que en sàpiga.

3. Dissenyar un programa informàtic que llegeixi per tu.

La majoria opten per primera. La segona implica pagar a un expert en la matèria, un paleògraf (lector de lletres antigues). La tercera alternativa implica la participació d’un expert diferent de l’anterior, un enginyer informàtic. Segurament creureu que la tercera opció no és la més adequada. Doncs sí, és la millor opció possible. Primerament, perquè un programa de reconeixement de caràcters (OCR) pots adaptar-lo a les teves necessitats. Segon, i molt important, té les virtuts pròpies de la informàtica (no es queixa, treballa ràpid, amb poc marge d’error, etc.). Però com sospiteu, pot ser molt costós i exigir una gran inversió de temps. Té sentit? Per a un document no, per a una capsa tampoc, i potser tampoc per a un centenar. Però la pregunta no és quantes pàgines has de llegir, sinó quanta gent necessita llegir-les.

La documentació històrica més consultada als arxius públics és la que proporciona dades genealògiques, com ara padrons d’habitants, o llibres de sagramentals (batejos, matrimonis i òbits). Segons les dades proporcionades pel Servei de Coordinació General d’Arxius i Gestió Documental de la Generalitat de Catalunya, durant el 2015 la Xarxa d’Arxius Comarcals va rebre més de 2000 consultes genealògiques. De fet, la paraula més cercada a Arxius en Línia durant el 2015 ha estat el terme padró. Òbviament si un document és rebregat per milers de persones acaba fent-se malbé, però no patiu, ho tenim digitalitzat. El ciutadà, si vol, pot consultar-los des de casa en qualsevol dels portals d’accés a documentació d’arxiu.

Seria perfecte sistematitzar totes les dades, és a dir, convertir un padró d’habitants de 1889 en una base de dades i així fer-lo accessible a tothom, i superar l’abisme temporal d’un sol salt. Sí, seria perfecte… No, un moment… de fet ÉS perfecte.

No fa ni dues setmanes es va presentar el projecte Eines, amb el qual es vol sistematitzar els padrons d’habitants de l’Arxiu Comarcal del Baix Llobregat en una gran base de dades. Ara podem saber quanta gent vivia en un dels 14 carrers de Sant Feliu de Llobregat entre 1881 i 1889, quins eren els seus noms, cognoms, professió, edat i sexe. Algú amb poca retentiva podria qualificar-lo de Facebook del segle XIX, però les possibilitats van més enllà de la tafaneria genealògica. Ens permetria saber l’impacte d’epidèmies, guerres, el nivell d’alfabetització d’una població, quin paper jugava la dona en l’economia, etc. No em vull estendre, un univers de possibilitats, i un interès creixent. En un sol dia, la pàgina d’EINES ha rebut gairebé un miler de consultes en un sol dia.

Tot això no hauria estat possible si no tinguéssim a Catalunya un dels centres d’investigació més potents d’Europa, el Centre per Visió per Computador (CVC). Doneu un tomb per la seva, pàgina, les aplicacions comercials i científiques de les seves investigacions són increïbles, des de la millora de detecció de càncers, fins a la identificació de les matrícules dels cotxes, passant pel reconeixement de l’escriptura manuscrita. Els projectes de reconeixement d’escriptures manuscrites impliquen un procés pel qual el programa informàtic aprèn a llegir, passant d’OCR a ICR (Intelligent Character Recognition). Com aprèn una màquina a llegir? Doncs amb un la participació d’un humà, que transcriu una mostra representativa de documents. S’identifica cada lletra amb les múltiples variants de la grafia manuscrita. El procés pot arribar a ser molt lent. Tot dependrà de la quantitat de personal disponible. En el projecte EINES hi han participat una vintena de voluntaris. L’objectiu final és proporcionar a la màquina els suficients coneixements com per transcriure automàticament grans volums d’informació en lletra manuscrita amb un marge d’error acceptable. Una transcripció del 100% del text és massa cara. De fet, és més útil recuperar paraules concretes a partir d’exemples del mateix document, mètode conegut com a word spotting.

Centre de Visió per Computador de la Universitat Autònoma de Barcelona (CVC-UAB)

Centre de Visió per Computador de la Universitat Autònoma de Barcelona (CVC-UAB)

La participació del Centre d’Estudis Demogràfics (CED) de la UAB també ha estat clau, de fet, qui va plantejar la necessitat de sistematitzar massivament documents amb dades demogràfiques van ser els investigadors del mateix centre. En un altre projecte amb finalitats similars, el 5 Centuries of Marriages, hi van participar unes 173 de persones durant uns cinc anys.

Esperem que l’impuls del CVC i del CED segueixi els seu curs i ens ofereixi noves glòries. Qui sap, potser algun dia podrem reconèixer automàticament qualsevol lletra del dimoni.