Continuamos hablando con Enrique Vidal del interesantísimo Proyecto Carabela, sobre cómo se desarrolló y sus posibles aplicaciones futuras.
(Archivoz) Un proyecto de tal envergadura necesita un equipo multidisciplinar ¿cual es vuestro perfil profesional?
(Enrique Vidal) En Carabela han colaborado estrechamente dos equipos de investigación: el Centro de Reconocimiento de Formas y Tecnologías del Lenguaje Humano (llamado PRHLT por sus siglas en inglés) de la Universidad Politécnica de Valencia (UPV), y el Centro de Arqueología Subacuática (CAS) del Instituto Andaluz del Patrimonio Histórico (IAPH). El equipo de PRHLT, liderado por mí (que soy FÌsico, aunque imparto docencia de Informática en la UPV), está formado principalmente por ingenieros informáricos y «eléctricos» (similar a lo que en España se denomina «telecos»). El equipo del CAS, liderado por Carlos Alonso (que es Historiador y actualmente dirige la unidad de Documentación y Transferencia de CAS-IAPH), está formado principalmente por historiadores y arqueólogos.
La idea de emprender un proyecto como Carabela surgió hace más de 10 años a raíz de diversas conversaciones que tuvimos Carlos Alonso y yo. Debatíamos sobre la viabilidad de usar las tecnologías que estábamos desarrollando en PRHLT-UPV para aliviar el enorme coste que acarrea a CAS-IAPH la búsqueda documental asociada a la exploración arqueológica de cualquier pecio histórico. Desde entonces hemos intentado en varias ocasiones obtener financiación de programas públicos españoles y europeos para estudiar esta idea. Pero no fue hasta 2017 que conseguimos una modesta pero suficientemente efectiva financiación del programa de Ayudas a Proyectos de Investigación de la Fundación FBVA.
Conviene recordar que según todos los parámetros Carabela ha sido un proyecto pequeño, cuyo fin no era el procesado de ninguna colección concreta, sino demostrar el alcance de la tecnología de indexación probabilística para facilitar el acceso a la información textual contenida en colecciones de gran tamaño y complejidad.
(Archivoz) y ¿Cómo es vuestra metodología de trabajo?
(EV)En Carabela nos enfrentamos al mayor reto que hemos conocido hasta ahora con respecto a la variabilidad y dificultad de caligrafías, junto al precario estado de conservación de muchos de los documentos y la baja calidad de la mayoría de las imágenes utilizadas. El trabajo de CAS-IAPH ha sido esencial para afrontar este reto. Concretamente, su principal labor ha sido seleccionar con gran acierto y transcribir adecuadamente las 400 imágenes que se han utilizado como muestras de aprendizaje para el sistema de indexación probabilística. Durante algunos meses procedimos mediante un protocolo de prueba y error.
El equipo del CAS analizaba en qué estilos de letra y calidad de imágenes se solían producir los fallos más significativos y proponía nuevas imágenes (transcritas manualmente por el equipo del CAS) para mejorar el aprendizaje. Con las nuevas muestras de aprendizaje el equipo de PRHLT-UPV re-entrenaba los sistemas y producía nuevas versiones de los índices probabilísticos con las que poco a poco se iban evitando los diversos tipos fallos detectados.
Posteriormente, para el estudio de las técnicas de clasificación automática de expedientes, el equipo del CAS ha analizado varios centenares de expedientes del Archivo General de Indias (todos los indexados en Carabela) y ha asignado a cada uno la correspondiente etiqueta (V,A,R). Con esta información de referencia, el equipo de PRHLT ha desarrollado nuevos modelos de clasificación de imágenes basada en contenidos textuales imprecisos y ha realizado los exitosos experimentos que he comentado antes.
(Archivoz) ¿Cuales son los problemas principales que habéis tenido a la
hora de desarrollar esta herramienta?
(EV) Bueno, realmente esto ya lo he comentado antes: la variabilidad y dificultad de estilos de escritura, el precario estado de conservación de los documentos y la baja calidad de las imágenes utilizadas. El último de estos problemas podría haberse evitado en gran medida con un mayor presupuesto y, sobre todo, con la colaboración activa en el proyecto de los archivos implicados.
De cara a futuros desarrollos este es un aspecto muy importante a tener en cuenta. El problema (de indexación probabilística) ya es suficientemente complejo de por sí, como para encima añadir dificultades fácilmente evitables… ¡Con imágenes de buena calidad, el coste de producción de muestras de aprendizaje puede reducirse muy sustancialmente y los resultados pueden ser mucho mejores!
(Archivoz) ¿Cual ha sido la acogida del proyecto por parte de los usuarios?
(EV) Ni el alcance ni el presupuesto de Carabela permitían una evaluación formal de usabilidad. Pero el sistema de búsqueda está disponible públicamente a través del portal WEB del proyecto desde hace varios meses. Se pueden formular toda clase de búsquedas, aunque se requiere autorización previa para obtener detalles de las partes más sensibles de la colección.
Desde que se completó la indexación (en noviembre de 2019) ha habido gran afluencia de visitantes, tanto al portal, como al sistema de búsqueda propiamente dicho. Con respecto al portal, han habido más de 15,000 accesos procedentes de casi todas las provincias de España y mas de 10,000 accesos internacionales, procedentes de 35 países como USA, Colombia, Argentina, Chile, Alemania, Suecia, Australia, Filipinas, etc. Y en el sistema de búsqueda propiamente dicho, se han registrado hasta la fecha más de 20,000 búsquedas procedentes de unas 25 provincias españolas y unas 5,000 procedentes de otros países del mundo.
(Archivoz) ¿Y por parte de los profesionales de la Información y Documentación?
(EV) El proyecto Carabela, sus resultados y el sistema de búsqueda, se han presentado en diversos foros españoles relacionados con la archivística. En todas estas presentaciones, la reacción de los participantes siempre ha sido un tránsito desde la incredulidad hasta
el asombro al constatar la capacidad y versatilidad del sistema para encontrar información muy precisa en la compleja colección que hemos indexado en Carabela.
También mantuvimos una reunión con responsables de la Subdirección General de Archivos Estatales y otras subdirecciones del Ministerio de Cultura y Deportes. En esta reunión presentamos los principales resultados y debatimos sobre las oportunidades (y también sobre los retos y riesgos potenciales) del uso de estas tecnologías de cara al futuro de la gestión de fondos documentales públicos.
Además, sobre las tecnologías que hemos desarrollado, el pasado septiembre fui invitado a impartir una conferencia plenaria en el principal congreso internacional sobre tecnologías de análisis y procesado de documentos (ICDAR) que se celebró el pasado octubre (2019) en Australia. También en este foro tecnológico la reacción fue altamente positiva ante las innovadoras posibilidades que abren los métodos que hemos desarrollado. Algunas de estas presentaciones están disponibles en el portal WEB de Carabela.
(Archivoz) Una vez acabado el Proyecto Carabela, debido a la tremenda utilidad a la hora de acceder a la documentación manuscrita de la Edad Moderna, ¿habéis pensado en futuros usos?
(EV) SÌ claro. El desarrollo de las tecnologías y herramientas de procesado de documentos manuscritos de PRHLT-UPV ha sido principalmente subvencionado, entre otros, por dos proyectos europeos de cierta envergadura: TranScriptorium (2013-2015) y READ (2017-2019).
Varios de los socios de estos proyectos, junto a muchos Archivos y Bibliotecas europeas, hemos creado una Cooperativa Europea llamada Read-Coop. En esta cooperativa se han inscrito además algunos inversores privados y un gran número de investigadores en humanidades. La mayoría de las tecnologías y herramientas desarrolladas por PRHLT-UPV se ofrecen como «código abierto». En el marco de Read-Coop, PRHLT ofrece sus servicios para ayudar a usar y/o implantar estas herramientas para los fines específicos de otros miembros de la cooperativa.
Así pues, siempre que no se requieran nuevos desarrollos tecnológicos, cualquier interesado puede beneficiarse de nuestros desarrollos y de nuestra ayuda (con costes sin ánimo de lucro) a través de Read-Coop. Por ejemplo, en este marco estamos actualmente produciendo los índices probabilísticos de una colección de cerca de un millón de páginas de documentos notariales históricos del Archivo Nacional de Finlandia.
Para proyectos en los que se requiera investigación o desarrollos tecnológicos específicos o adicionales, PRHLT-UPV está abierto al planteamiento de proyectos pre-competitivos con financiación pública y/o privada.
Finalmente, con el fin de ofrecer las tecnologías de procesado de documentos manuscritos de forma totalmente profesional y comercial, estamos actualmente ultimando los trámites para la creación de una empresa de base tecnológica amparada por la UPV («Spin-Off»). En esta empresa, denominada «tranScriptorium» (o simplemente «tS»), vamos a ofrecer soluciones profesionales adecuadas a problemas de manejo y explotación de contenidos de documentos manuscritos propuestos por entidades publicas o privadas. Entre estos problemas, además de los clásicos relacionados con documentación histórica, incluimos problemas relativos a documentación manuscrita reciente y/o contemporánea en ámbitos como el bancario y médico, entre otros.
Una de nuestras aspiraciones a medio-largo plazo es procesar e indexar probabilísticamente la colección completa del Archivo General de Indias. Aquí esperamos encontrar retos difíciles de predecir, por lo que pensamos que este trabajo debería abordarse, junto con los responsables del archivo, en la forma de proyecto pre-competitivo que he mencionado antes, a ser posible basado únicamente en financiación pública española.