Tecnología del lenguaje contra la pandemia

Categoría Todas las noticias

MultiLingual Information Access Initiative (MLIA) es una iniciativa que involucra a diversos agentes especializados en la confluencia entre las TIC y la lingüística. Su objetivo es crear un algoritmo que permita poner al alcance de todos los interesados el volumen ingente de información generada por la ciencia sobre el Covid-19 de una manera sintética y útil.

Cada día se publican más de 3.000 artículos científicos en revistas biomédicas en todo el mundo. Es materialmente imposible para cualquier investigador seguir este ritmo de creación de conocimiento, por no hablar del público en general. Además, este interés por la investigación ha crecido exponencialmente durante la pandemia.

Cómo reunir información valiosa

La irrupción del COVID-19 ha puesto sobre la mesa la necesidad y el reto de cómo reunir información científica valiosa de forma simple y hacerla más accesible. La idea subyacente en este objetivo es que, a mayor intercambio de conocimiento, mayores son las posibilidades de responder de manera eficaz contra el SARS-CoV-2 u otros virus peligrosos que puedan surgir en el futuro.

Con esta premisa, la Comisión Europea y otras organizaciones que trabajan en la intersección entre las TIC y las lenguas, como la European Language Resources Association, la European Language Resources Coordination o la European Research Infrastructure for Language Resources and Technology, están cooperando en el proyecto MLIA cuya misión es precisamente la mejora sustancial del acceso a la información científica sobre el Covid-19. El proyecto funciona sobre la base de la colaboración voluntaria.

Entorno multilingüe

MLIA es un acrónimo que corresponde a MultiLingual Information Access Initiative. Se trata de un esfuerzo conjunto para apoyar el intercambio rápido de información y de comunicación precisa en un entorno multilingüe, que cubra todas las lenguas oficiales de la UE y muchas más.

Cabe señalar que en Estados Unidos existe una iniciativa similar, si bien solo para la lengua inglesa. Y aunque este idioma es hegemónico en el ámbito la publicación científica, su dominio no es absoluto. La iniciativa norteamericana, conocida como CORD-19, trabaja con datos lingüísticos para analizar un gran conjunto de artículos científicos sobre el Covid-19.

La finalidad de MLIA es crear un algoritmo capaz de rastrear, agregar y presentar datos de varias fuentes. No solo tiene que ser capaz de procesar datos estructurados (como el número de casos de coronavirus o la duración del período de incubación), sino también datos textuales y no estructurados contenidos en informes, estudios, artículos, etc.

El objetivo final es crear recursos y herramientas para mejorar el acceso a la información a partir de una gran recopilación de datos sobre coronavirus y COVID-19 que sea comprensible, independientemente del idioma, el nivel de conocimiento lingüístico y el origen social del público.

De Europa y más allá

La iniciativa MLIA cuenta de momento con más de 40 participantes entre instituciones europeas, universidades, empresas privadas y varios proveedores de noticias de la UE. Estos han acordado permitir que los desarrolladores utilicen sus bases de datos y contenidos para llevar adelante el proyecto. Si bien la mayor parte son europeos, se han incluido también participantes de organizaciones de Australia, China, India, Jordania, Arabia Saudita y Botsuana, por citar tan solo algunos países.

La primera etapa del proyecto concluyó el pasado mes de enero y la última lo hará en mayo de este año. Para entonces, debería ser posible agregar y resumir varias fuentes de información en una única sinopsis o narrativa coherente, complementando diferentes piezas de datos, resolviendo inconsistencias y previniendo una de las amenazas no sanitarias de esta pandemia: la desinformación.