Código florentino. Tomado de Wikipedia

El procesamiento de lenguaje natural (PLN por sus siglas en español y NLP por sus siglas en inglés) es una de las ramas más importantes de la inteligencia artificial, que trata de "entender el lenguaje humano". Pero qué tal si estas herramientas son utilizadas para descifrar lenguajes tan complejos e interesantes cómo lo son las lenguas indígenas de nuestros países. Con herramientas tan interesantes cómo la IA, el potencial es enorme para las lenguas y un reto para NLP. En esta ocasión tendremos una entrevista exlusiva con la Doctora en Ciencias de la Computación, Ximena Gutiérrez Vasques, que ha realizado una profunda investigación doctoral sobre el tema y en específico sobre el náhuatl. A continuación compartiremos con ustedes la entrevista. Esperamos les sea de interés. Si quieres ver otro artículo de interés te recomendamos consultar el traductor wixarika (huichol) - español.

 

eeNube: Buenas tardes Dra. Ximena Gutiérrez Vasques, es un gusto poder entrevistarla para eeNube.com. Considero que el trabajo que usted ha realizado para aplicar el Procesamiento de Lenguaje Natural (NLP por sus siglas en inglés) al náhuatl (una lengua indígena de México) es de gran importancia. Por eso presentamos esta entrevista para difundir su trabajo y esperando que más personas se interesen en continuar con la investigación.

eeNube: Para que nuestros lectores tengan un aspecto general, ¿cómo explicaría usted el Procesamiento de Lenguaje Natural (NLP o PLN) a las personas que no están familiarizadas con este tema?

Dra. Ximena:  Yo diría que es una subárea de la computación y, a su vez, de la inteligencia artificial, en donde tratamos de lidiar con el lenguaje humano.

En PLN, un texto ya no sólo se procesa como una mera cadena alfanumérica; una grabación de voz  ya no es solo una secuencia de sonidos y frecuencias. En nuestra área debemos de dotar a ese procesamiento de cierta intuición o conocimiento lingüístico. Puede ser muy simple, por ejemplo, saber que una palabra está separada por espacios en un texto, o muy complejo, por ejemplo, detectar ironía y fenómenos que tienen que ver con la semántica y la pragmática de las lenguas.

 

eeNube: ¿Por qué tomó la decisión de trabajar con lenguas de bajos recursos y en especial con el náhuatl?

Dra. Ximena: Bueno, desde el punto de vista científico constituye un reto muy interesante el proponer o adaptar modelos para que funcionen en condiciones donde no hay grandes cantidades de herramientas ni de corpus de entrenamiento para una lengua. México es un país con una envidiable diversidad lingüística y, por lo tanto, un escenario ideal para realizar este tipo de investigación. Por otro lado, las lenguas indoamericanas habladas en México  prácticamente no tienen ninguna tecnología del lenguaje disponible. Es importante empezar a desarrollarlas para beneficiar a los hablantes y los aprendices de nuestras lenguas originarias.

Elegí náhuatl porque, dentro de los escasos recursos de las lenguas mexicanas, es de las lenguas indígenas que posee una mayor tradición de estudio y textos disponibles. También porque, como chilanga, mucho de lo que me rodea tiene nombre náhuatl y tenía interés de poder entender esa lengua que parece estar tan relacionada con la cultura mexicana actual, no solo prehispánica

Distribución de hablantes del Náhuatl. Tomado de Wikipedia.

 

eeNube: Usted recopiló un recurso muy valioso de texto en náhuatl y español, llamado Axolotl. ¿Nos puede explicar qué contiene y por qué lo hizo?

Dra. Ximena: Sí como parte de mi tesis generamos un corpus paralelo español-náhuatl. Esto es, un tipo de corpus que está formado por documentos en una lengua y su respectiva traducción a otra lengua. Este tipo de recurso es la materia prima para generar traductores automáticos o realizar extracción automática  de léxico bilingüe (como mi tesis) pues permite modelar estadísticamente, a partir del corpus, las relaciones que hay entre dos lenguas.

Hicimos un corpus que está formado por diferente bibliografía español-náhuatl, recopilamos libros físicos, los escaneamos, digitalizamos, corregimos, etc. Quisimos que esto fuera fácilmente accesible por más personas, así que hicimos un sistema de recuperación de la información, Axolotl (http://www.corpus.unam.mx/axolotl), que permite hacer búsquedas de palabras o frases en español o náhuatl. El sistema devuelve el conjunto de oraciones que contienen la palabra buscada así como las oraciones paralelas correspondientes en la otra lengua.

 

eeNube: Usted trabajó en una tarea muy específica de NLP: en extracción léxica bilingüe. ¿Nos podría explicar sobre esta tarea y qué se puede lograr con ella?

Dra. Ximena: La extracción léxica bilingüe es simplemente la tarea de obtener automáticamente pares de traducción (a nivel palabra) a partir de un corpus. Generalmente es a partir de un corpus paralelo pero también se pueden ocupar corpus comparables o monolingües.

Esta tarea es importante porque puede permitir la generación automática de lexicones o diccionarios bilingües: un recurso costoso que no siempre está disponible para todos los pares de lenguas, sobretodo de bajos recursos digitales.

Por otro lado, los lexicones bilingües pueden ser de utilidad para alimentar a las tablas de traducción en las que se basan ciertos tipos de sistemas de traducción automática.

Algunos ejemplos de pares de traducción español-náhuatl que se extraen de un corpus paralelo español-náhuatl:

Cerro-tepe

Flor-xochi

Cebolla-xonaca

 

eeNube: Para los que conocen sobre NLP. ¿Nos podría comentar sobre sus experimentos usando los modelos IBM en comparación con la extracción usando embeddings?

Dra. Ximena: Bueno, de manera general, se podría decir que mi tesis replica la propuesta  de Mikolov et al (2013), cuya idea central se basa en aprender una transformación lineal que relacione los espacios semánticos vectoriales de dos lenguas. Es decir, se aprende una matriz de transformación que al multiplicar un vector en la lengua fuente (español) da como resultado un vector en la lengua destino (náhuatl) que está muy  cercano a su traducción.

Sin embargo, adaptamos este entorno experimental para que funcionara bien cuando se tiene un corpus paralelo muy pequeño. Nuestra propuesta consiste, en primer lugar, en trabajar con representaciones morfológicas de las lenguas que faciliten la tarea de parear correspondencias léxicas entre español y náhuatl.

En segundo lugar, para aprender la transformación lineal (procedimiento supervisado) se necesita de un lexicón semilla bilingüe, que usualmente se extrae de un diccionario. En nuestro caso, propusimos crearlo de manera no supervisada  combinando dos métodos estadísticos de alineación de palabras: IBM-1 y método basado en sub- muestreo (anymalign).

Finalmente,  los trabajos del estado del arte usan representaciones vectoriales de tipo Word2vec para cada palabra, sin embargo, en esta tesis mostramos que cuando se tienen corpus pequeños este tipo de representaciones no tienen una utilidad práctica. Propusimos nuestras propias representaciones vectoriales  bilingües creadas con una estructura de grafo y un algoritmo llamado Node2Vec que convierte cada nodo del grafo en un vector de baja dimensionalidad que codifica la vecindad del nodo.

 

eeNube: ¿Para usted, qué importancia tiene su trabajo para los hablantes de náhuatl?

Dra. Ximena: Bueno, creo que es importante enfatizar que mi trabajo pertenece más al ámbito de investigación en PLN o lingüística computacional, mi área no es la revitalización lingüística. Sin embargo, creo que trabajar este tipo de temas puede tener un impacto en los hablantes de las lenguas originarias de México.

Por ejemplo, el sistema Axolotl tiene una comunidad de usuarios creciente, muchos de ellos son aprendices de náhuatl como segunda lengua, que buscan cómo se traduce o cómo se dice cierta palabra o frase.

Por otro lado, todos sabemos que las lenguas indígenas enfrentan una fuerte carga de discriminación en México. Abordar estos temas desde la ciencia y la tecnología contribuye, también, a ir borrando el estigma de que estas lenguas y cultura no merecen atención.

 

eeNube: Le agradezco mucho haber podido realizar esta entrevista con usted sobre su trabajo de doctorado.

 

Descarga

María Ximena, Gutiérrez Vasques. EXTRACCIÓN LÉXICA BILINGÜE AUTOMÁTICA PARA LENGUAS DE BAJOS RECURSOS DIGITALES. UNAM, 2018.

Descarga la tesis de Ximena Gutiérrez aquí.

O en la página de la UNAM

Referencia:

 

Mikolov, Tomas, Quoc V. Le, and Ilya Sutskever. "Exploiting similarities among languages for machine translation." arXiv preprint arXiv:1309.4168 (2013).

 

Share This