Grupo de ingeniería lingüística realiza investigación aplicada

Analiza y procesa el lenguaje humano

La idea, desarrollar sistemas que efectúen actividades como comprensión y traducción.

En el Instituto de Ingeniería hay un conjunto de investigadores que, en apariencia, tiene poco en común, pero que trabaja en estrecha colaboración. Es el Grupo de Ingeniería Lingüística (GIL), en el que convergen especialistas de diversas disciplinas. Sus integrantes poseen una formación que combina el área de las letras y la lingüística con las ciencias de la computación.

“La ingeniería lingüística es un campo de investigación aplicada en el que se desarrollan sistemas informáticos con los que se analiza o procesa el lenguaje humano, también conocido como lenguaje natural (el que usamos al escribir, hablar o leer; con el que emitimos y decodificamos cualquier tipo de expresión oral, visual o escrita), para diversas aplicaciones”, explicó Gerardo Sierra Martínez, director del GIL.

Entre estas últimas, y de las que les interesan, se encuentra la traducción automática; encontrar una equivalencia inmediata entre palabras de idiomas diferentes es un propósito que puede lograrse. “Para esto necesitamos entender bien el lenguaje natural y saber cómo pasar de la lengua uno, por ejemplo el inglés, a la dos, digamos el español”, precisó el experto.

Un traductor humano sabe cómo hacer su trabajo; sin embargo, transmitir ese conocimiento a una computadora por medio de algoritmos es un problema en el que no sólo se requiere el conocimiento lingüístico, sino también inteligencia artificial, estadística y otras áreas.

“Ya tenemos, a disposición de empresas e instituciones académicas, una serie de tecnologías del lenguaje. Hemos desarrollado un sistema llamado Describe, en el que es posible obtener definiciones, no de diccionario, sino de los usuarios. El objetivo es que identifique y extraiga cualquiera que haya en la web y nos permita acceder a ellas, como si se realizara una búsqueda en Google”, señaló Sierra Martínez.

Para obtener esos datos se emplean diversos patrones, que van desde sencillos hasta muy complejos e indican en qué parte del texto hay una definición.

Diccionario electrónico

En el GIL también se ha creado otro producto interesante: un diccionario electrónico que efectúa búsquedas inversas, es decir, parte del significado para darnos la palabra adecuada. Por ejemplo, si escribimos “libro donde se guardan las palabras y se proporcionan sus definiciones”, el programa nos dará como respuesta “diccionario”.

Las tecnologías del lenguaje también son utilizadas con fines forenses. “Por ejemplo, en casos en los que se desea identificar a la persona que hizo una llamada telefónica, de extorsión, se emplean programas para analizar espectrogramas de voz; se procesa la de la grabación y se compara con la de posibles responsables.

aca11_princ

“Las cárceles tienen un registro de las voces de los presos; a partir de ciertos rasgos del sonido de éstas es posible detectar la edad de un individuo, su nivel sociocultural y su origen geográfico. Esta información puede ser determinante en la resolución de un caso legal”, subrayó.

“En un conjunto de documentos escritos por diferentes autores hacemos experimentos para identificar qué características de sus textos nos permiten hacer una clasificación por autor”, añadió Julián Solórzano, tesista en el grupo.

El GIL cuenta con un sistema que reconoce algunas, como qué signos de puntuación y con qué frecuencia los emplea cierto escritor. “En el caso de categorías gramaticales, nos fijamos en qué proporción usa adjetivos o verbos. El estudio se hace incluso más granular si queremos saber en qué medida utiliza verbos en pasado o en futuro”.

Igualmente, trabaja con la recurrencia de bigramas y trigramas, es decir, qué par o trío de palabras suele usar de manera conjunta un autor. Se ha encontrado que las que se manejan en mayor medida son “y” seguido por “de”, pero están también “y para” o “por supuesto”.

Lenguas de bajos recursos digitales

Se considera lenguas de bajos recursos digitales a las que, por alguna razón, no tienen mucha producción escrita, no hay muchos hablantes o no existen suficientes recursos digitales disponibles en la web. Crear tecnología para éstas representa un reto. Las lenguas mexicanas son ejemplos de ello, expuso María Ximena Gutiérrez Vasques, doctorante del GIL.

Además del español, en nuestro país se hablan 68 lenguas o agrupaciones lingüísticas. Aunque tienen reconocimiento oficial o de carácter nacional, no hay muchos textos en Internet traducidos a éstas y, por lo mismo, es difícil la elaboración de traductores automáticos o tecnologías.

Un problema es que la mayor parte se desarrolla sólo para un subconjunto pequeño de idiomas, por ejemplo el inglés y el chino. “El reto que tenemos en el GIL es hacerlas para las lenguas mexicanas, como el náhuatl, con el objetivo de generar modelos”, finalizó.

Fuente: http://www.gaceta.unam.mx/20150810/grupo-de-ingenieria-linguistica-realiza-investigacion-aplicada/ , www.aesla.org.es

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s