martes, 31 de enero de 2012

Lengua online: análisis morfosintáctico

La Universidad de Las Palmas de Gran Canaria ha desarrollado diversas aplicaciones informáticas para el análisis lingüístico.

En su página web nos explican que: "El Grupo de Estructuras de Datos y Lingüística Computacional del Departamento de Informática y Sistemas de la Universidad de Las Palmas de Gran Canaria ha estado trabajando desde 1986 en el análisis de estructuras de datos aplicadas a la recuperación asociativa de información.
A partir de 1990 ha ampliado sus áreas de interés al procesamiento del lenguaje natural y la lingüística computacional, desarrollando trabajos en morfología computacional, sintaxis automatizada, análisis de textos y lexicografía."

La dirección de su página es http://www.gedlc.ulpgc.es/

Y un ejemplo de lo que podemos encontrar es el "Desambiguador morfosintáctico", se introduce una frase y  realiza un análisis morfológico de cada palabra y finalmente, nos muestras las opciones posibles de combinación.

"Debido a que en español existe una considerable cantidad de palabras que pueden desempeñar diferentes funciones gramaticales, el análisis de un texto produciría una desmesurada multiplicidad de combinaciones posibles en caso de no tener en cuenta la función de cada voz en el contexto en que aparece.

  El método de desambiguación reduce el tamaño de la respuesta gracias al tratamiento que hace de las estructuras sintácticas tanto locales como globales apoyándose en un analizador sintáctico automático --no usa criterios estadísticos.

  Para cada palabra, el lematizador proporciona un conjunto de caracterizaciones gramaticales y léxicas, entre otras; el desambiguador asigna a cada caracterización un comportamiento funcional. El desambiguador discrimina para la categoría verbo entre cuatro opciones: infinitivo, gerundio, participio y forma verbal personal, ya que presentan diferencias de función y de posición en las estructuras sintácticas; por el mismo motivo, para la categoría pronombre, se distingue entre pronombre personal, pronombre de relativo y otro pronombre.

  El universo que contempla está compuesto por más de 4 900 000 palabras (sin sumar la ampliación inherente a los prefijos y a los pronombres enclíticos), formado a partir de 151 103 formas canónicas (incluye 14 859 nombres de personas y apellidos). 

  Esta aplicación no propone una solución única, sino todas aquellas que aparecen aceptables al sistema. No tiene en cuenta aspectos semánticos en el análisis. En próximas versiones se irán depurando los resultados para aumentar el grado de desambiguación del sistema.

  Esta versión de la aplicación, disponible para hacer pruebas en línea de manera libre y discrecional, tiene las entradas limitadas a 80 caracteres."

0 comentarios:

Publicar un comentario en la entrada

Escribe aquí tu comentario