Millora d'un sistema de traducció basat en regles : extracció aleatòria de piulades; automatització de la traducció En > CA mitjançant Apertium, i avaluació de la qualitat amb mètriques automàtiques
Garcia Moré, Èric
Martín Mor, Adrià, dir. (Universitat Autònoma de Barcelona)
Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació

Additional title: Mejora de un sistema de traducción basado en reglas : extracción aleatoria de corpus; automatización de la traducción EN > CA con Apertium, y evaluación de la calidad con métricas automáticas
Additional title: Improvement of a rule-based machine translation system : random corpus extraction, EN > CA automatic translation via Apertium, and quality assessment using evaluation metrics
Date: 2020
Abstract: Aquest treball descriu un projecte de col·laboració amb Softcatalà per millorar la qualitat del parell anglès-català d'Apertium. La tasca posa èmfasi en l'oralitat escrita, raó per la qual s'ha triat la xarxa social Twitter per a l'extracció de corpus en llengua anglesa. Com a mètode objectiu per mesurar la millora de la qualitat de traducció, s'ha triat la mètrica automàtica BLEU. D'una banda, es descriuen els diferents mètodes de TA existents, les mètriques d'avaluació automàtiques, el procés d'extracció de corpus i Twitter. D'altra banda, es detallen els passos seguits en el flux de treball proposat i les eines i recursos emprats per crear textos de referència a partir de cada piulada i la traducció inicial d'Apertium. Aquest procés ha aconseguit millorar el valor de la mètrica automàtica general per a les piulades de referència, però no hi ha hagut canvis significatius per a un segon grup de frases aleatòries.
Abstract: Este trabajo describe un proyecto de colaboración con Softcatalà para mejorar la calidad del par de lenguas inglés-catalán de Apertium. La tarea se centra en la oralidad escrita, por lo que se ha escogido la red social Twitter para la extracción de corpus en lengua inglesa. Como método objetivo para la medir la mejora de la calidad de traducción, se ha optado por la métrica automática BLEU. Por un lado, se describen los distintos métodos de TA existentes, las métricas de evaluación de la calidad, el proceso de extracción de corpus y Twitter. Por otro lado, se detallan los pasos seguidos en el flujo de trabajo propuesto, así como las herramientas y recursos utilizados para la creación de textos de referencia a partir de cada tuit y su traducción inicial con Apertium. Este proceso ha conseguido mejorar el valor de la métrica automática general para los tuits de referencia, pero no ha habido cambios significativos para un segundo grupo de frases aleatorias.
Abstract: This paper describes a collaboration project with Softcatalà aimed at improving raw quality of the English-Catalan language pair on the RBMT platform Apertium. The task described focuses on spoken-like discourse, hence why Twitter has been chosen for English corpus extraction. Additionally, BLEU metric has been used as an objective way to automatically assess translation quality. On one hand, existing MT methods, translation quality assessment metrics, the most common corpus extraction process and Twitter are described. On the other hand, the steps within the proposed workflow as well as the tools and resources used to produce reference texts from each tweet and its Apertium translation are detailed. The process has succeeded in improving the overall raw MT quality metric of the reference tweets. However, no significant changes in quality were detected for a second batch of random sentences.
Rights: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. Creative Commons
Language: Català
Studies: Tradumàtica: Tecnologies de la Traducció [4315970]
Study plan: Màster Universitari en Tradumàtica: Tecnologies de la Traducció [1350]
Document: Treball final de grau ; Text
Subject: Traducció automàtica ; Traducció automàtica basada en regles ; Apertium ; Extracció de corpus ; Mètriques d'avaluació de la qualitat ; Traducción automática ; Traducción automática basada en reglas ; Extracción de corpus ; Métricas de evaluación de la calidad ; Machine translation ; Rule-based machine translation ; Corpus extraction ; Translation quality evaluation metrics



126 p, 1.6 MB

The record appears in these collections:
Research literature > Dissertations > Translation and Interpreting. MT

 Record created 2021-10-08, last modified 2022-07-02



   Favorit i Compartir