Por qué la traducción automática del ruso al inglés es difícil

Cuando consideramos la historia de la traducción automática, la ciencia por la que los ordenadores traducen automáticamente de una lengua humana a otra, vemos que gran parte de la ciencia comienza con el ruso. Una de las primeras menciones a la traducción automática corresponde al ruso Peter Troyanskii, que presentó una propuesta que incluía tanto el diccionario bilingüe como un método para tratar los roles gramaticales entre lenguas, basado en el sistema gramatical del esperanto, incluso antes de que existieran los ordenadores.

El primer conjunto de propuestas de traducción automática por ordenador fue presentado en 1949 por Warren Weaver, investigador de la Fundación Rockefeller, en su ya famoso «Memorándum de traducción». En el famoso memorándum al que se hace referencia aquí, decía: «es muy tentador decir que un libro escrito en ruso es simplemente un libro escrito en inglés que fue codificado en el código ruso» Estas propuestas se basaban en la teoría de la información, en los éxitos en el descifrado de códigos durante la Segunda Guerra Mundial y en las teorías sobre los principios universales que subyacen al lenguaje natural. Pero el memorándum de Weaver no fue el único motor de este campo emergente. Lo que realmente impulsó la investigación fue el miedo a la Guerra Fría y el deseo de los analistas estadounidenses de leer y traducir fácilmente los documentos técnicos rusos. Warren Weaver inspiró a los fundadores de Language Weaver para que se llamaran como él a principios de la década de 2000, y la empresa fue la primera en comercializar y producir la traducción automática estadística (SMT) y también fue la fuente de gran parte de la innovación posterior en SMT. Sus ex alumnos pasaron a fundar Google Translate, Moses y a influir en las iniciativas de MT/AI de Amazon, y la empresa y su propiedad intelectual son ahora propiedad de SDL Plc.

El experimento original de Georgetown, que consistió en la traducción totalmente automática de más de sesenta frases rusas al inglés en 1954, fue uno de los primeros proyectos de MT registrados. Los investigadores del experimento de Georgetown afirmaron su creencia de que la traducción automática sería un problema resuelto en un plazo de tres a cinco años. Esta afirmación de poder resolver el problema de la MT en cinco años ha sido un estribillo frecuente de la comunidad de la MT, y casi setenta años después vemos que la MT sigue siendo un problema desafiante. Los recientes avances con la MT neural son bienvenidos y, de hecho, significativos, pero la MT sigue siendo una de las áreas de investigación más desafiantes de la IA.

¿Por qué la MT es un problema de PNL tan difícil?

Como demuestran los resultados de 70 años de esfuerzos de investigación en MT, el problema de la traducción automática es, de hecho, uno de los más difíciles de resolver en el campo del Procesamiento del Lenguaje Natural (PLN). Merece la pena reflexionar sobre las razones de este hecho, ya que explica por qué se ha tardado 70 años en llegar hasta aquí, y por qué todavía puede llevar mucho más tiempo llegar a una MT «siempre perfecta», incluso en estos embriagadores días de avances de la NMT.

Para ilustrar la dificultad, quizá sea útil comparar la MT con el reto del reconocimiento automático del habla (ASR). Si tomamos una frase sencilla como: «Hoy nos complace anunciar un avance significativo en nuestra investigación de MT en curso, especialmente en lo que respecta a las traducciones del ruso al inglés» En el caso de la ASR, en realidad sólo hay una respuesta correcta, el ordenador identificó la palabra correcta o no lo hizo, e incluso cuando no identifica correctamente la palabra, a menudo se puede entender por el contexto y otras palabras predichas correctamente.

Los ordenadores funcionan bien cuando los problemas tienen resultados binarios, en los que las cosas son correctas o incorrectas, y los ordenadores tienden a resolver este tipo de problemas con mucha más eficacia que los problemas en los que las «respuestas» son mucho menos claras. Si consideramos la frase en cuestión como una traducción, el reto informático es muy diferente. El lenguaje es complejo y variado, y una misma cosa puede decirse y traducirse de muchas maneras diferentes. Todas ellas pueden considerarse correctas. Si se añaden las posibilidades de traducciones ligeramente erróneas o gravemente erróneas, se puede ver que hay un gran abanico de posibilidades de permutación. La frase en cuestión tiene muchas posibles traducciones correctas y ahí radica el problema. Los ordenadores no tienen realmente una forma de evaluar estas variaciones más que a través de cálculos de probabilidad y midiendo la densidad estadística de los datos, que casi siempre está completamente definida por los datos con los que se entrena. Si se entrena con un conjunto de datos que no contiene todas las traducciones posibles, se habrán perdido algunas posibilidades. La verdad es que NUNCA entrenamos un motor con todas las traducciones posibles.

Michael Housman es director de ciencia de datos de RapportBoost.AI y miembro de la facultad de la Singularity University. Explicó que el escenario ideal para el aprendizaje automático y la inteligencia artificial es algo con reglas fijas y una medida clara de éxito o fracaso. Citó el ajedrez como ejemplo obvio y señaló que las máquinas fueron capaces de vencer al mejor jugador humano de Go. Esto sucedió más rápido de lo que nadie esperaba debido a las reglas muy claras del juego y al conjunto limitado o definible de movimientos.

Housman explicó que «el lenguaje es casi lo contrario. No hay reglas tan claras y definidas. La conversación puede ir en un número infinito de direcciones diferentes. Y luego, por supuesto, se necesitan datos etiquetados. Hay que decirle a la máquina que lo haga bien o mal»

Housman señaló que es intrínsecamente difícil asignar estas etiquetas informativas. «Dos traductores ni siquiera se pondrán de acuerdo sobre si se ha traducido bien o no», dijo. «El lenguaje es una especie de salvaje oeste, en términos de datos.»

Erik Cambria, investigador académico de IA y profesor adjunto de la Universidad Tecnológica de Nanyang, en Singapur, afirma: «El mayor problema de la traducción automática hoy en día es que tendemos a pasar de la forma sintáctica de una frase en la lengua de entrada a la forma sintáctica de esa frase en la lengua de destino. Eso no es lo que hacemos los humanos. Primero decodificamos el significado de la frase en la lengua de entrada y luego codificamos ese significado en la lengua de destino»

Todos estos factores que dificultan el trabajo siguen vigentes en un futuro previsible, por lo que no deberíamos esperar otro gran avance hasta que encontremos enormes masas de datos nuevos y de alta calidad, o desarrollemos un nuevo avance en la metodología de detección de patrones.

¿Por qué algunas combinaciones lingüísticas son más difíciles en la TA?

En esencia(muy simplificada), la MT es una técnica de detección y comparación de patrones en la que se muestran a un ordenador grandes volúmenes de frases limpias equivalentes en dos idiomas y éste «aprende» a «traducir» a partir del análisis de estos ejemplos. La NMT lo hace de forma diferente a la SMT, pero esencialmente ambas detectan patrones en los datos que se les muestran, aunque la NMT tiene un sentido mucho más profundo de lo que puede ser un patrón. Por eso, la calidad y el volumen de los «datos de entrenamiento» son importantes, ya que definen los patrones que se pueden aprender.

Deja un comentario

Tu dirección de correo electrónico no será publicada.