search search search rss search

Utilidades

line

Recientemente me llegó un encargo de localización. Consistía en traducir una página web al ruso. El cliente no se esforzó mucho en especificar nada, él quería traducir su web a varios idiomas y lo demás daba igual. ¡Qué se apañen estos traductores con las indicaciones que les doy y me hagan un presupuesto! El proyecto no salió adelante, ya que después de ese correo no se supo nada más del cliente.

Todo esto viene a que me encontré con el siguiente problema: ¿cómo hago yo un recuento de palabras de una web de productos, llena de enlaces y URLs, para poder hacer un presupuesto? Sobre todo cuando el cliente no colabora, ya sea por desconocimiento de la profesión, o porque simplemente no tiene tiempo, ganas o lo que sea.

Uno, dos, tres...

Normalmente en los proyectos de localización en los que he participado me han enviado los textos en formato .xls o .doc. Un texto plano, fácil de manejar tanto para mí como para el cliente a la hora de insertar la traducción en la web. Pero esta vez no era el caso, así que acudí a los compañeros para ver cómo se extraían los textos de la web para hacer un recuento de palabras.  He aquí las posibles soluciones:

HTTrack Website Copier

Es una aplicación informática de Software libre, multiplataforma que te permite navegar por páginas web completas sin necesidad de estar conectado. Es decir descarga una web completa o parte de ella al disco duro de un PC o al dispositivo de almacenamiento que quieras, y te permite navegar por ella sin estar conectado.

Aquí tenéis un tutorial de cómo funciona el programa. Después de varios intentos conseguí que el método funcionase, pero no conseguí hacer el recuento.

CatsCradle 3.9

CatsCradle es una herramienta que te permite traducir documentos en HTML sin preocuparte por los comandos y la sintaxis de dicho lenguaje de programación. Es un editor de páginas web rápido y fácil de usar

El programa extrae automáticamente el texto (texto de la página, título de la web, palabras clave, etc) y lo muestra en un editor incorporado donde puedes editarlo y traducirlo fácilmente, sin tocar para nada el código fuente de la web.

Este programa funciona grabando todo el texto que requiera traducción desde una página web, lo coloca dentro de su editor integrado y automáticamente te muestra el texto a traducir, dejando el código HTML intacto.

Puedes previsualizar en un navegador web tu trabajo para comprobar que la traducción encaja perfectamente con la web original. Cuando termines solo tienes que guardar tu trabajo.

Hay una versión de prueba de 30 días y si te gusta te lo puedes comprar por unos 40€.

Inconveniente: cada URL se introduce por separado, por lo tanto, en una página repleta de URLs, como fue mi caso, es bastante tedioso.

WebBudget XT

TAO especializado en la traducción de proyectos. El programa permite gestionar proyectos de traducción de páginas web de manera muy fácil y rápida. Soporta los formatos habituales basados en etiquetas HTML, SGML, XML. ASP, JSP, PHP  y sus variables. Extrae automáticamente el texto y lo segmenta. La interfaz del programa es bastante fácil de usar y muy intuitiva, además integra memorias de traducción y permite importar y exportar memorias TMX.

El programa te permite generar presupuestos detallados para el texto y las imágenes que vayas a traducir, ya que cuenta con la tecnología SmartCount™ de recuento de palabras.

Además de todo eso la herramienta ofrece la descarga asistida de páginas Web, la búsqueda por palabras específicas, conversión de archivos en formato HTML al formato RTF y creación de perfiles personalizados de extracción de texto y contabilidad.

Existe versión de prueba de 15 días, pero la versión completa cuesta 395€.

Tutorial

No sé si existen más software de este estilo, pero seguramente sí. ¿Conocéis alguno más?

 


19 comentarios

line
  1. Olli

    Hola Cristina:

    Una entrada muy interesante y me sorprende que le hayas sacado utilidad a WebBudget. Es un programa que vimos en el programa de formación del TILP y me pareció de lo más antiguo e inútil que te podías echar a la cara. Voy a flagelarme por rajar de un pobre programa :D.

    line
    • ¡Qué culpa tendrá el programa! Estuve un día entero haciendo un presupuesto al que no tuve respuesta ni nada. Debería haberles cobrado por el presupuesto :D Probé los tres programitas y la verdad no me convenció ninguno. ¿Hay algo mejor?

      line
  2. Ay, esto me pasa por no tener tiempo para escribir. Justamente en el Consultorio de Traditori me preguntaron algo similar y no he tenido tiempo de colgarlo. ¡Ya puedo remitirlos a esta gran entrada, Cristina! :)
    No obstante, creo que se puede complementar con lo mío. Algún día lo escribiré, algún día… xD

    line
  3. Me ha encantado el programa para extraer texto de webs (obviamente no estoy puesto en el tema xD).
    El primero es de lo mejor que hay hoy por hoy :)

    ¡Gracias por darme a conocer CatsCradle!

    line
  4. Las veces que me ha tocado hacer un presupuesto he usado HTTrack. Es difícil hacer un programa menos intuitivo, pero es muy completo y, con unas cuantas pruebas-error, lo acabas sacando. Luego analizas los HTML con FineCount o tu herramienta TEnT favorita y presupuesto listo, siempre que la web contenga código ejecutable, claro.

    Obviamente, lo de descargar HTTrack solo vale para dar un presupuesto orientativo. La traducción real debe hacerse con material proporcionado por el cliente, ya sea en hoja de cálculo, en XML de exportación, directamente en el CMS o a las bravas, conectado a su sistema por ODBC. Para ello hay que hablar con su webmaster y ver qué opción es la más recomendable para el caso.

    line
    • No tengo tanta experiencia como tú, Jordi. Pero el cliente ni siquiera contestó a los mails. Yo hice todo lo que pude, trastee el HTTrack y lo tuve toda la tarde funcionando para volcar la web que tenía una enlace nuevo para cada uno de los miles de productos que ofrecía.
      ¡Ahora en caso de duda ya sé a quién acudir, jejeje!

      line
  5. Carlos

    Muy buena entrada Cristina, me acuerdo de tu experiencia en este asunto. Tanto trabajo para nada.

    Bueno, por lo menos descubrimos nuevos programas que nos pueden ser útiles.

    Espero que la próxima vez sí te respondan y el proyecto salga adelante.

    ¡Saludos! :D

    line
  6. Esta historia me suena… Veo que la mismo hizo contigo que conmigo…
    Pues yo, como ya te dije, probé el HTTrack y me pareció muy complicado… así que agradezco el tutorial que sugieres y los otros prgramas… que me miraré detenidamente si vuelve a aparecer.

    Veremos a ver qué pasa…

    ¡Un beso!

    line
  7. Pablo Bouvier

    Hola, Cristina: excelente y muy instructivo artículo.

    HTtracker es una aplicación informática de Software libre, multiplataforma que te permite navegar por páginas web completas sin necesidad de estar conectado.

    Pero, es que este es precisamente el problema de HTTrack Web copier. Traduce los enlaces de un sitio Web para que éste se pueda visualizar en el propio PC, como si se estuviese en línea, pero… ¿podéis explicarme, por favor, cómo enlazáis entonces los ficheros traducidos cuando los volváis a subir al servidor? Lo digo, porque los enlaces ya no serán los que había en el servidor, sino los que se han creado para poder visionar el sitio Web en vuestro PC.

    Para un servidor, y discrepando de lo que afirma Olli (y no por criticar un programa, ni por tener espíritu crítico, porque crítico hay que serlo con nuestras herramientas de trabajo), es aquí donde entra en juego WebBudget que, si bien reconozco que tiene una interfaz horrenda, no deja de ser la única aplicación que conozco, que permite descargar un sitio web entero junto con toda su parafernalia de scripts en java, php, et caetera, y luego volver a subirla – una vez traducida – sin modificar su estructura de enlaces.

    Respecto a CatsCradle, un servidor no la incluiría dentro de las aplicaciones profesionales, aunque si la utilizaría para trabajos de menor importancia.

    line
    • Hola, Pablo:

      Siento no poder ayudarte con el tema, ya que no soy muy experta, por no decir nada de nada. Pero como ha dicho Jordi, cito textualmente: “Obviamente, lo de descargar HTTrack solo vale para dar un presupuesto orientativo. La traducción real debe hacerse con material proporcionado por el cliente, ya sea en hoja de cálculo, en XML de exportación, directamente en el CMS o a las bravas, conectado a su sistema por ODBC. Para ello hay que hablar con su webmaster y ver qué opción es la más recomendable para el caso.” Creo que aquí el experto es Jordi.
      Yo solo he utilizado el HTTrack para realizar un presupuesto. Tengo entendido que no es un software para localización, sino para el volcado de la web para visualizarlo en tu PC y navegar sin conexión.
      En cuanto al webBudget en el periodo de prueba no pude trastearlo todo lo que quisiera, así que no sabría decirte. Y el CatsCardle para una novata como yo es intuitivo y fácil de usar, pero quizás para gente más experta en localización es una birria de programa.
      ¡Gracias por tu comentario!

      line
    • Eso que comentas sirve para webs estáticas (HTML), pero no para webs dinámicas (PHP con llamadas a BB.DD. y tal). Es decir, hoy en día (y desde hace unos cuantos años ya), prácticamente todas las webs se gestionan a través de un CMS, no subiendo y bajando archivos preparados en local.

      line
  8. Beo

    Aquí es una gran herramienta que ayuda a que el proceso de localización: https://poeditor.com/. Los traductores pueden trabajar en la traducción de las cadenas en hasta 200 idiomas, con todo tipo de herramientas útiles, como idioma de referencia o de la memoria de traducción.

    line

Comentar