Localizar enlaces rotos con LinkChecker

error-404-150Realmente es muy embarazoso que un usuario de la web se encuentre con un mensaje de error «404 Not Found«. Para evitarlo podemos contar con la herramienta LinkChecker, que buscará en la web que indiquemos todos los enlaces rotos.

Se encuentra en los repositorios de Debian, Ubuntu, LinuxMint, y otras distribuciones Linux. Tambíen lo podemos usar en sistemas MAC y Windows. Se puede descargar, configurar e instalar desde las fuentes del proyecto, aunque para éste artículo usaremos los paquetes de los repositorios.

La instalación y configuración

Para el artículo he usado un Debian Wheezy con estritorio XFCE. Para la instalación debemos teclear:

  1. apt-get -y install linkchecker-gui

Una vez instalado, podemos cargar la interfaz gráfica, que tendrá un aspecto parecido al siguiente:

linkchecker-linux

La interfaz gráfica es más sencilla y tiene menos opciones que el comando a través de la consola. Aún así es muy completo. Si os interesa trabajar con él por la línea de comandos, os recomiendo el siguiente enlace.

A modo de prueba he analizado una web pequeña, como la que tenía ochobitshacenunbyte hace unos años en blogspot.com

Aquí tenéis los resultados:

linkchecker-linux-test

Si observáis la imagen veréis varias columnas:

  • La primera con la URL y la lína de código fuente.
  • A continuación la URL completa con el elemento al final.
  • El siguiente es el campo para el nombre.
  • Y por último el resultado del error.

En el caso de ésta web tenemos los mensajes de los robots.txt, errores 405 y un enlace roto. Una vez localizados depende de nosotros solucionarlos.

Los mensajes de error pueden ser varios:

  • Direcciones URL que ya no existen (HTTP 404)
  • Direcciones URL inaccesibles (HTTP 403)
  • Direcciones de correo electrónico sin un MX válido.
  • entre otros.

Si marcamos una línea que nos interese, en la parte inferior el programa nos dará más información detallada sobre el error.

Podemos guardar los resultados en varios formatos, tanto en HTML, XLS o CSV.

Podéis ver en la imagen los formatos disponibles:

linkchecker-linux-guardar

El motivo de usar una web pequeña para las pruebas del artículo tiene una razón. Linkchecker es tan exhaustivo que puede tardar una eternidad en analizar una web con un tráfico aceptable.

Para solucionarlo debemos ir a las opciones. Por defecto el parámetro de busca es -1, es decir, sin limites. En cambio un valor de 3 le indicaría al programa que como máximo analice hasta tres niveles.

linkchecker-linux-options

Como ocurre con muchos programas del mundo GNU/Linux la cantidad de variables que tenemos en la interfaz gráfica y sobre todo en la consola es interminable.

Espero que haya sido de vuestro interés. ¡Comentad, que es gratis! 🙂