Eliminar errores de Google Webmaster Tools -

Eliminar errores de rastreo de Google Webmaster Tools

Publicado Por | 28 mayo , 2013 | Blog Adrenalina, SEO, SEO Técnico | 4 Comments

Una de las preocupaciones cuando se analiza un sitio web es revisar los reportes de Google Webmaster Tools (WMT), la herramienta que ofrece Google para controlar muchos de los aspectos de nuestro sitio web. Desde las palabras claves, contenido duplicado, indexación e incluso distintos tipos de errores que pueden ocurrir en nuestra web.

Evidentemente no es la única herramienta ni una de las mejores, además de ser un complemento más, es la información que Google tiene sobre nuestro sitio, información de gran valor si estamos buscando mejorar nuestros rankings dentro de los Servicios SEO.

Los errores de rastreo informados en WMT pueden ser de varios tipos y para cada uno de los grupos de dispositivos, ya sea web o móvil.

Qué son los errores de rastreo de tipo 50x y 40x

Los errores de tipo 500, son los errores graves que generalmente se ocasionan a nivel servidor, por ejemplo cuando Apache o nginx no tiene más recursos o la base de datos es inaccesible por la aplicación.

Errores Webmaster tools

Reporte de errores 40x Webmaster tools

Los de tipo 400 son errores de aplicación, los más comunes 404 y 410 que hoy en día no tienen grandes diferencias por parte de Google.

Todos los errores de rastreo son importantes y bajar el número, sobre todo cuando superan el número de páginas indexadas, debe de ser nuestra primera preocupación.

Vamos a tener en cuenta siempre la autoridad de nuestro sitio web para descubrir si los errores se siguen produciendo o son históricos, ya que el robot de Google puede tardar meses en revisar una página con un error si nuestro sitio no tiene demasiada autoridad, incluso más de un año.

 

Cómo eliminar los errores de rastreo de nuestro sitio

Los errores de tipo 500 son fáciles de identificar y generalmente vienen provocados por servicios de hosting malos o por picos de tráficos mal gestionados, suponiendo que no son errores graves de la aplicación.

Los errores 404 pueden generarse básicamente por dos motivos, las páginas fueron o son enlazadas desde el mismo sitio y ahora ya no existen, o el mismo caso pero desde sitios externos. Los enlaces pueden ser existentes o no, pero dependerá del robot de Google que se vuelvan a verificar.

Una vez que identificamos las páginas de los errores que queremos resolver, debemos verificar si están enlazadas desde nuestro sitio. Si es así el primer paso es quitar el enlace.
El siguiente paso es quitar esa página del catálogo de Google. Para ello la mejor manera es añadirla al archivo robots.txt con la instrucción disallow.
Si podemos encontrar un patrón de la URL de los errores entonces también podremos añadirlo al robots.txt y ahorraremos líneas de texto.

Por lo general, cuando un sitio es grande y tiene muchos errores, supongamos diez mil páginas indexadas y seis mil errores, es normal que a medida que el robots de Google vaya quitando errores, por otro lado los vaya añadiendo, incluso subirá en número de errores, pero luego de algunos días éstos errores comenzarán a bajar.
Tened en cuenta que los nuevos errores pueden tener patrones de URL distintos y hay que estar atento para añadirlos al robots.txt

Como ejemplo estas últimas semanas hemos migrado un sitio web hecho en Drupal a WordPress y de unas tres mil páginas indexadas en pocos días los errores se dispararon a ocho mil. Aplicando estas reglas hemos corregido los errores en tan solo siete días.

Quitar errores webmaster tools

Errores eliminados de webmaster tools

Hay que tener especial cuidado con añadir reglas de disallow a robots.txt cuando coincidan con URL indicadas en el sitemap.xml ya que obtendremos un mensaje de alerta.

Otra solución un poco más drástica para sitios con pocas páginas indexadas y con un perfecto control de las páginas publicadas, es añadir de forma permanente en el archivo robots.txt un disallow:/ y luego cada página que queramos que se indexe como allow.
De esta manera no tendremos problemas de errores ni le daremos trabajo extra al robots de Google, y estoy seguro que será agradecido.

Autor: Pol Martinez

Desarrollador Web PHP y apasionado de las metodologías ágiles y los estándares web.

  • Albert Baixench Martin

    Hola Pol, mi web tiene un dominio que anteriormente existía.
    Mi problema es que tengo cientos de errores de rastreo de url del sitio web antiguo y creo que eso me está penalizando en mi posicionamiento.
    Como puedo decirle a google que esas url no existen en mi sito?
    Muchas gracias por tu ayuda.
    El sitio es http://www.eligetuescort.es

  • Sara

    Buenas tardes,

    He leído su entrada y le felicito, espero que me puedan ayudar:

    Incluí una condicional en mi Prestashop para evitar el contenido duplicado (por ordenación de productos dentro de las categorías por precio, de la a – z….) la cosa es que dicho código contenía un espacio y me ha generado urls como las categorías pero con 20%+urldecategoría.
    He quitado el código, y siguen apareciendo dichos errores 404, estas urls no existen en realidad en mi web, por lo que me extraña que sigan apareciendo. ¿Debería realizar redirecciones?

    Muchas gracias.

    • Carlos Darko

      Buenos días Sara,

      Por lo que comentas que te está pasando lo mejor sería como comentas que indicaras en el robots.txt de tu página que esas URL’s no sean tenidas en cuenta. Esto lo puedes hacer fácilmente si realmente todas siguen el mismo patrón como dices con una orden como la siguiente:

      Disallow: /20%*

      Ten en cuenta que ese comando sería correcto en caso que las URL’s sean, por ejemplo:

      http://www.tupaginaweb.com/20%categoria-de-ejemplo/producto3

      Con el * indicamos un comodín, con lo que cualquier URL que incluya ese 20% con algo detrás sería omitida del rastreo de los robots de Google.

      De todas formas, si esto te pasó hace unos días es probable que ya hayan sido indexadas. Compruébalo haciendo un site:tupaginaweb.com en el buscador de Google para ver que URL’s tiene indexadas de tu sitio.

      Si realmente ya han sido indexadas, deberían dejar de estarlo con el tiempo una vez incluido el disallow en el robots.txt, pero si no son demasiadas URL’s y quieres intentar acelerar el proceso, puedes incluirlas una a una en la sección de ‘Eliminación de URL’ en el Google Search Console de tu sitio para decirle al buscador que prefieres que no aparezcan en los resultados de búsqueda.

      Espero haberte ayudado, suerte y un saludo!

      • Sara

        Buenas tardes Carlos,

        Muy bien explicado, no aparen indexadas, es más, dicho código lo quite al día o los dos días de tener los errores, lo raro es que en Webmaster sigan apareciendo errores 404.
        Dichas urls son las urls de las categorías (que estas siguen estando bien) pero con el 20% debido al fallo en el código, las urls del error 404 no existen, lo que no quiere es que perjudique al posicinonamiento.

        Muchas gracias.

Estudiamos y analizamos su negocio en profundidad, definimos objetivos y planteamos la estrategia de marketing más adecuada centrándonos en conseguir cada uno de los objetivos propuestos. Solicita Presupuesto Ahora

Uso de cookies

En este sitio web utilizamos cookies propias y de terceros para mejorar nuestros servicios, para que usted tenga la mejor experiencia de usuario y analizar su visita. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.