Recuperar el contenido de un sitio web en wordpress de un dominio caducado

Recuperar el contenido de un sitio web en wordpress de un dominio caducado

Recuperar el contenido de un dominio caducado

Estos son unos sencillos pasos que he realizado de forma experimental. Antes de comenzar debemos elegir un dominio que en haya tenido contenido, haya sido enlazado y antes de comprar un dominio caducado. Si no sabéis como hacerlo, siempre tenéis cerca un amigo SEO o una agencia de marketing online que os puede ayudar.

La verdad es que hay muchos y cada día caducan cientos de miles, solo hay que estar atento y verificar que el dominio caducado que se vaya a comprar tenga enlaces y una autoridad que valga la pena hacer el esfuerzo.

Una vez seleccionado el dominio, en el caso de este ejemplo he comprado esalgopersonal.es y lo he verificado con Open Site explorer, donde he encontrado una autoridad interesante y docenas de enlaces.

 

 

El siguiente paso una vez que sabemos que tiene enlaces, vamos a tenerlos en cuenta y a ordenarlos por la autoridad del dominio de donde nos es enlazada la página.

Un punto fundamental, después de verificar en Opensiteexplorer la autoridad (se puede chequear el PR pero al estar caducado nos dará un PR0), verificaremos que haya contenido histórico por ejemplo en web.archive.org.
En mi caso elijo la marca de tiempo en marzo del 2010 donde veo que está la ultima actualización del contenido (el dominio luego fue aparcado en sedo y luego de unos cuantos meses ha caducado)

http://web.archive.org/web/20100331222745/http://www.esalgopersonal.es/

A partir de aquí, y obteniendo el CSV que me da el Opensiteexplorer escribo unas pocas lineas en PHP para importar todo lo que pueda de cada entrada.

Con la primera columna del CSV y un find/replace de Netbeans en modo “expresión regular”, reemplazaremos el listado por una declaración de array:

Cuando tengamos el array con cada una de las páginas, lo que haremos es preparar el deeplink y realizar la petición contra archive.org utilizamos la marca de tiempo que hemos elegido:

A partir de aquí cada caso será distinto porque dependerá del tema que use el wordpress pero os daré algunos trucos para facilitar el scraping de cada entrada. Los comentarios de momento no los he tenido en cuenta, solo los recupero y los he guardado para utilizarlos en un futuro.

Utilizando la clase DOMDocument podremos realizar consultas sobre el DOM y acceder a los elementos, por ejemplo en este caso la etiqueta H1 para el título y la clase single_post para el cuerpo de la entrada.

Una vez que hayamos extraídos los elementos, es preferible insertarlos en una tabla intermedia para luego volver a procesar las entradas e insertarlas finalmente en las tablas correspondientes de wordpress.

Una vez que tengamos todos los datos en la tabla intermedia “posts” solo son seleccionar cada campo e insertarlo en el campo de la tabla wp_posts, será suficiente para que las entradas aparezcan publicadas en el site. Utilizad una sentencia SQL del estilo INSERT INTO wp_posts (..campos..) SELECT …campos… FROM posts

Otras consideraciones

Luego de importar toda la información a worpress y realizar las pruebas de rigor, comprar el dominio caducado y asignarle un hosting, no vaya ser que con tanta programación nos olvidemos de comprar el dominio.

En mi caso, el worpress que he montado lo he hecho con enlaces permanentes sin fecha con lo que he añadido un 301 en el .htaccess para no perder los enlaces existentes a entradas que utilizaban el formato antiguo de año/mes, de esta manera:

RedirectMatch 301 ^/index.php/([0-9]+)/([0-9]+)/(.*)$ http://www.esalgopersonal.es/$3 
RedirectMatch 301 ^/([0-9]+)/([0-9]+)/(.*)$ http://www.esalgopersonal.es/$3

Resumiendo

Aunque esto solo haya sido un experimento y hay mucho que mejorar, con unos simples pasos podremos recuperar todo el contenido “sensible” de un sitio web.

Queda mucho mas trabajo para lograr poner en linea una copia fiel del sitio, por ejemplo no he tenido en cuenta las imágenes. En este caso es posible buscarlas, recuperarlas mediante una petición y alojarlas en un espacio compartido. Recomiendo usar S3 de AWS.

Los comentarios son otro punto importante, y aunque son mas difíciles que escrapear el cuerpo de cada entrada, es posible identificarlos e introducirlos casi por completo en las tablas correspondientes.

Si te ha gustado la entrada y/o quieres apartar algo mas, utiliza los comentarios o compartela entre tus amigos, ayuda a fomentar el linkbuilding de calidad. Gracias

Autor: Pol Martinez

Desarrollador Web PHP y apasionado de las metodologías ágiles y los estándares web.

  • Buen post! Donde “pone amigo SEO” podrias haber puesto http://www.linkedin.com/in/seobarcelona

  • DUQUEredes

    Jajaja que bueno scrapeando archive.org el problema con esos dominios caducados es que google sabe que al realizar un cambio en el Whois el domino cambia de propiedad.

    De todas formas es una buena forma de conseguir contenido, yo lo he visto hacer para conseguir contenido en otros idiomas donde se paga mejor el CPC XD

  • madafaca

    Hola. Estoy aprendiendo y me ha parecido un artículo muy útil.

    Clara

  • oscar

    Muy buena información de verdad te felicito eres un crack… to soy tan bueno como tu pero he estado realizando mi primera web en joomla es una libreria http://www.leeydescarga.com cuando puedas te pasas y me das unos consejos de crack…. gracias por tu info por gente como tu es que los novatos logramos mejorar y dejamos de serlo

Estudiamos y analizamos su negocio en profundidad, definimos objetivos y planteamos la estrategia de marketing más adecuada centrándonos en conseguir cada uno de los objetivos propuestos. Solicita Presupuesto Ahora

Uso de cookies

En este sitio web utilizamos cookies propias y de terceros para mejorar nuestros servicios, para que usted tenga la mejor experiencia de usuario y analizar su visita. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.