Estos son unos sencillos pasos que he realizado de forma experimental. Antes comprar un dominio caducado debemos elegir un dominio que en haya tenido contenido y que haya sido enlazado. Si no sabéis como hacerlo, siempre tenéis cerca un amigo SEO o una agencia de marketing online que os puede ayudar.
La verdad es que hay muchos y cada día caducan cientos de miles, solo hay que estar atento y verificar que el dominio caducado que se vaya a comprar tenga enlaces y una autoridad que valga la pena hacer el esfuerzo.
Una vez seleccionado el dominio, en el caso de este ejemplo he comprado esalgopersonal.es y lo he verificado con Open Site explorer, donde he encontrado una autoridad interesante y docenas de enlaces.
El siguiente paso una vez que sabemos que tiene enlaces, vamos a tenerlos en cuenta y a ordenarlos por la autoridad del dominio de donde nos es enlazada la página.
Un punto fundamental, después de verificar en Opensiteexplorer la autoridad (se puede chequear el PR pero al estar caducado nos dará un PR0), verificaremos que haya contenido histórico por ejemplo en web.archive.org.
En mi caso elijo la marca de tiempo en marzo del 2010 donde veo que está la ultima actualización del contenido (el dominio luego fue aparcado en sedo y luego de unos cuantos meses ha caducado)
http://web.archive.org/web/20100331222745/http://www.esalgopersonal.es/
A partir de aquí, y obteniendo el CSV que me da el Opensiteexplorer escribo unas pocas lineas en PHP para importar todo lo que pueda de cada entrada.
Con la primera columna del CSV y un find/replace de Netbeans en modo “expresión regular”, reemplazaremos el listado por una declaración de array:
Cuando tengamos el array con cada una de las páginas, lo que haremos es preparar el deeplink y realizar la petición contra archive.org utilizamos la marca de tiempo que hemos elegido:
A partir de aquí cada caso será distinto porque dependerá del tema que use el wordpress pero os daré algunos trucos para facilitar el scraping de cada entrada. Los comentarios de momento no los he tenido en cuenta, solo los recupero y los he guardado para utilizarlos en un futuro.
Utilizando la clase DOMDocument podremos realizar consultas sobre el DOM y acceder a los elementos, por ejemplo en este caso la etiqueta H1 para el título y la clase single_post para el cuerpo de la entrada.
Una vez que hayamos extraídos los elementos, es preferible insertarlos en una tabla intermedia para luego volver a procesar las entradas e insertarlas finalmente en las tablas correspondientes de wordpress.
Una vez que tengamos todos los datos en la tabla intermedia “posts” solo son seleccionar cada campo e insertarlo en el campo de la tabla wp_posts, será suficiente para que las entradas aparezcan publicadas en el site. Utilizad una sentencia SQL del estilo INSERT INTO wp_posts (..campos..) SELECT …campos… FROM posts
Otras consideraciones
Luego de importar toda la información a worpress y realizar las pruebas de rigor, comprar el dominio caducado y asignarle un hosting, no vaya ser que con tanta programación nos olvidemos de comprar el dominio.
En mi caso, el worpress que he montado lo he hecho con enlaces permanentes sin fecha con lo que he añadido un 301 en el .htaccess para no perder los enlaces existentes a entradas que utilizaban el formato antiguo de año/mes, de esta manera:
RedirectMatch 301 ^/index.php/([0-9]+)/([0-9]+)/(.*)$ http://www.esalgopersonal.es/$3 RedirectMatch 301 ^/([0-9]+)/([0-9]+)/(.*)$ http://www.esalgopersonal.es/$3
Resumiendo
Aunque esto solo haya sido un experimento y hay mucho que mejorar, con unos simples pasos podremos recuperar todo el contenido “sensible” de un sitio web.
Queda mucho mas trabajo para lograr poner en linea una copia fiel del sitio, por ejemplo no he tenido en cuenta las imágenes. En este caso es posible buscarlas, recuperarlas mediante una petición y alojarlas en un espacio compartido. Recomiendo usar S3 de AWS.
Si te ha gustado la entrada y/o quieres apartar algo mas, utiliza los comentarios o compartela entre tus amigos, ayuda a fomentar el linkbuilding de calidad. Gracias
- Ortodoncia Barcelona: La guerra del SEO - 20/11/2023
- Cómo aumentar la visibilidad de tu sitio web y atraer más clientes a tu tienda online - 24/06/2022
- Controlemos nuestra Reputación Online - 28/02/2022
Buen post! Donde “pone amigo SEO” podrias haber puesto http://www.linkedin.com/in/seobarcelona
Jajaja que bueno scrapeando archive.org el problema con esos dominios caducados es que google sabe que al realizar un cambio en el Whois el domino cambia de propiedad.
De todas formas es una buena forma de conseguir contenido, yo lo he visto hacer para conseguir contenido en otros idiomas donde se paga mejor el CPC XD
Hola. Estoy aprendiendo y me ha parecido un artículo muy útil.
Clara
Muy buena información de verdad te felicito eres un crack… to soy tan bueno como tu pero he estado realizando mi primera web en joomla es una libreria cuando puedas te pasas y me das unos consejos de crack…. gracias por tu info por gente como tu es que los novatos logramos mejorar y dejamos de serlo
Para restaurar un sitio web desde el Archivo web archive.org puede probar este servicio – https://es.archivarix.com/
Hola,
Quiero recuperar o lograr entrar al administrador de mi sitio web creado en wordpress, el dominio se venció. Es posible hacer este ingreso o es necesario adquirir nuevamente el dominio?. No me interesa tener nuevamente este dominio que ya se venció. La informacion del administrador es la que si quiero tener.
Gracias por su respuesta
Buenas tardes,
Información valiosa donde las haya. Estoy buscando algún dominio caducado para “experimentar” y probar “cosas de SEO” pero tengo dudas y me gustaría que me dieras tu opinión o si sabes que se puede hacer. Es la siguiente:
– Si recuperas todos los contenidos de una web y los usas en ese mismo dominio, ¿es legal? ¿tienen derechos de autor? ¿Google puede interpretarlo como duplicado o contenido no original? ¿o es factible, incluso bueno, reutilizar todos esos contenidos ya que ahorran tiempo el no empezar de nuevo? Todo esto evidentemente es por no caer en ningún tipo de penalización por parte de Google.
– Por otro lado, estaba mirando como todos esos enlaces entrantes a dicha web no se pierdan hacer las redirecciones 301, con el código que indicas, ¿todos los enlaces que van a esas url que ya no existen, irían al inicio de nuestra web?
Espero no haber preguntado demasiado, mil gracias por adelantado!!
Saludos.
Hola Roberto, no sabría decirte con total seguridad si es legal ya que no soy abogado pero yo entiendo que no pasa nada. La persona escribió en su día un contenido y ahora lo ha rechazado, no creo que nadie emprenda acciones legales por eso.
Google lo considera contenido duplicado si dicho contenido sigue indexado. Copia una frase y ponla en el buscador entre comillas. Si no aparece en el índice de Google, es que ese contenido ya desapareció totalmente del buscador.
Sí, podrías reutilizar esos contenidos si la temática de la web coincide con dicho contenido.
En cuanto a tu última pregunta, no sabría responderte con seguridad ya que no soy el autor del post, ni tampoco soy programador.
Espero haberte ayudado.
Hola Daniel,
Muchas gracias por tu respuesta! Yo también pienso lo mismo, que si es un texto que ya no está en una web pública no puede haber ninguna cláusula que diga que no se pueden utilizar (como en las páginas de Aviso Legal, Privacidad, etc)
Saludos!
me gustaria que este post se realizara en un video para tener una vizualizacion mejor y captar la idea