Contenido Duplicado

Uno de los problemas más comunes que muchas páginas web tienen es el contenido duplicado, aunque a veces no siempre le prestamos la suficiente atención. Es necesario evitarlo para no sufrir las consecuencias en el posicionamiento web de nuestro Site.

Contenido duplicado es aquel bloque de texto que aparece en distintas url´s, de forma repetida bien en forma de copia íntegra o con una ligera modificación, y que en caso de los spammer se ha adjudicado la autoría sin ni siquiera nombrar o enlazar la fuente original. También se considera contenido duplicado a nivel interno SEO en una web, cuando etiquetas como título de página o la metadescripción son idénticas. Google así como cualquier de los demás buscadores penaliza contenidos duplicados, no indexándolos o restándoles puntuación en el ranking de posicionamiento web.

En Wikipedia no aparece como tal término, quizás a nadie nos ha dado por escribir el significado y las consecuencias de tales prácticas a nivel SEO. A lo mejor es una oportunidad para estrenarnos en wikipedia.

¿Por qué es importante conocer el contenido duplicado?

Cuando queremos encontrar información en un buscador, no nos gusta encontrar en los resultados distintas web con el mismo contenido. Para evitar contenidos duplicados, los buscadores, usan sus famosos algoritmos e intentan averiguar cuál es el contenido original y cuáles son las copias, dando relevancia (en teoría) al contenido original, y no a las copias. Si Google ha indexado la copia antes y no el original, éste último perdería posiciones en los buscadores.

De momento, los buscadores no avisan a los duplicadores de contenido que están haciendo mala praxis, ni al autor del contenido de que se lo están copiando. El proceso es totalmente transparente y sólo nos daremos cuenta como autores si lo buscamos a propósito, o rara vez si lo encontramos por casualidad. Tanto Google, Yahoo y Bing no penalizan el hecho de copiar contenido, simplemente no lo muestra.

En muchas ocasiones, en la mayoría diría yo, somos nosotros mismos quien sin saberlo o no dándole importancia creamos el contenido duplicado, esto ocurre muy a menudo en los e-commerce, cuando un mismo artículo aparece en distintas url´s con el mismo contenido, o cuando copiamos la misma descripción del fabricante.

El buscador no sabe, si no se le indicamos lo contrario, cual de las páginas es la principal cual es la que queremos que vea el usuario y muestra una con menor importancia a nuestro criterio y no la página con más relevancia.

En el momento de la indexación por parte del buscador, no presta la misma atención a las páginas duplicadas con lo que no lo hará o lo hará más deficientemente.

Lo peor que nos puede pasar es que el buscador atribuya el contenido duplicado al spammer que lo copió y a ti que realmente eres el autor te tache de spammer, nos es que pase muy a menudo pero pasa.

Los enlaces externos apuntando al contenido duplicado de tu propio site o de la copia de un spammer restan importancia a tu contenido original ya que estos deberían sumar fuerzas a una única página.

¿Cuáles son las causas más comunes del contenido duplicado?

  • Es típico en los blog tener contenido duplicado al utilizar las categorías y las etiquetas, muchos autores no las utilizan por este mismo motivo, al utilizarlas cambia la url, y para los buscadores son páginas distintas con el contenido idéntico.

contenido duplicado Herramientas posicionamiento web Orientadorweb

  • Como comentaba anteriormente en los e-commerce se utilizan las encriptaciones SSL por motivos de seguridad de cara al comprador, sin querer podemos tener la misma página con contenido idéntico una con “http://” y otra con “https://
  • Tu site puede funcionar y así debería de ser, tanto con www como sin ellas. Si no indicamos a través de la canonalización cual es la que queremos que indexe crearemos contenido duplicado.
  • Otros sites utilizan distintas sesiones de usuario añadiendo algún parámetro a la url, con lo que tendremos url´s distintas con el mismo contenido.
  • Otro problema lo encontramos en los sitios que utilizan paginación sin cambiar el título ni la meta descripción.
  • En los sindicadores RSS, el problema sobreviene cuando no publican sólo el título y un enlace, sino que copian el contenido completo.
  • También podemos encontrarnos según el contenido que escribamos, con software de copiado automático que plagia literalmente todo el contenido y lo pega en otro site, técnica conocida como scraping (cada vez más perseguido por los buscadores).
  • Algunos deben pesar: “En internet todo es gratis”, cuando copian contenido ajeno sin adecuarse a la condiciones de la licencia de uso del sitio copiado.

¿Cómo evitamos duplicado?

Cuando el contenido duplicado no es intencionado podemos aplicar algunas reglas para intentar minimizar este problema:

  • Utilizar redireccionamientos 301, si has cambiado de hosting o simplemente reestructurado tu sitio utiliza el redireccionamiento 301 para indicar a las arañas de los buscadores que indexar, así como a tus usuarios. Impleméntalo en el fichero .htacces  si tu hosting utiliza apache.[/fusion_li_item]
  • No repitas la Url, no crees una página como https://www.orientadorweb.com/blog, otra https://www.orientadorweb/blog/ o https://www.orientadorweb.com/blog/index.html.

  • Utiliza Rel Canonical– La etiqueta “rel=canonical” se ideó precisamente para tratar este problema, por lo que es la mejor solución. Consiste en una línea de código dentro de la sección <head> del código HTML de la página, la cual le dice al buscador qué versión de la página es la original y la que queremos que el buscador  muestre en los resultados de búsqueda. Al utilizarla podemos cometer errores, te dejo un enlace de Googlewebmaster para que los evites y aprendas a cómo utilizarla sin miedo a equivocarte.

  • Dominios de Nivel Superior, siempre que sea posible es conveniente utilizar dominios de nivel superior por ejemplo https://www.orientadorweb.com y no https://www.orientadorweb.com.

  • Distribución del contenido, cuando distribuyas el contenido en otros medios o redes sociales, asegúrate que este contenido incluya enlaces al contenido original. No copies contenidos íntegros.
  • Con Google webmaster tool podemos informar de cómo queremos que se indexe nuestro sitio como https://www.orientadorweb.com o https://orientadorweb.com.
  • Repetición de expresiones, si al final de tu contenido siempre haces alusiones por ejemplo a los derechos de autor , lo incluyas el texto completo pon mejor un enlace y un breve resumen al texto completo.

  • No publiques borradores, si estás diseñando nuevas páginas, borradores de páginas, ejemplos o pruebas, acuérdate de marcarlas como no index para que los buscadores no la indexen y de lugar a contenido duplicado o de mala calidad.[/fusion_li_item]
  • Conoce el sistema de administración de contenido: asegúrate de conocer la forma en que se muestra el contenido de tu sitio web. Los blogs, foros y sistemas relacionados muestran con frecuencia el mismo contenido en distintos formatos. Por ejemplo, la entrada de un blog puede aparecer en su página principal, en una página de archivo y en una página con otras entradas bajo la misma etiqueta. Utiliza la canonización o la meta no index para no obtener contenido duplicado.

  • No utilices el mismo título o descripción para varias páginas, aunque la url sea distinta, modifica aunque sea ligeramente el título y la meta descripción.[/fusion_li_item]
  • Reduce el contenido similar: si tienes muchas páginas similares, considera la posibilidad de ampliar cada página o agruparlas en una sola.[/fusion_li_item]
  • Cuando construyas el Sitemaps incluye en él, sólo las páginas canónicas, mejorarás la indexación de las páginas.

  • Cuando utilices una cita de otro sitio para añadir más valor a tu contenido nunca olvides incluir el autor de tal cita y poner un enlace al contenido original.[/fusion_li_item]
  •  No bloquees el contenido, para la mayoría de los buscadores no es bueno que bloquees en demasía el contenido, ya sea por robots.txt u otros métodos (aunque sea duplicado) ya que no sabrán que contenido es y si este es duplicado o no, tratándolas como páginas únicas; es mejor utilizar “noindex” o redirecciones 301 .

     

A priori el contenido duplicado, a menos que su intención sea engañar o manipular los resultados de búsqueda, no es un gran problema para los buscadores, ellos elegirán cual de todos los contenidos es el mejor a posicionar.

Si la intención de duplicar contenidos es manipular, debes de dejar esa mala práctica, ya que los buscadores te pueden excluir de sus resultados; reestructura tu Site, y una vez descartadas estas intencionalidades  debes enviar a Google, si es tu caso, una solicitud de reconsideración.   

Aquí te pongo un enlace para que puedas ver cuales son las directrices de Google para que tu site pueda ser rastreado e indexado por Google con la mayor eficacia.

 

Contar con contenido duplicado en nuestra web dificulta el posicionamiento en los resultados de búsqueda

En algunas ocasiones, Google pueden seleccionar una URL de un sitio externo que aloje tu contenido sin tu permiso. Si consideras que otro sitio está duplicando tu contenido infringiendo de esta forma la ley de derechos de autor, primero deberías de ponerte en contacto vía email con el webmaster de la web, normalmente la eliminará sin problemas; si no atiende a razones, puedes ponerte en contacto con el hosting del sitio para solicitar la eliminación del contenido. Si ninguna de las opciones anteriores te d ha resultado, puedes solicitar que Google elimine la página infractora de los resultados de búsqueda presentando una solicitud.

Cómo encontrar contenido duplicado en una web. Herramientas

El primer paso sería distinguir entre contenido duplicado en la propia web y contenido duplicado externo por copia legal o ilegal y/o difusión. Existen multitud de herramientas que nos pueden ayudar a detectar uno u otro contenido duplicado, presentamos aquí algunas de ellas.

Contenido duplicado desde una Site Externa

Copyscape

Herramienta online gratuita que detecta si la página introducida ha sido plagiada. Tiene una versión Premium (pago por adelantado por cada búsqueda realizada) con características más avanzadas como la posibilidad de introducir un párrafo de tu página en vez de la url, búsqueda por lotes (varias páginas o toda la web hasta un límite de 10.000 páginas en una sola operación, etc.

Copyscape cuenta también con otro servicio adicional de pago más profesional, copysentry que se encarga se escanear tu página diariamente o semanalmente y te envía un email cuando alguna URL externa ha copiado tu contenido.

orientadorweb copyscape contenido duplicado

Plagium

Herramienta online gratuita similar a la anterior. La versión gratuita permite buscar contenido duplicado en un texto de hasta 25.000 caracteres.

Contenido duplicado en nuestra Propia Site

Google Webmaster Tools

Herramienta gratuita de Google para monitorizar tu web, entre otras funciones detecta contenido duplicado dentro de tu propia web. Sólo tienes que hacer clic en tu cuenta, y abrir el menú de “Aspecto de la búsqueda” situado en el lateral derecho, para luego cliquear en “Mejoras de HTML”. Aparecerá un listado con las duplicidades encontradas:  etiquetas de Títulos duplicadas.

contenido duplicado Google Master tools  orientadorweb

Screaming Frog

Potente herramienta SEO gratis de escritorio (cuenta con versión Premium para más datos), que detecta contenidos duplicados en etiquetas dentro de tu página. Funciona a través de pestañas y filtros. Para detectar contenidos duplicados aplicar filtro “Duplicate” y elegir las pestañas “Page Titles”, “Meta Description” y “H1”. Después exporta los datos que te interesen a formato Excel (CSV)

Advanced Web Ranking

Herramienta SEO que puedes instalar también en tu escritorio, y realizar una Auditoria SEO para encontrar contenidos duplicados. Los resultados puedes exportalos a .CSV. Cuenta con una versión de prueba de 30 días, si adquieres la herramienta el importe a pagar es único y la licencia de por vida.

[dropcap]C[/fusion_dropcap]uida que tu página web no presente contenidos duplicados que puedan perjudicar el ranking de tus páginas en los buscadores. ¿Qué herramientas te han sido más útiles?

Safe Creative #1403070314104