Защищаем контент — поиск дубликатов

Продолжаю цикл статей о защите контента. Предыдущий пост.

Чтобы снизить ущерб от растаскивания контента с вашего сайта, нужно время от времени (как часто, зависит от посещаемости вашего сайта и объёма контента на нём) проверять факт копирования материалов вашего сайта и принимать какие-то меры. В этом посте — как искать дубликаты.

Для начала составляем список всех уникальных статей вашего сайта. Затем по порядку для каждой статьи поверяем наличие копий. Проверку можно проводить разными методами. Самый простой, не требующий наличия никаких дополнительных программ и инструментов, состоит в следующем. Берём уникальную достаточно длинную фразу из статьи (не менее 4-5 слов) и ищем в Яндексе. Имейте в виду, что желательно брать куски, не содержащие внутри себя точек, восклицательных знаков и др. символов, по которым Яндекс разделяет текст на пассажи. После чего проверяем сайты, найденные по этой фразе, у которых в сниппете она подсвечивается целиком, и выписываем url тех, которые скопировали вашу статью. Затем жмём внизу на ссылки после слов «в других поисковых системах:» и аналогично смотрим результаты в других ПС. Для надёжности при этом методе желательно при проверке брать не одну фразу из статьи, а несколько, из разных частей текста.

Иногда бывает, что вы не видите в выдаче ни вашей статьи, ни её клонов, хотя страница со статьёй в индексе. Причина этого может быть в следующем. Если речь идёт о Гугле, то ваша страница попала в дополнительный индекс (supplemental results). Для вывода её оттуда можно поставить несколько ссылок на данную страницу. Если речь идёт о Яндексе, то, скорее всего, причина в наличии частичных дубликатов, когда, например, некто скопировал вашу статью, подвергнув её автоматической уникализации. Такие копии стоит поискать, выбирая другие фразы из других мест текста и вбивая в Яндекс.

Ручную проверку я рекомендую проводить в любом случае, как минимум, для Яндекса и Гугла, хотя бы для того, чтобы определить случаи, когда на первом месте в выдаче не ваша оригинальная статья, а копия — на такие копии следует обратить первостепенное внимание. Но, конечно, ручная проверка будет отнимать много времени. Для ускорения процесса поиска копий можно использовать специальные сервисы или программы. Самый известный, наверно, сервис для поиска дубликатов — copyscape.com. Проблема лишь в том, что он платный. Существуют и бесплатные сервисы и программы. К сожалению, не все они хороши и отнюдь не всегда находят копии контента. Одним из лучших бесплатных инструментов является программа Advego Plagiatus, которую можно бесплатно скачать с сайта Адвего. Эту программу можно использовать для поиска дубликатов, скопировав в неё текст статьи и запустив в режиме «глубокая проверка». При этом в настройках «порог совпадений для завершения» должен быть выставлен в ноль.

Читать дальше.

Похожие посты:

  1. Почему нужно защищать контент
  2. Защищаем контент от копирования — профилактика
  3. Защита контента от копирования — принимаем меры
  4. Как не попасть под АГС
  5. Новые правила регистрации доменов в зоне ру

Опубликовано 23.01.2011 в 17:45. В рубриках: контент, Развитие сайта. Вы можете следить за ответами к этой записи через RSS 2.0. Вы можете оставить свой отзыв или трекбек со своего сайта.
Метки: ,

Отзывов (4) на «Защищаем контент — поиск дубликатов»

  1. SEO-эксперименты » Архив блога » Защищаем контент от копирования – профилактика пишет:

    [...] ссылками « Почему нужно защищать контент Защищаем контент – поиск дубликатов [...]

  2. SEO-эксперименты » Архив блога » Защита контента от копирования – принимаем меры пишет:

    [...] обмен ссылками « Защищаем контент – поиск дубликатов [...]

  3. Александр Компанеец пишет:

    Я веду учет копий своих статей с помощью сервиса ReplicationExpert.com.
    Он хранит и обрновляет все данные о копиях моих статей и статей наших журналистов.

  4. Макс пишет:

    Для поиска дубликатов внутри сайта посоветую использовать сервис Saitreport.ru, очень удобно.. массово проверяет дубликаты на всех страницах сайта.

Оставьте свой комментарий