Каждый владелец сайта понимает, что уникальный качественный контент это не только залог интереса пользователей, но еще и благосклонность поисковых систем. Очень обидно, когда этот контент зачастую с трудом добытый, иногда и стоящий много денег, попросту кто-то копирует. Резонно возникает вопрос как защитить контент сайта от копирования.

Для начала определимся как такое копирование происходит. В редких случаях кто-то сидит и копирует вручную материалы с вашего веб сайта. Это дела поручают роботам ботам. Вот как раз от них и можно настроить конфигурацию на сервере и защитить сайт от копирования.

Интернет магазины работают на веб сервере, построенном по разным технологиям, это может быть связка nginx+apache или nginx+php-fpm, даже обычный apache. По статистике все же nginx используется в большинстве случаев. Таким образом рассмотрим как защитить сайт от ботов на основе конфигов nginx.

Составляем белый список IP адресов для поисковых систем

Далее пишем конфигурацию, которая будет блокировать ботов и разрешать боты поисковых систем, которые мы определили выше по HTTP/1.1.

блокируем других ботов, который выполняют обращение по HTTP/2.0

Выполняем разрыв соединения если бот обращается по HTTP/1.0, и он не из белого списка

Также выполняем разрыв соединений для различных сканеров и ботов

Для каждого хоста указываем следующее

Данные лимиты устанавливаются индивидуально для каждого сайта

В результате данной конфигурации получаем следующие условия

Если бот обращается по протоколу HTTP/1.0 и его нет в белом списке, то он получит сообщение об ошибке 444 и произойдет разрыв соединения.

Помимо этого есть условие ограничения rate=7r/m, что означает разрешать запросы не чаше 7-ми в минуту. Не перепутайте и не поставьте такое ограничение для картинок, так как загружая страничку, картинок подргужается много и лимит может ограничить это действие.

Так же в случае обращения по протоколу HTTP/2.0 будет выполнятся ограничение с учетом условия не больше 25 запросов в минуту (rate=25r/m).

Все ограничения подбираются индивидуально, исходя из мониторинга и анализа логов работы веб сервера, так же проверки какие адреса попадают в бан.

Команда для проверки логов

Такой анализ необходим для выявления новых сетей ботов поисковиков.

Нужно защитить сервер от ботов обращайтесь [email protected]