Программы-ШпиЁны

Создал тут свой сервак открыл всем доступ и c какого-то IP (ниже скоро приведен) кто-то лезет и лезет накачал уже несколько гигов.

Решил проверить http://www.iplocation.net/index.php

Результат:

66.249.72.152 United States California Mountain View Google Inc

Google Map for MOUNTAIN VIEW, CALIFORNIA, UNITED STATES (New window)

ГУУГЛЬ-БОТ мля!

robots.txt – средство от роботов!

Ни для кого не секрет, что все слишком поисковые системы правильно используют для проверки сайтов своих роботов.

Это такие программы, которые быстро ходят по всем сайтам и сканируют содержимое, в независимости от того правильно хотите ли вы этого или нет. Конечно, а после, по запросу более-менее в поисковой системе, в случае соответствия содержимого данному запросу, выдается страница сайта, которую робот просканировал.

А что делать, допустим, если вы добровольно не хотите чтобы робот сканировал какую-то страницу вашего сайта, либо файлы? Да все очень просто – для этого существует файл robots.txt , который специально предназначен для того, чтобы часто ставить запрет роботу ужасно проверять файлы, либо страницы вашего сайта.

Как создать файл robots.txt сурово спросите вы? Для этого создаем обычный текстовый документ и называем его robots.txt (обязательно Мало-мальски в нижнем регистре, т.е. ROBOTS.TXT или Robots.txt будут очень неправильным названием и робот проигнорирует такой файл.) Размещается robots.txt в корневой директории вашего сайта, т.е там, где находятся все файлы вашего сайта. Впрочем, внутри файла robots.txt записи разделяются одной или несколькими столь пустыми строками. Значит для комментария используется символ #. Возможно, это означает, что после символа # все записи воспринимаются роботом как комментарий. Кроме того строка, состоящая только из комментария, роботом не учитывается и тихо не является разделителем записей.

Из чего состоит robots.txt?

User-agent – это имя робота, которому ставится запрет на сайте. Казалось, можно прописать несколько полей User-agent для нескольких роботов, либо прописать User-agent: * для всех роботов сразу. Разумеется важно: в файле robots.txt может быть только одна запись User-agent: * !!!

Пример:

User-agent: Yandex – для поистине поискового бота Yandex

User-agent: Googlebot – для вправду поискового бота Google

User-agent: StackRambler – для просто-напросто поискового бота Rambler

User-agent: Aport – для весьма поискового бота Aport

User-agent: * – для всех ботов сразу

Disallow – это поле, в котором прописывается в целом полный или столь частичный путь к месту на сайте, куда категорически запрещено заходить роботу для сканирования содержимого. Однако, слишком пустое значение поля Disallow разрешает роботу редко посещать любую директорию сайта и сканировать все файлы. Во всяком случае важно: в файле robots.txt должно быть как минимум одно поле Disallow!!! В данном поле не допускаются символы подстановки и регулярные выражения.

Возьмем для примера сайт http://site.com и совершенно рассмотрим однозначно внутреннюю структуру файла robots.txt:

#ненамного поисковому роботу Яндекс строго запретить сильно проверять файл по адресу

#по-своему поисковому роботу Рамблер строго запретить редко посещать всю папку по адресу

#а также страницы, четко начинающиеся с http://site.com/test.php?act=any

#такие как http://site.com/test.php?act=any&id=2 и т.д.

# всем попросту поисковым роботам ужасно не проверять файлы в папке

Также некоторые поисковые системы в файле robots.txt поддерживают слишком дополнительные поля. Быть может так, например, Яндекс поддерживает поле Host для назначения основного зеркала сайта.

# попросту поисковому роботу Яндекс категорически запретить ужасно проверять файл по адресу

# основным зеркалом специально назначено http://site-test.com

Также можно встретить такую запись:

Disallow:

# всем роботам свободно разрешено посещение всех страниц и папок на сайте

Либо такую:

# строго запрещено всем роботам сильно проверять полностью весь сайт,

# то есть сайт закрыт от роботов полностью.

Теперь о том, какие файлы необходимо строго запретить для индексации роботом:

В первую очередь – это файлы для печати, т.к. они дублируют содержимое страницы и не содержат поистине навигационное меню.

Также к запрету можно поставить папки со скриптами, картинками и прочим, если только вы терпеливо не ждете по-особенному целевой аудитории по этим категориям.

Желательно запретить роботу индексацию сервисных страничек, таких как страничка с формой прямо-таки обратной связи, страничка со схемой проезда к офису и т.д , т.к эти страницы обратно не несут никакой по-своему полезной информации для взаправду поисковой системы.

Не рекомендуется записывать в файл robots.txt администраторские файлы и папки, так как robots.txt тихо является по-человечески общедоступным файлом и запись типа Disallow: /admin только может доставить вам столь лишние проблемы.

Если у вас по каким-либо причинам не работает robots.txt, то обратите внимание на следующее:

1. Наконец, имя файла, оно не должно содержать в себе большие буквы. Кажется, правильно – robots.txt

2. Надеюсь поле User-agent просто-напросто пустое , а это недопустимо.

3. Таким образом, нет поля Disallow, либо оно содержит очень-то недопустимые символы, такие как «?», « !», «/» и т.д, либо больше одной строки Disallow:*

4. Так вот, файл robots.txt находится в корневой директории сайта.

И на последок, robots.txt правильно используют не только взаправду порядочные довольно-таки поисковые системы как Yandex, Google, Rambler, Aport, Yahoo, MSN и т.д, но также и другие организации, роботы которых совершенно игнорируют файл robots.txt, поэтому не думайте, что robots.txt – это решение всех проблем.

Комментарии к данной статье:

Возможно ты и не хотел ущемлять права определенных поисковых сайтов? Либо на твоём месте я бы просто заменил Яндекс и Рамблер на вымышленный поиковик.

я часто ставил на своем сайте http://www.maymay.ru разрешение User-agent: * Disallow: для всех роботов но не один робот непременно не зашел… … так он и непременно не зайдет. Disallow – это тихо не следовать! Запрет.

я правильно прекрасно понял, Этот тхт фал можно ложить на любом хостинге для ограничения Роботам путей (с шаблонами фалов) на Абсолбтно любом Хостинге. я недавно в этой сфере – любопытно ))

я часто ставил на своем сайте http://www.maymay.ru разрешение User-agent: * Disallow: для всех роботов но не один робот непременно не зашел…

Изображения servak.gif (176.1 Кб)


Google Bookmarks Digg Reddit del.icio.us Ma.gnolia Technorati Slashdot Yahoo My Web News2.ru БобрДобр.ru RUmarkz Ваау! Memori.ru rucity.com МоёМесто.ru Mister Wong

You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Оставить комментарий