Как парсить robots.txt с помощью Google Docs?

Использование Google Docs для пакетного парсинга robots.txt

Иногда, для изучения структуры сайта, или проверки настроек безопасности, или ознакомления с не особо видными разделами сайта нам нужно узнать содержимое файла robots.txt, в котором, как известно, прописываются правила сканирования ресурса для поисковых роботов.

И сегодня мы попробуем разобраться с методикой использования Google Docs для пакетного парсинга данных файла

robots.txt с большого количества сайтов. Быстро, просто, и совершенно бесплатно. Кстати, одним из бонусов использования данного метода является то, что обращение к данному файлу на некоторых серверах отслеживается и фиксируется. Мы же заставляем получать данные компанию Google, потому для целевых сайтов данная операция не вызовет никаких подозрений.

Начнем!
1. Создаем таблицу в Google Docs приблизительно такого вида (по клику — картинка увеличивается 😉 ):
google-docs-robots

2. В ячейке В2 вы указываете нужный вам сайт.

3. Ячейка В3 служит для формирования ссылки на файл robots.txt. Для получения данной ссылки используйте конструкцию вида: =CONCATENATE(«http://»;B2;«/robots.txt»). Как видно — оператор CONCATENATE совмещает http:// с данными в ячейке В2, после чего подставляет название файла robots.txt, выдавая в итоге окончательную ссылку. Таким образом, кстати, можно генерировать ссылки на любые файлы — но об этом позднее 🙂 

4. Создаем ячейку А5, которую назовем «Содержимое файла robots.txt»:

содержимое-robots-txt

5. В ячейке В5 прописываем формулу типа: =importDATA(B3), которая позволяет получить содержимое файла, расположенного по ссылке, указанной в ячейке В3. Напомню, что в ячейке В3 у нас имеется формула =CONCATENATE(«http://»;B2;«/robots.txt»).

6. Сразу после добавления формулы таблица начинает получать данные. Для чистоты эксперимента я получил данные robots.txt своего сайта, и — сайта Facebook.com — всегда интересно узнать, как и что устроено — верно? 😉 Содержимое представлено на картинке, которая, как всегда — кликабельна 🙂

robots-txt

Увидеть таблицу в полном виде и протестировать ее в рабочем режиме вы сможете по этой ссылке.

С помощью этого механизма можно получить данные огромного количества ресурсов, а уж что делать с ними — решать вам.

Надеюсь, вам понравилось 🙂 Ставьте лайк, делайте репост к себе на страницу и не стесняйтесь задавать вопросы посредством электронной почты.