КАК ПАРСИТЬ ROBOTS.TXT С ПОМОЩЬЮ GOOGLE DOCS

Как парсить robots.txt с помощью Google Docs?

Использование Google Docs для пакетного парсинга robots.txt

Иногда, для изучения структуры сайта, или проверки настроек безопасности, или ознакомления с не особо видными разделами сайта нам нужно узнать содержимое файла robots.txt, в котором, как известно, прописываются правила сканирования ресурса для поисковых роботов.

И сегодня мы попробуем разобраться с методикой использования Google Docs для пакетного парсинга данных файла

robots.txt с большого количества сайтов. Быстро, просто, и совершенно бесплатно. Кстати, одним из бонусов использования данного метода является то, что обращение к данному файлу на некоторых серверах отслеживается и фиксируется. Мы же заставляем получать данные компанию Google, потому для целевых сайтов данная операция не вызовет никаких подозрений.

Начнем!
1. Создаем таблицу в Google Docs приблизительно такого вида (по клику — картинка увеличивается 😉 ):
google-docs-robots

2. В ячейке В2 вы указываете нужный вам сайт.

3. Ячейка В3 служит для формирования ссылки на файл robots.txt. Для получения данной ссылки используйте конструкцию вида: =CONCATENATE(«http://»;B2;«/robots.txt»). Как видно — оператор CONCATENATE совмещает http:// с данными в ячейке В2, после чего подставляет название файла robots.txt, выдавая в итоге окончательную ссылку. Таким образом, кстати, можно генерировать ссылки на любые файлы — но об этом позднее 🙂

4. Создаем ячейку А5, которую назовем «Содержимое файла robots.txt»:

содержимое-robots-txt

5. В ячейке В5 прописываем формулу типа: =importDATA(B3), которая позволяет получить содержимое файла, расположенного по ссылке, указанной в ячейке В3. Напомню, что в ячейке В3 у нас имеется формула =CONCATENATE(«http://»;B2;«/robots.txt»).

6. Сразу после добавления формулы таблица начинает получать данные. Для чистоты эксперимента я получил данные robots.txt своего сайта, и — сайта Facebook.com — всегда интересно узнать, как и что устроено — верно? 😉 Содержимое представлено на картинке, которая, как всегда — кликабельна 🙂

robots-txt

Увидеть таблицу в полном виде и протестировать ее в рабочем режиме вы сможете по этой ссылке.

С помощью этого механизма можно получить данные огромного количества ресурсов, а уж что делать с ними — решать вам.

Надеюсь, вам понравилось 🙂 Ставьте лайк, делайте репост к себе на страницу и не стесняйтесь задавать вопросы посредством электронной почты.

Support the Blog!

Running a blog takes a lot of effort, time, and passion. Your donations help improve the content, inspire new ideas, and keep the project going.
If you’ve enjoyed the blog’s materials, any support would mean the world to me. Thank you for being here! ❤️

PayPal Logo Donate via PayPal

Revolut Logo Donate via Revolut