16 человек на сундук мертвеца, или как правильно парсить Titles :)

Привет всем! Недавно я описывал программу, написанную с помощью Python и призванную собирать значения (парсить Titles) заголовков сайтов, на основании чего и делается вывод — сайт жив, или уже мертв. И да, программа работает, однако — если вдруг вам нужно собрать данные о 10-20-30 тысячах сайтов, созданных на базе он-лайн конструктора, или блогов, расположенных в одном доменном сегменте — после некоторого количества запросов срабатывает система защиты, и вам приходится начинать все с самого начала. Да, в программу можно ввести случайные паузы, да, скорректированный код можно заставить начинать работу после вынужденной паузы с того же места, где работа кода была остановлена (кстати, оптимизированная версия кода доступна тут), но — все это долго, скучно, и не интересно. Что делать?

Вспоминать свои же записи в своем же блоге 🙂 И — оптимизировать работу, ведь не всегда программирование — это написание кода — иногда это лишь оптимизация процесса с помощью тех или иных технологий.

Google Docs — наш верный помощник! Читаем эту запись, и проверяем хоть миллион сайтов. Никакого программирования, никаких кодов, никаких ожиданий. Все делается за вас 🙂

Все больше думаю о том, что вести блог в том числе для себя — в качестве напоминалок и конспектов — не самая плохая идея.

Спасибо за внимание! В случае возникновения вопросов — пожалуйста, пишите.

Oleksiy Lavrynenko

16 человек на сундук мертвеца, или как правильно парсить Titles :)

Понравилось это:

Похожее