Архив метки: аналитика

Как парсить robots.txt с помощью Google Docs?

Использование Google Docs для пакетного парсинга robots.txt

Иногда, для изучения структуры сайта, или проверки настроек безопасности, или ознакомления с не особо видными разделами сайта нам нужно узнать содержимое файла robots.txt, в котором, как известно, прописываются правила сканирования ресурса для поисковых роботов.

И сегодня мы попробуем разобраться с методикой использования Google Docs для пакетного парсинга данных файла Читать далее Как парсить robots.txt с помощью Google Docs?

А у меня тут к продаже неспешными темпами образовался домен:

http://radiorus.net/

Почти два года использовался радиостанцией «Северный маяк», вещающей из Израиля. Принадлежит мне, продается по причине задолженности мне владельцами станции. В принципе, если бы не задолженность — я бы и не занимался подобными вещами, но деньги любят счет, и потому — если кому интересно — обращайтесь: oleksiy@lavrynenko.com ! О цене — договоримся.

Автоматизированное распознавание простой капчи с помощью Google Docs

По роду деятельности не часто, но сталкиваюсь с капчами. Из-за больших объемов работы многие процессы автоматизированы, среди которых и распознавание капчи — эта стадия осуществляется с помощью сервиса Antigate, который достаточно стабильно работает, и отличается низкой ценой.
Однако на днях попалась интересная новость (ну как новость — с опозданием на пару месяцев) о том, что сервис Google Docs распознает текст, который загоняется на сервис с виде картинок или pdf-документов. Сразу же возникла мысль использования ресурсов Google автоматизированного для распознавания капчи.
Алгоритм работы, осуществляемый в режиме он-лайн в браузере представляется следующим:

1. В процессе работы наталкиваемся на капчу
2. Получаем капчу в виде графического файла с расширением, которое поддерживается сервисом Google Docs. В настоящее время это форматы .jpg, .png, .gif размером не более 2-х мегабайт. Учитывая, что речь идет о капче — лимит размера загружаемой картинки нас не особо волнует.
3. Открываем новую вкладку
3. В ней загружаем картинку на сервис
4. Открываем картинку в виде текстового файла внутри сервиса
5. Получаем данные в виде готового текста
6. Закрываем вкладку с распознанной капчей
7. Используем результат распознавания в работе

Понятно, что данный алгоритм можно зациклить. Так же понятно, что для оптимизации работы наиболее правильным методом сохранения данных является использование одного и того же имени файла — таким образом мы не засоряем память.

В результате 10 экспериментов, проведенных по описанной выше схеме (в качестве рабочего решения для тестирования использовался блок, написанный на Zennoposter), установлено, что Google без проблем справляется с простыми числовыми капчами, но практически бесполезен при распознавании капчи, представленной на картинке ниже (верхняя часть — капча — нижняя часть — результат распознавания):
Распознавание капчи с помощью Google Docs

Итог эксперимента прост: продолжаем использовать Antigate далее. 1 бакс за 1000 распознанных капч — вполне нормальная цена, а многопоточность — никто не отменял.

 

Предполагаемое инвестирование в покупку доменных имен в кириллице на примерах .ru и . рф

Сегодня, задумавшись о политике, вспомнил о том, что 12 мая 2010 года была начата регистрация доменов в зоне .рф

Впрочем, дополнительным стимулом о подобных размышлениях стали рассматриваемые в теории шаги по регистрации кириллических доменов, направленных на украинский язык. Мысль, конечно, интересная, но так ли необходим этот шаг для пользователей Сети? Будут ли вообще пользоваться спросом подобные доменные имена?
Прежде, чем размышлять о подобном — я решил просмотреть динамику использования доменной зоны .рф — о которой говорил выше. С моей точки зрения — статистика работы этой зоны будет весьма показательной и позволит предсказать развитие украинской кириллической доменной зоны. Основные данные представлены на графиках ниже: Читать далее Предполагаемое инвестирование в покупку доменных имен в кириллице на примерах .ru и . рф