Архив метки: аналитика

Как парсить robots.txt с помощью Google Docs?

Использование Google Docs для пакетного парсинга robots.txt

Иногда, для изучения структуры сайта, или проверки настроек безопасности, или ознакомления с не особо видными разделами сайта нам нужно узнать содержимое файла robots.txt, в котором, как известно, прописываются правила сканирования ресурса для поисковых роботов.

И сегодня мы попробуем разобраться с методикой использования Google Docs для пакетного парсинга данных файла Читать далее Как парсить robots.txt с помощью Google Docs?

А у меня тут к продаже неспешными темпами образовался домен:

http://radiorus.net/

Почти два года использовался радиостанцией «Северный маяк», вещающей из Израиля. Принадлежит мне, продается по причине задолженности мне владельцами станции. В принципе, если бы не задолженность — я бы и не занимался подобными вещами, но деньги любят счет, и потому — если кому интересно — обращайтесь: oleksiy@lavrynenko.com ! О цене — договоримся.

Автоматизированное распознавание простой капчи с помощью Google Docs

По роду деятельности не часто, но сталкиваюсь с капчами. Из-за больших объемов работы многие процессы автоматизированы, среди которых и распознавание капчи — эта стадия осуществляется с помощью сервиса Antigate, который достаточно стабильно работает, и отличается низкой ценой.
Однако на днях попалась интересная новость (ну как новость — с опозданием на пару месяцев) о том, что сервис Google Docs распознает текст, который загоняется на сервис с виде картинок или pdf-документов. Сразу же возникла мысль использования ресурсов Google автоматизированного для распознавания капчи.
Алгоритм работы, осуществляемый в режиме он-лайн в браузере представляется следующим:

1. В процессе работы наталкиваемся на капчу
2. Получаем капчу в виде графического файла с расширением, которое поддерживается сервисом Google Docs. В настоящее время это форматы .jpg, .png, .gif размером не более 2-х мегабайт. Учитывая, что речь идет о капче — лимит размера загружаемой картинки нас не особо волнует.
3. Открываем новую вкладку
3. В ней загружаем картинку на сервис
4. Открываем картинку в виде текстового файла внутри сервиса
5. Получаем данные в виде готового текста
6. Закрываем вкладку с распознанной капчей
7. Используем результат распознавания в работе

Понятно, что данный алгоритм можно зациклить. Так же понятно, что для оптимизации работы наиболее правильным методом сохранения данных является использование одного и того же имени файла — таким образом мы не засоряем память.

В результате 10 экспериментов, проведенных по описанной выше схеме (в качестве рабочего решения для тестирования использовался блок, написанный на Zennoposter), установлено, что Google без проблем справляется с простыми числовыми капчами, но практически бесполезен при распознавании капчи, представленной на картинке ниже (верхняя часть — капча — нижняя часть — результат распознавания):
Распознавание капчи с помощью Google Docs

Итог эксперимента прост: продолжаем использовать Antigate далее. 1 бакс за 1000 распознанных капч — вполне нормальная цена, а многопоточность — никто не отменял.

 

Предполагаемое инвестирование в покупку доменных имен в кириллице на примерах .ru и . рф

Сегодня, задумавшись о политике, вспомнил о том, что 12 мая 2010 года была начата регистрация доменов в зоне .рф

Впрочем, дополнительным стимулом о подобных размышлениях стали рассматриваемые в теории шаги по регистрации кириллических доменов, направленных на украинский язык. Мысль, конечно, интересная, но так ли необходим этот шаг для пользователей Сети? Будут ли вообще пользоваться спросом подобные доменные имена?
Прежде, чем размышлять о подобном — я решил просмотреть динамику использования доменной зоны .рф — о которой говорил выше. С моей точки зрения — статистика работы этой зоны будет весьма показательной и позволит предсказать развитие украинской кириллической доменной зоны. Основные данные представлены на графиках ниже:

Общая статистика зоны .RU

Я решил взять за основу статистику этой зоны, как более старой (она была делегирована в 1994 году). К тому же пользователи Сети не испытывают потребности в переключении раскладки клавиатуры для ввода адресов сайтов, зарегистрированных в ней — а это существенно влияет на выбор пользователя о предпочитаемом адресе. К сожалению, не помню точные данные, но использование кириллических доменов так же сказывается на работе поисковых роботов (если у кого-то имеются подобные материалы — прошу поделиться 🙂 ).

Динамика изменения числа доменов в зоне .RU

Всего активных доменов: 814 333 (за 4 года работы)

Общая статистика зоны .РФ

Динамика изменения числа доменов в зоне .РФ

Всего активных доменов: 4 921 215 (за 20 лет работы), причем, динамика роста количества регистрируемых доменов в зоне .ru очень красиво показана на графике ниже:

в том время, как зона .рф показывает следующие результаты:

Пик активности в зоне .рф в 2010 году вызван своеобразной истерией, в процессе которой было зарегистрировано более полумиллиона доменов, однако после спада истерии энное количество доменов были закрыты (это так же прослеживается в графиках). Почему? Ну скажем — не у всех пользователей Сети на клавиатуре имеются русские символы — они автоматически выпадают из числа посетителей вашего сайта. Да и индексация доменного имени с кириллицей — очень большая проблема (о ней я говорил выше, и постараюсь вернуться к процессу индексации позже).

Подведи итоги этих размышлений можно сделать прогноз заведомо убыточной инвестиции в покупку доменов в предполагаемой зоне, создаваемой для Украины с использованием кириллических символов. Понты, пафос, но для бизнеса — ничего нужного.

Впрочем — если у Вас есть, что сказать — не стесняйтесь высказывать мысли!

Поделитесь ссылкой в соцсетях 🙂 я старался.