Архив метки: Google

Как парсить robots.txt с помощью Google Docs?

Использование Google Docs для пакетного парсинга robots.txt

Иногда, для изучения структуры сайта, или проверки настроек безопасности, или ознакомления с не особо видными разделами сайта нам нужно узнать содержимое файла robots.txt, в котором, как известно, прописываются правила сканирования ресурса для поисковых роботов.

И сегодня мы попробуем разобраться с методикой использования Google Docs для пакетного парсинга данных файла Читать далее Как парсить robots.txt с помощью Google Docs?

Google Web Designer — предвкушение

Жизнь — странная штука, несущаяся на всех парах и иногда совершенно не признающая каких-либо планов. Однако — в планах было сделать несколько уроков по Google Web Designer, общий обзор которого я делал ранее. И настало время приступить к запланированному 🙂

ThePirateBay: жил, жив, и будет жить!

Многие из нас в поисках песен/фильмов/софта забредали на ThePirateBay — ассортимент хранилища велик, поиск — не тормозит, в итоге — все рады.
Однако — полиция не спит, и потому сайт, который по праву считался одним из самых популярных в Сети — умер. Впрочем — умельцы тоже не спят! И потому … (бой барабанов и рев фанфар) — вашему вниманию представлен дамп базы всего сайта. Ставь на хостинг, пользуйся, делись с людьми. Кстати, в дополнении, доступном по ссылке — скрипт, благодаря которому ваш дамп будет поддерживать себя в актуальной форме.

Согласитесь — удобно иметь у себя копию Пиратской Бухты!

Эдакий коммунизм в чистом виде…. 🙂

Капча — реальность, ожидания и эксперимент

Новость в блоге Google радует моих глаз вот уже три дня: поисковый гигант, явивший миру чудо Android, спутники связи, Google+, AdSense, Google Wave (кстати, шикарная была штука) и прочее напрягся и произвел «революционные» изменения в технологии капчи. Отныне в любом подозрительном месте вместо размытых и перечеркнутых буквоцифренных кодировок пользователю будет нужно только поставить галочку возле надписи «I’m not a robot» и…… пробки шампанского в потолок, и казалось, что в мире стало чуть веселее.

Но реальность оказалась сложнее 🙁 Все заявления разработчиков об анализе косвенных данных, на основании чего система будет решать — предоставить вам просто поле для галочки возле слов «Я не робот», или явить капчу перестали казаться мне истинными после проведенных экспериментов попытки регистрации нового блога в WordPress (а эта система уже начала пользоваться новинкой). В числе проведенных тестов было:

1. Попытка регистрации в ручном режиме в браузере Chrome, залогиненным под личным аккаунтом Google

2. Попытка регистрации в в ручном режиме в браузере Chrome в режиме Инкогнито (напомню — в этом режиме теоретически не сохраняются куки и не ведется запись хистори)

3. Попытка регистрации по вышеупомянутым процедурам в браузере Firefox

4. Попытка регистрации с помощью VPN-туннелей для подстановки поддельного IP-адреса поочередно тремя вышеуказанными методами

5. Попытка регистрации с помощью TOR-браузера с помощью первых трех методов

Важно отметить, что данные эксперименты проводились с трех разных компьютеров для избежания попадания под систему анализирования как стандартных данных (IP-адрес компьютера, логины, активность пользователя в браузере, но и «отпечатков» системы (тут важно напомнить, что впервые об этом явлении заговорили еще в 2012 году, когда объединенная команда исследователей из Технического университета Эйндовена в Нидерландах и Дармштадтского технического университета в Бельгии заявила о разработке алгоритма, по результатам которого можно найти различия в обработке данных, которые выполняются графическими системами. Назвали это явление слегка замудренно: «Физически неклонируемые функции на стандартных компонентах ПК» намекая о невозможности подделки этих результатов — в отличии от MAC-адресов, подделку которых не делал только ленивый. Ну или тот, кому не интересно или не нужно 🙂 ) — технология хоть и была заявлена к реализации только к началу 2015, да и то — в тестовом варианте — но… но … Мы же за чистоту эксперимента, правда? 🙂

Капча — реальность, ожидания и эксперимент — огорчила… Ни одна из попыток не была засчитана системой, как попытка авторизации человеком. Вариантов, на которые наталкивают результаты экспериментов — не так много, а именно:

1. Я робот, и Google это знает

2. Система анализирования анализирует с помощью чего-то еще

3. Система учитывает количество активных соединений с социальными сетями и основываясь на этом выдает решение о демонстрации капчи. Чем больше следов социальных сетей в системе — тем выше уровень доверия

4. Кто его знает, что происходит. Тут явно обширная тема для экспериментов, а времени, как всегда — мало.

Понравилась статья? Обязательно поделись на своей странице 😉 Всем хорошего настроения!

Как сохранить картинки из файла на Google Docs

Достаточно давно использую в своей работе Google Docs. А почему бы и нет? Работаю, в основном, с текстом или таблицами, Интернет есть везде и всюду, а угроза потери информации — стремиться к нулю. Да и работать можно не только с компьютера, но и телефона. Но не будем об очевидных плюсах использования Google Docs — Вы их наверняка знаете. Поговорим лучше о проблеме, с которой я столкнулся буквально на днях (раньше эта проблема и не всплывала как-то) … Читать далее Как сохранить картинки из файла на Google Docs