Key Collector - используем Proxy для сбора статистики Wordstat

SEO


Как известно, с определенного времени сервис Yandex.Wordstat установил довольно жесткие ограничения на сбор информации: за большое количество запросов в лучшем случае выдавались бесконечные капчи, а в худшем — полная блокировка (ошибка 403 или отсутствие ответа на запросы).

Решением данной проблемы всегда были прокси-сервера, а с версии 2.6.41 — сбор через Yandex.Direct. Мы не остановились на достигнутом и улучшили работу программы через прокси-сервера, оптимизировав алгоритм сбора и добавив новые опции в программу.


Во-первых, мы усовершенствовали модуль проверки доступности прокси-серверов. Теперь он поддерживает работу в многопоточном режиме, а также предусматривает два варианта пользовательского интерфейса: упрощенный и профессиональный.



Упрощенный режим требует минимум усилий для быстрой проверки качества добавленных в таблицу прокси-серверов. Все, что необходимо сделать, это установить желаемое количество потоков и нажать на кнопку запуска процесса. В программе предусмотрены быстрые проверки в Yandex.Wordstat (при этом заблокированные прокси-сервера получат статус «испорченных»), поиске Yandex и Google, статистике LiveInternet.



Профессиональный режим позволяет дополнительно задать период времени, в течение которого программа будет ждать ответа от прокси-сервера, прежде чем вынести решение о его состоянии (не устанавливайте слишком маленькое значение, т.к. большинство прокси-серверов обрабатывает запрос за несколько секунд.

Также учитывайте ширину канала и количество потоков, чтобы программа успевала получить ответы на сформированные запросы). Также профессиональный режим позволяет Вам самостоятельно задавать маркеры, которые Key Collector будет искать в ответа выбранного сервиса.

Во-вторых, мы добавили новые настройки для сбора статистики Yandex.Wordstat. Среди них:
  • Таймаут ожидания ответа от сервиса
  • При ошибках получения ответа от сервиса (таймаут ответа и т.п.) исключать прокси-сервер
  • Не уменьшать кол-во потоков при исключении прокси-серверов

В-третьих, мы изменили логику работы функции пропуска прокси-серверов при встрече капчи (Настройки — Анти-капча — Общие настройки). Если опция автоматического пропуска включена, то теперь при встрече капчи при работе через прокси-сервер тот деактивируется на 360 секунд.

Как увеличить скорость сбора статистики через большое количество прокси-серверов низкого качества


Если съем статистики через качественные прокси-сервера никогда не вызывал трудностей, то работа с сотней другой публичных бесплатных прокси-серверов могла происходить крайне медленно. С помощью новых опций можно настроить программу так, чтобы и работа через данные подборки прокси-серверов была максимально быстрой.

Итак, сперва нужно найти и добавить в таблицу прокси-серверов найденные прокси-сервера. Т.к. список предполагается большим, то сделать это проще через функцию загрузки из файла. После добавления списка необходимо проверить прокси-сервера на доступность. Для этого перейдите в упрощенный режим проверки, если у вас включен профессиональный, установите количество потоков исходя из пропускной способности вашего канала в Интернет и нажмите кнопку «Проверить в Yandex.Wordstat».

После завершения проверки прокси-серверов для чистоты списка необходимо удалить плохие прокси-сервера. Для этого нажмите кнопку «Инвертировать отметку» (хорошие прокси-сервера перестанут быть отмеченными, а плохие — отметятся), а затем — кнопку «Удалить отмеченные».

Теперь в списке находятся только прошедшие проверку предварительно хорошие прокси-сервера (к сожалению, сказать, что они полноценно рабочие нельзя, т.к. в процессе работы с ними некоторые перестанут отвечать, другие — уйдут в бан, третьи — окажутся с бесконечной капчей и т.д.). Для того, чтобы программа стала использовать прокси-сервера при сборе статистики отметься все строки в таблице, нажав на флажок групповой отметки в заголовке таблицы.

Подобрав и активировав прокси-сервера, нужно настроить программу на максимальное быстродействие с такими прокси-серверами. Сперва установим опцию, которая будет деактивировать прокси-сервер на 360 секунд, если при работе через него будет обнаружена капча. Для этого перейдите на вкладку Настройки — Анти-капча — Общие настройки и включите опцию «Автоматически переключать прокси-сервер при встрече капчи».



Следующим шагом будет настройка работы модуля сбора Yandex.Wordstat. Перейдите на вкладку Настройки — Парсинг — Yandex.Wordstat и выполните действия:

  1. включите опцию «Не уменьшать кол-во потоков при исключении прокси-серверов» (т.к. прокси-сервера достались вам бесплатно и потерять их не жалко, то можно забыть про перегрузки и баны);
  2. если ширина каналов позволит установить большое количество потоков, а прокси-серверов будет значительно больше (в несколько раз), то можно включить опцию «При ошибках получения ответа от сервиса (таймаут ответа и т.п.) исключать прокси-сервер» (в этом случае программа не будет тратить лишнее время на ожидание ответа от потенциально умерших в ходе проверки прокси-серверов). Если же прокси-серверов меньше, то данная опция может навредить, т.к. при обращении, скажем, в 10 потоков к одному прокси-серверу тот может не справить в нагрузкой и попасть в бан;
  3. установите значение параметра «Таймаут ожидания ответа от сервиса», взяв в расчет ширину вашего канала и предполагаемое качество прокси-серверов (при отсутствии проблем с шириной канала установите этот параметр в значение 8000 мс (при установке слишком маленького значения программа не будет успевать получить ответ от совершенно нормально работающих прокси-серверов, и в результате вы нанесете вред скорости сбора статистики).

Наконец, установите количество потоков, исходя из ширины вашего канала и количества добавленных прокси-серверов (при использовании прокси-серверов условно низкого качества рекомендуем количество потоков установить в значение, меньшее чем количество прокси-серверов в 5-10 раз). Также следует отключить опцию «Использовать основной IP», т.к. установленные ранее настройки запросто могут привести к блокировке доступа к сервису.

Теперь осталось лишь установить задержки между запросами, принимая во внимание количество и качество прокси-серверов и потоков. Желательно, чтобы время простоя составляло не менее 5 секунд. Т.е. если вы установили количество потоков в 5 раз меньше, чем прокси-серверов, то параметр задержки должен быть установлен в значение не менее, чем 1 000 мс (1 000 мс * 5 = 5 000 мс = 5 секунд). На этом этапе настройка завершена.

Обращаем ваше внимание, что предлагаемые значения параметров являются крайне субъективными и зависят от конкретных условий работы программы (скорость доступа в Интернет, производительность ПК, уровень качества прокси-серверов, реакция сервиса Yandex.Wordstat).

Данная инструкция создана для тех, кто хочет снимать данные именно через бесплатные или крайне дешевые прокси-сервера, т.к. настройки нацелены на достижение максимальной скорости сбора, а не сохранности работоспособности прокси-серверов. Вы можете попробовать подобрать оптимальный для ваших условий таймаут ожидания ответа от сервера, количество потоков и задержки.

База ключевых слов Key Collector (получаем многократное ускорение)

1 комментарий

Ivan Petrov
Без нормальных проксей нереально собрать частотку. Я беру их на прокси рейтинге http://proxy-rating.info/soft/keycollector/

Оставить комментарий

Комментировать при помощи:
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.