Какие бывают грабберы.

Грабберы или парсеры – это скрипты, автоматизирующие выгрузку информации из сети.

Допустим у вас есть каталог книг на вашем сайте. Каждая книга – это набор информации:  название, авторы, издательство и пр. Вы хотите дополнить свои данные, например термином isbn или информацией об переведенных изданиях.

В таком случае вам нужно определиться с источниками информации, содержащими эти данные. А затем необходим граббер, чтобы мягко, в фоновом режиме, дополнить ваш каталог.

Или вы активный пользователь досок объявлений. Вы хотите не пропустить появление продажи выгодного б/у  товара.

Тогда вам также необходим граббер, регулярно, без вашего участия, просматривающий бесконечные rss каналы, множество сайтов и каталогов.

Бывают более экзотичные грабберы. Например – автоматическая игра в online игру, когда прокачка персонажа на рутинных операциях не требует вашего участия.

 

Рубрика: Без рубрики, Решения | Добавить комментарий

Зачем оно нужно?

Данные качают все:

Кто-то следит за конкурентами

Кто-то думает что наполняя свой сайт чужой информацией – сделает лучше своему.

Кто-то просто тащит все, что лежит в открытом доступе.

Иногда нужно дождаться некоторого события, или появления товара на доске объявлений.

 

Не так важна причина, важно лишь то, что задача автоматизированной скачки информации возникает поразительно часто.

Кроме того, скачанную информацию обычно нужно правильно преобразовать в удобный формат .

Есть конечно rss каналы, но, к сожалению, невозможно предусмотреть, как Ваш сайт будут использовать пользователи, поэтому rss обычно не хватает.

Так люди приходят к разработчикам, а те за малую или большую монетку делают нудное и рутинное дело.

Мы готовы рассмотреть Ваше предложение, если, конечно, оно нам понравится. Так уж вышло что мы можем качать практически все. И сколько нужно. И даже иногда с большой скоростью. Но не всегда.

Мы не качаем всяческую нехорошую информацию, а также всячески закрытый контент.

Мы не ищем всяких дыр в чужих сайтах, лазеек и прочего IT шаманства.

Все что вам нужно, это заполнить форму и дождаться ответа.

Рубрика: Без рубрики | Добавить комментарий

Разработан каркас граббера на базе zf

Zend framework является годным решением для разработки автоматических грабберов сайтов.

Основными проблемами автоматического извлечения данных со сторонних ресурсов являются

  • Гарантия доставки данных с внешних ресурсов.
  • Обеспечение цельности данных
  • Возможность параллельной работы множества агентов доставки.
  • Стабильная обработка больших массивов данных.

Гарантию и стабильность доставки обеспечивает система очередей запросов, реализованная на базе Zend_Queue.

Разделение процесса доставки данных и структурирования полученной информации на разные разные рабочие процессы обеспечивают целостность результирующих данных.

Важной задачей граббера является параллельность работы, что может дать возможность разносить работу на разные машины, при этом поддерживая целостность данных. Это реализовано при помощи curl_multi_request  – в рамках одного процесса и разделением на очереди запросов в рамках нескольких процессов скачки.

В архитектуре решения уделено место интерфейсам интеграции со сторонними решениями (CMS, готовые структуры данных).

 

 

 

Рубрика: Решения | Комментарии отключены

Привет, мир!

Ну как водится в этих наших интернетах – Поехали! :)

Рубрика: Без рубрики | Добавить комментарий