SPr - парсер сайтов

SPr - это программа, предназначенная для извлечения информации с сайтов в интернете в удобном для использования виде. Этот процесс еще называют парсингом (parsing - разбор) или граббингом (grabbing - захват).

Как работает парсер сайтов

Содержимое (контент) сайтов,  отображаемое в интернет браузерах,  оформлено с помощью языка HTML. Парсер сайтов пакетно выгружает страницы сайта, убирает HTML разметку и преобразует информацию к удобному виду.

Парсинг производится с помощью сценария, написанного на внутреннем языке.

При обработка одной страницы сайта выполняются следующие действия:

  • Загрузка содержимого страницы сайта
  • Исправление ошибок разметки - привидение к формату XHTML
  • Обработка с помощью встроенных команд
  • Обработка с помощью встроенного языка и функций
  • Сохранение полученных данных

Типичные области применения парсера сайтов

  • Выгрузка справочников товаров для интернет-магазинов
  • Выгрузка текущих цен поставщиков
  • Загрузка последних новостей
  • Загрузка статистических данных

и т.п.

Возможности

  • Пакетная обработка нескольких страниц сайта
  • Автоматическая пагинация (листание) по страницам на сайте
  • Загрузка картинок с сайта
  • Дополнительная обработка данных с помощью встроенных функций<

Ограничения программы

Парсер не может обрабатывать сайты с динамическим содержимым, т.е, когда информация на сайт динамически подгружается в зависимости от действий пользователей (например, с помощью JavaScript).

Установка

Программа не требует инсталляции. Просто разархивируйте ее в любую папку и запустите.

Примеры

В папке XML к программе прилагается демонстрационный сценарий для выгрузке состава Государственной Думы, их доходов и фото (рекомендуется запускать сидя)).

 

Скачать