Задача: написать Bash-скрипт, который чем-то похож на “поискового паука”, он должен использовать Wget и Grep для выкачивания HTML по ссылкам, которые перечислены в Sitemap сайта.

Алгоритм скрипта:

Wget скачивает все файлы Sitemap.xml, которые указаны в robots.txt сайта

Конвертирует файлы Sitemap.xml в CSV формат

Wget запрашивает HTML-файлы из CSV

Grep чистит HTML код от мусора (по регуляркам)

Складывает файлы на HDD

Примечание: скачивать картинки, CSS и прочую статику не нужно, скачиваем только контент HTML-файлов.

Требования:

Поддержка много-поточности, чтобы управлять скоростью парсинга, выбрав количество одновременных скачиваний

Артефакты:

Структура Sitemap

Структура итоговых папок

Регулярные выражения для очистки от мусора

3 года назад
DriverPack
Сэм 
45 лет
3 года в сервисе
Был
3 года назад

Заявки фрилансеров

Ильдар
 
45 лет
16 лет в сервисе
Был
7 часов назад
92 отзыва(-1)
3 года назад
Аркадий
 
24 года
7 лет в сервисе
Был
7 часов назад
47 отзывов
3 года назад
Руслан
 
35 лет
3 года в сервисе
Был
3 года назад
3 отзыва
3 года назад
  • Похожие заказы

  • Задача включает перенос текстового и медийного контента с сайта на Joomla на подготовленный шаблон WordPress. Необходимо сохранить ссылочную структуру и подготовить карту редиректов. Также требуется сопровождение процесса перехода, чтобы минимизировать изменения в позициях в поисковой выдаче. Конечная сборка будет размещена на сервере заказчика.

    Закрыт
    3 года назад
  • Требуется разработка WEB приложения для управления телефонией Asterisk. Есть существующие наработки на PHP, требуется дальнейшее развитие системы. Обсуждение деталей и создание технического задания возможно в диалоге.

    Закрыт
    3 года назад
  • $699

    Ищем разработчика для поддержки и развития финтех проекта на Laravel. Необходимы навыки работы с PHP7, MySQL, Git и Docker. Требуется математический склад ума и способность к расчетам. Возможность общения по телефону обязательна. Проект уже работает и доступен на Git.

    Закрыт
    3 года назад
  • $300

    Ищем веб-разработчика с опытом работы на Bubble.io для создания маркетплейс-приложения в бьюти-рынке. Необходимо подключить готовый дизайн к воркфлоус и разработать работающее веб-приложение, оптимизированное для мобильных устройств. Техническое задание и документация к REST API уже готовы.

    Закрыт
    3 года назад
  • Требуется доработка интернет-магазина на Symfony для внедрения функционала, позволяющего выводить названия товаров на листинге в различных вариантах. Необходимо создать тестовую копию сайта. Функционал должен учитывать индивидуальные настройки для каждой категории, созданной с помощью модуля 'Тегирование', и работать в обоих режимах отображения: 'коллекции' и 'плитки'.

    Закрыт
    3 года назад
  • Требуется опытный программист на Laravel для добавления нового функционала на сайте и доработки существующих моментов. Ожидается предоставление информации о вашем опыте и примерах работ.

    Закрыт
    3 года назад
  • Ищется разработчик для долгосрочной работы над доработками и улучшениями корпоративного чата. Необходимы навыки программирования на python и vue. Оплата обговаривается индивидуально.

    Закрыт
    3 года назад
  • Необходим Telegram бот для автоматической активации чеков в TON. Бот должен находить чеки, разгадывать капчу и подписываться на каналы. Бюджет на разработку составляет 150$. Ожидается простой функционал для взаимодействия с уже существующим ботом.

    Закрыт
    3 года назад
  • $400

    Требуется доработать приложение на Flutter, перенести макет из Adalo, интегрировать систему оплаты и оказать помощь в публикации на платформах. Задача включает завершение функционала и подготовку приложения к запуску.

    Закрыт
    3 года назад
  • $600

    Требуется собрать интернет-магазин на платформе Shopify. Необходимы страницы каталога, 'О нас', 'Корзина', 'Вопрос/Ответ', а также подключение платёжных систем и служба доставки. Рассматриваются кандидаты с опытом, возможна долгосрочная работа при успешном выполнении проекта.

    Закрыт
    3 года назад