Предположительно – на UMI.CMS, но возможен выбор другой, по чётко аргументированному совету исполнителя. Срок исполнение – 35 рабочих дней. Дизайн и вёрстка готовы (несколько десятков макетов). Среди модулей: ...
Создать парсер (задача для новичков/стажеров)
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.
Здравствуйте. Есть бессрочная задача для начинающего программиста по разработке аналитической утилиты (для нужд SEO). Проект подойдёт для тех новичков, кто сейчас не занят и хочет прокачать скиллы на реальной задаче, получив за это хоть какие-то деньги. Работать придётся, в основном, с парсингом контента сайтов и с построением метрик на множестве собранных парсером страниц.
Программа должна быть выполнена на одном из следующих языков: PHP, C/C++, Java. Увы, набор ограничен только теми языками, с которыми заказчик знаком не понаслышке :-) Среда исполнения — Linux-сервер (т.е. headless, поэтому интерфейс либо CLI, либо веб-морда, отчёты программа должна в любом случае генерировать в csv или чём-то ещё табличном вплоть до html table). Хранилище: SQLite, MySQL или MongoDB, Redis.
Конкретных сроков — нет. Надо начать работать над программой и показывать какой-то прогресс. Но оплата будет осуществляться только по мере приближения к цели. Если вам надоест, вы можете бросить проект на полпути, и никто на вас за это не рассердится. Гонорар — скромный (конкретную сумму предлагайте сами в указанных приделах).
Использование готовых библиотек, классов, фреймворков и пр. — только приветствуется. И, насколько мы понимаем, многое из нужного уже сделано до нас.
Стиль кодирования — на усмотрение исполнителя. Чудес ООП от исполнителя не требуется (но и они не возбраняются). Основные характеристика кода, которые интересуют: понятность (да, ясно, что это субъективная характеристика) и модульность (потому что потом, возможно, программу придётся дорабатывать, внося новые фичи).
Результат после тестирования и допиливания будет обязательно выложен в открытом коде под GPL (да-да, чтобы потом этот код не впитали в какой-нибудь закрытый проект).
Теперь подробнее о функционале. Надо создать программу, которая будет выполнять следующее:
1. Парсить сайт (начиная с главной страницы), учитывая (как любой порядочный краулер) директивы файла robots.txt, т.е. игнорировать кластеры сайта, помеченные директивой Disallow, не выполнять запросы чаще, чем это предписано директивой Crawl Delay и пр. Важно: парсер должен нормальное съедать даже невалидные (в приделах разумного) страницы.
2. По итогам парсинга и обработки html всех полученных страниц, составлять отчёт в виде таблицы со следующими полями:
Абсолютный url страницы | Title страницы | Количество исходящих внутренних ссылок со страницы | Количество исходящих внешних ссылок со страницы | Количество входящих внутренних ссылок на данную страницу с других страниц сайта
Понятно, что для заполнения последнего столбца требуется анализ всей совокупности.
3. Для каждой страницы в отдельности программа должна строить отчёт в виде трёх списков: списка из абсолютных адресов и title`ов страниц, ссылающихся на данную (т.е. список входящих внутренних ссылок); списка из абсолютных адресов и title`ов внутренних страниц, на которые ссылается данная (т.е. список исходящих внутренних ссылок); списка из абсолютных адресов и title`ов внешних страниц, на которые ссылается данная (т.е. список исходящих внешних ссылок).
Далее к этой программе, вероятно, потребуются доработки. Например, среди внутренних ссылок надо будет выделять группы, построенные на основе заданных xpath или jquery-селекторов. Это необходимо чтобы, например, можно было понять, сколько на данную страницу имеется внутренних ссылок из меню, а сколько — из контента. Но это всё уже задачки «повышенной сложности», их сейчас решать не требуется, но требуется сразу строить легко расширяемую программу (что бы это не значило).
Спасибо за внимание. Ждём предложений от желающих. Человек, который успешно решит данную задачу, скорее всего, получит от нас ещё несколько подобных задач (примерно на тех же условиях).
Выбранный исполнитель
Похожие заказы
- $2500Веб-программирование23 заявкиЗакрыт13 лет назад
- $50
Нужна функция на PHP для удалённой публикации постов в форумы на движке vBulletin. Входные параметры: логин, пароль, адрес рубрики форума (например https://www.vbulletin.com/forum/forumdisplay.php/15-A-place-to-test-things-out) Действия: Создание нового топика в указанной рубрике На выходе ...
Веб-программирование2 исполнителяЗавершен14 лет назад - $500
Приветствую! Требуются услуги программиста (или команды) для создания движка сайта-каталога (в виде надстроек к Джумле 1.5 или в Друпале), по требованиям изложенным в прикреплённом Техническом Задании. Графический дизайн с отрисовкой расположения элементов сайта уже ...
Веб-программирование5 заявокЗакрыт14 лет назад - $10
Здравствуйте Мне нужен рейтинг новостей на dle 9.2 по 10 бальной шкале. У меня стоит 5 бальная шкала на сайте На картинки всё ясно. http://i025.radikal.ru/1103/bb/ccddaec2d2e5.jpg Под ...
Веб-программирование3 заявкиЗакрыт14 лет назад - $5
Есть карусель на jCarusel + fancybox ... в браузерах ФФ, опера, Хром нормально работает, а в ИЕ - глючит. Нужно найти и устранить глюк. сайт test.ad-soft.info
Веб-программированиенет заявокЗакрыт14 лет назад Работа не сложная, просто нет времени. Там есть экшен activate При активации по эл. почте нужно, что бы пользователь автоматом логинился и смог попасть на внутреннюю страницу сайта. На данный момент после подтверждения ...
Веб-программирование2 заявкиЗакрыт14 лет назадДобрый вечер! Есть презентация во флаше, всего 3 слайда. Нужно ее чуть чуть стилизовать: 1) добавить общего диза аля макинтош 2) сделать анимацию ...
Веб-программирование6 заявокЗакрыт14 лет назадДоброго. Переносим сайт с одного хостинга на другой, возникли проблемы движок самописа но простой. Требуется помощь в настройке. Сегодня, срочно.
Веб-программирование6 заявокЗакрыт14 лет назад- $100
Есть html виджет который встраивается в тулбар устанавливаемый в Firefox, функционал - аудио плеер. На данный момент реализован как html плэйсхолдер, с кодом на php+js(jquery). Задача переписать этот виджет на нативные xul элементы для Firefox. ...
Веб-программирование2 заявкиЗакрыт14 лет назад Бюджет не предусматривает создание сайта с нуля. Тематика - продажа бижутерии. Что нужно : 1) Нужно подобрать шаблон сайта на флеш с общедоступных зарубежных ресурсов и провести минимальную графическую адаптацию под новый проект ...
Веб-программирование8 заявокЗакрыт14 лет назад