Требуется сделать парсер сайта о работе (суперджоб.ру), на выходе таблица CSV
Сделать небольшой паучок для Яхи
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.
Есть Yahoo Finance http://finance.yahoo.com/ Там есть странички посвященные «тикерам» (тикер это код акций). Скажем Google это GOOG и страничка выглядит соответственно так: http://finance.yahoo.com/q/h?s=GOOG Baidu.com это BIDU и, соответственно, страничка выглядит так http://finance.yahoo.com/q/h?s=BIDU
Паук должен иметь пристойный интерфейс и быть готовым к использованию неискушенным пользователем. Делать паук должен следующее:
В основном:
1) бегать по заранее составленому списку тикеров и собирать ленту новостей. В отчет попадает Заголовок, Точное время новости (надо ставить полный штамп, с датой) и кто автор новости (начальное at встречающееся у многих желательно убирать)
2) Паук должен иметь простейшую логику и соизмерять свои усилия с частотой появления новостей. Скажем если у GOOG новости появляются по 40 штук в день, то бегать туда надо каждые полчаса. Если у BIDU две новости в день, то и бьегать туда можно пару раз в сутки. А какой-нибудь CNIC можно вообще раз в три дня проверять. Но делательно что бы никого не проверяли реже чем раз в сутки все же. Скорость появления новостей надо рассчитывать по последнему периуду, а не в среднем за год. Тут логика такая: что-то случилось с BIDU скажем и пошли новости потоком. Паук должен отреагировать и начать лазить туда чаще. В целом алгоритм примерно такой: паук лазиит и считает скорость появления новостей. Берет 10 последних новостей и считает за какое время они появились. Скажем для Goog это за три часа. То есть скорость поступления новостей тут одна новость за 20 минут. А для BIDU это составило одну новость в два часа. То есть BIDU в шесть раз медленее чем GOOG.
3) Помимо частоты обновления новостей каждому тикеру прилается еще важность (оператор задает, об этом подробнее ниже). Важность задается числом от 1 и выше. Чем важнее тикер, тем чаще его надо оббегать по умолчанию. В целом рассчитывается так: важность тикера умноженая на скорость его обновления – чем больше это число, тем чаще оббегать тикер надо.
4) паук сидит на сервере и прячется под паролем. Пользователей может быть несколько. Каждый пользователь имеет доступ к своему списку тикером и вибит статистику по ним.
Админ (интерейс админа может быть спартанским):
1) создает пользователей и приписывает им тикеры
2) заводит таблицу тикеров и важностями.
3) Помимо этого он должен уметь на лету менять важность тикера с помощью API образного запроса. И запрашивать вес. Что-то вида /change-wight.php/key=123456&ID=GOOG&new_weight=12 То есть GOOG’у присваивается новая важность равная 12.
Еще API должен уметь отдавать список всех своих тикеров с весами
4) Заводить интересующий его источник в админке. То есть админ залезает в панель и указывает там что его интересует источник aka автора новости. Искать надо будет по вхождению. То есть если админ указал Forb, то ищется как Forbes, так и ForbesTV и т.п.
Пользователь:
1) Указывает номер позиции (к примеру 10), до которой он хочет проверить и ему выдается отчет – все «его» тикеры в порядке убывания полной важности (то есть скорость обновления умноженная на вручную заданную важность) в ленте которых НЕТ новости из источника указаного админом.
2) После логина пользоваатель остается залогиненым пока сам вручную не вылогинится.
Пишите предложения, если есть вопросы, то имейл в профайле www.weblancer.net/users/Mauser/ работа не очень большая, но аккуратная. Писать желательно на php+mysql но другие версии рассматриваются.
небольшой поясняющий звук приколот. буквально три минуты
Выбранные исполнители
Заявки фрилансеров
Похожие заказы
- Веб-программирование10 заявокЗакрыт15 лет назад
- $100
Ищем сообразительного яваскрипт-программиста для настройки Яндекс.Карт и отладки библиотек jQuery. ТЗ в личку. Оплата по факту выполнения работы.
Веб-программирование2 заявкиЗакрыт15 лет назад - $10
На сайт www.dolceamante.ru нужно перенастроить парсинг с 2-х сайтов. Ранее он работал, но сайты с которых копировалась информация поменяли адреса. Внешне изменений не наблюдается. цена вопроса 300 р.
Веб-программирование3 заявкиЗакрыт15 лет назад - $50
Имеется скрипт CSSY 1.8 Нужно понять, почему он не работает на DLE 8.2
Веб-программирование1 заявкаЗакрыт15 лет назад - $50
Нужен тест скорости на upload icq - 7085008 Заоблачные цены можете не писать.
Веб-программирование2 заявкиЗакрыт15 лет назад Добрый вечер. Нужен скрипт или hetacess для следующего решения на сервере есть папка в татке файлы, каждый авроризированный пользователь сайта может качать файлы с этой папки-хоть все подряд выкачивать доунлоад менеджеров, ...
Веб-программирование1 исполнительЗакрыт15 лет назадПосле регистрации и активации аккаунта пользователь помещается в группу "Regular members" (это по-умолчанию в движке (сам движок вышлю на e-mail или ICQ по запросу ~5 Mb)), нужно сделать чтобы пользователь мог менять свою группу на ...
Веб-программированиенет заявокЗакрыт15 лет назад- $150
Требуется граббер Базы Для базы данный к которой обращается форма запроса. http://ematik.ru/select/
Веб-программирование3 заявкиЗакрыт15 лет назад Нужно сделать радио для сайта. На сайте будет ссылка "Радио". При нажатии на неё открывается отдельное не большое окошко..размером с проигрыватель. То есть это удобно.. пользователь будет ходить по сайту и музыка не будет ...
Веб-программирование4 заявкиЗакрыт15 лет назад- $100
Требуется изменить вывод данных на страницах текущее состояние: http://www.b-t-m.ru/catalog/40/117/ требуемый вывод во вложении Прошу обратить внимание на навигационную цепочку (последним звеном в ней должен быть текущий подраздел), это нужно исправлять ...
Веб-программирование1 исполнительЗавершен15 лет назад