Здравствуйте. Необходимо разработать систему приема частных объявлений в газету через интернет. В системе необходим: - личный кабинет; - история объявлений; - задание шаблона объявлений (по разному считается стоимость объявлений) ...
Скрипт для проверки страницы на признаки +
Нужен скрипт на PHP 5.2.5 с работой на mySQL 4.1.22-standard (нужно, чтобы скрипт работал на хостинге с данными параметрами), который делает следующие вещи:
Берет из файлов длинные урлы, обрезает их, удаляет дубликаты (сверка с базой), добавляет в базу, парсит содержимое, проверяет на 2 признака, парсит ссылку, добавляет результат в базу.
Подробное описание:
В системе будет страничка с элементами управления:
«Добавить из папки upload» (добавляем урлы из файлов папки в базу, обработанные файлы удаляем)
«Запустить парсилку»
А также статистика:
Всего урлов:
Обработано: (тут выводим количество url со статусом 1 – таблица полей внизу описания)
1. Берем файлы из папки uploads и парсим их. В файлах записаны урлы в виде
http://sub1.site1.com/page32/page32.html
http://www.sub1.site1.com/page32/page33.html
http://sub2.site1.com/page32/page32.html
http://site2.com/page32/page32.html
Нужно для всех файлов
а. Очистить домены от хвостов и удалить дубликаты, а также привести все домены к одному виду записи. То есть на выходе будет список:
б. Удалить дубликаты - на выходе получаем
То есть в mySQL у нас будет таблица с уникальными доменами (2-го и 3-го уровня - субдомены одного сайта считаются уникальными)
2. Заходим на сайт по url1, проверяем страницу на наличие признаков1.
-Если признаки нашли (хотя бы 1 из списка), то ставим checkresult=1, если не нашли ни одного, то ставим checkresult=0.
-Если признаки1 найдены на сайте, то ищем признаки2. Признаки 2 – это текст, который является анкором ссылки. При нахождении текста из признаков2 мы выдираем его ссылку и вставляем в url2. Например признаки 2 содержат слово «Сафари сегодня» в одной из строк. При находжении ссылки вида Сафари сегодня
Мы дерем ссылку http://site.com/safari.html и сохраняем в поле url2.
-Меняем status на 1
Содержимое url1 запрашивается с сервера, а управляющий парсингом скрипт запускается с локала через веб-интерефейс. Каждый обработанный url1 – новая точка на выводе. Через каждые 100 точек выводится ID следующего обрабатываемого url1/всего url1 (ID идут, начиная от 1 и дальше). Пример: …… …100/85302…….. ..200/85302…
Должна быть возможность экспорта содержимого базы в файл .csv в папку data в виде:
url1;checkresult;url2;status
url1;checkresult;url2;status
Если поле url2 пустое, то строка для данной записи выглядит так:
url1;checkresult;;status
Должна быть возможность повторного добавления новых записей в таблицу с уже существующими там записями. При этом повторные url1 не добавляются – только уникальные. И для новых url1 ставится status= 0, чтобы при запуске скрипта только новые записи обрабатывались.
Таблица должна иметь поля:
url1 (значение - проверяемый домен), checkresult (результат поиска первых признаков - 1 (найдены), 2 (не найдены), url2 (ссылка на внутреннюю страницу, найденная по 2-м признакам), status (1 - обработан, 0 - не обработан)
Признаки1 находятся в файле priznaki1.txt
Признаки2 находятся в файле priznaki2.txt
Параметры хостинга, где будет установлен скрипт.
PHP version 5.2.5
MySQL version 4.1.22-standard
Выбранный исполнитель
Похожие заказы
- Веб-программирование9 заявокЗакрыт16 лет назад
Есть интернет-магазин на php. Не работает импорт каталога. Нужно его починить и импортировать сам каталог.
Веб-программирование3 заявкиЗакрыт16 лет назадНужен скрипт для ротации popup баннеров на сайте. Пример такого работающего скрипта можно увидеть на сайте: qiq.ru На сайте с каждым переходом на другую страницу, открываеться новый попап баннер. Т.е. отрабатывает ...
Веб-программирование1 исполнительЗавершен16 лет назадПривет! необходимо срочно, до поендельника, подключить Liberty Reserve к скрипту. Я выдам скрипт + классы работы с Liberty Reserve, т.е. нужно просто разобраться в логике работы скрипта и ...
Веб-программирование3 заявкиЗакрыт16 лет назадЕсть интернет-магазин с каталогом товаров. Требуется в админку на страницу редактирования свойств каждого из товаров добавить возможность задавать страны, при заходе на сайт из которых этот товар будет отображаться в каталоге. При заходе из других ...
Веб-программирование1 исполнительЗавершен16 лет назад- $80
Приблизительно нужно такое: http://www.dhtmlx.com/docs/products/dhtmlxTree/ Подробно – смотрите приаттаченный документ.
Веб-программирование1 исполнительЗакрыт16 лет назад Нужно с сайта почты россии http://www.russianpost.ru/portal/ru/home/postal/trackingpo Вытащить скрипт проверки нахождения почтового отпритьавления. Вообщем, чтобы вот эту часть можно было поставить на мой сайт www.ufaservice.ru Поиск ...
Веб-программирование1 исполнительЗакрыт17 лет назадТребуется флешер для постоянной сдельной работы. Обсуждение задачи при переписке. От Вас, работы с zinc или описание уровня знания
Веб-программирование1 заявкаЗакрыт17 лет назадНеобходимо адаптировать 2 флеш сайта с английского языка на русский. Текста не очень много, т.к. это промо сайты, в основном весь текст в текстовом виде. В своей ставке просьба указывать полную стоимость адаптации за ...
Веб-программирование12 заявокЗакрыт16 лет назадЗадача: имеется база e-mail (порядка 2000). Некоторые потеряли актуальность, так-то возможно потребуется проверка базы. Необходимо по ним сделать рассылку HTML письма. В заявке укажите точную стоимость всей работы и сроки. также укажите ...
Веб-программирование1 исполнительЗакрыт16 лет назад