Требуется PHP скрипт который позволит извлекать "значимый" текст(контент) из хтмл страницы произвольной структуры. Под значимым текстом подразумевается основное информационное наполнение страницы, исключая навигационные ссылки, копирайты и тп. Как вариант, можно рассмотреть любую новостную страниц (например, http://www.lenta.ru/news/2009/03/02/mobileweb/ или http://hitech.newsru.com/article/27Feb2009/iphoninjp)

Текст новости должен выбиратся не по шаблону, а используя т.н. data mining. Как вариант, могу предложить след алгоритм:

1. страница очищается от служебной информации (комменты, скрипты и тп)

2. страница разбивается на параграфы использую

,

, и прочии возможные тэги

3. анализируется соотношение плотности тэгов и плотности текста

4. отсекается та часть, где плотность тэгов слишком высока (скорее всего это навигационная и прочая информация)

Возможны и другие способы. Не требуется 100% точность извлечения информации, однако, требуется достаточная точность для дальнейшей каталогизации страниц.

Просьба писать тем, что кто имеет опыт решения подобных задач.

16 лет назад
jobphp
47 лет
18 лет в сервисе
Был
8 лет назад

Выбранный исполнитель

Slepoi_Mag
Виктор 
42 года
20 лет в сервисе
Был
5 лет назад
16 лет назад
$55
2 дня
Работы выполнена в четко оговоренные сроки. конечный код хорошо закоментирован. работой остался 100% доволен.
Четко поставленная задача, хорошее отношение к исполнителю и своевременная оплата - а большего и не надо! :)

Заявки фрилансеров

Slepoi_Mag
Виктор 
42 года
20 лет в сервисе
Был
5 лет назад
16 лет назад
  • Похожие заказы

  • $5

    Задание: Сделать так как на hххp://piccy.info/view/ce5de6fd853cb151be50fe5cf17e4652/ когда загружаем картинку, есть пункт Пожазать картинку друзьям. Где верху есть меню смены фона. Нужно такую затею воплотить на _http://boxua.com в Ссылки на изображения

    Закрыт
    16 лет назад
  • $4

    Нужна проверка данных формы до нажатия на кнопку submit Конкретно проверки длинны логина, пароля, корректность эл.почты и номера телефона + серверный php скрипт уникальности логина, эл.почты и номера тел.

    Закрыт
    16 лет назад
  • $50

    Необходимо исправить 2 бага на работающем сайте + изменить структуру размещения изображений. Все подробности расскажу непосредственно выбранному исполнителю. От Вас - отличное знание php+MySQL и умение разбираться в дебрях кода - ...

    Завершен
    16 лет назад
  • $500

    Есть сайт. Нужно прикрутить готовый почтовый сервис. Раздача мыл типа @site.com + WebMail (проверка через веб, написание, чтение, отправка почты, отправка файлов и т.д.). Жду предложений. Бюджет - до 500 у.е.

    Закрыт
    16 лет назад
  • Есть сайт http://ladyguides.com Необходимо вместо дроп-меню поставить меню-аккордеон. Добавятся пункты меню, соответственно нужно будет разложить по этим пуктам контент. Сайт на Джумле с магазином ВиртуМарт. Заранее благодарю за отклики ответственных и серьёзных ...

    Завершен
    16 лет назад
  • $50

    Задание 1. Нужно сделать чтобы на главной отображалось до 20 марок по вертикали в 4 столбика (стат). и при нажатии Все марки - подружались все марки авто 2. Нужно сделать чтобы объявления ...

    Завершен
    16 лет назад
  • Добрый день. Необходимо немного исправить JS на сайте. Новички и желающие попробовать - убедительно прошу не бесспокоить. Прежде чем сабмитить - почитайте что надо сделать и ознакомьтесь с ТЗ ...

    Завершен
    16 лет назад
  • Здравствуйте,необходимо разработать скрипт лотереи для сайта. Меня интересует, сколько будет стоить, сроки, какой хостинг нужен ? Тз в приложении. Жду ваших предложений.

    Закрыт
    16 лет назад