Нужен человек для прогона сайта по: Русские форумы Английские форумы Английские форумы Русские форумы (Только успешные) Русские форумы (только .ru | ...
Полный анализ новостного сайта
Требуется провести полный анализ новостного сайта
Сайт представляет из себя новостной агрегатор. Автоматически парсятся новости с сети и выкладываются на сайте с разбивкой по категориям/подкатегориям.
Требуется изучить и понять механизм сставления/разбивки/добавления категорий на сайте. Алгоритм вычисления категории новости и тд.
Вот категори сайта
Они разбиты на главные и подкатегории.
Главные категории скорее всего составлялись вручную ТВ, Здоровье, а вот подкатегории уже создаются автоматом.
Пункты кот. необходимо осветить в отчете.
- Алгоритм определения категории/подкатегории новости.
По какому принципу и как определяется категория/подкатегория новости добавляемой на сайт.
Новости бывает пишутся сразу в несколько категорий, от чего это зависит.
- Алгоритм добавления новых подкатегорий.
Практически все подкатегории на сайте добавлены на 99% автоматически. Т.е. идет анализ текста, выделение ключевых слов и по какому-то алгоритму некоторые из них становятся новой подкатегорией. В дальнейшем уже идет анализ новых новостей по вхождению этого слова в тексте новостей.
То что добавление подкатегорий идет автоматически, можно увидеть по именам подкатегорий
7pm
247
Hard
Т.е. имена подкатегорий не связаны с какой-то определенной темой, а просто вычленын из текстов новостей по Какому-то алгоритму и им предан статус Категория.
Имена категорий, людей и тд, вроде как вычисляются по заглавным буквам слов/словосочетаний или слов в кавычках, например
I have "Book" - Book будет стоять в списке претендентов на название категории, если найдут еще какой-то процент подобных названий
We saw Pamela Anderson on the beach - Pamela Anderson - категория в именах.
- Алгоритм определения имен компаний/городов/стран/людей/марок автомобилей.
Вот подкатегории
http://www.topix.com/companies/list - список новостей по имени компании
http://www.topix.com/companies/list - список новостей по имени людей
http://www.topix.com/autos/list
Каким образом идет распознавание имени компании автоматом.
Как вариант, после имени стоит добавка Corp. или Ltd.
Еще на странице новости по компании, сверху выводится ее абривиатура на Бирже. Может быть как-то связано что изначально была распарсена база компаний на биржах и потом по ним идет поиск.
Но, аббривиатура не у всех компаний.
Какие еще варианты могут быть по выделению имен компаний.
Аналогично по имени людей, каким образом идет выделение имен людей из новости. По какому алгоритму. Пример с Памелой Андерсон был выше.
Вот еще пример:
http://www.topix.com/autos/list
Список автомобильных марок. Был ли он составлен вручную или аналогично схеме описанной выше спарсен с новостей?
Аналогично надо проанализировать все другие категории/подкатегории на сайте и вывести схему добавления категории и распознавания новости по данной категории.
Внимание:
Отчеты в виде фраз "ну они просто взяли список имен людей и распарсили по ним новости" не принимаются.
Там не все так просто, и помните, что все это делается на сайте автоматически :-)
Вот допустим список категории Люди
В именах есть такое
21 Guns
22-20s
22 Brides
220 Volt
23 Skidoo
24-7 Spyz
2mex
Понятно что если бы парсинг был по списку существующих имен, такое бы туда не попало, значит это просто среднестатистическая ошибка скрипты парсера. Но все остальное более менее похоже на человеческие имена
Andrea Ferreol
Andrea Leeds
Andrea Marcelli
Andrea Marcon
и тд.
Заявки фрилансеров
Похожие заказы
- Поисковые системы (SEO)5 заявокЗакрыт14 лет назад
Интересуют качественные прогоны по каталогам, пресрелизам, грамотный постинг в форумах и блогах и.т.д. Сразу объясню нужно не количество, а качества. Предложения типа прогоню сайт по 10 000 каталогов не интересует, хотьбы 500 нормальных каталогов ...
Поисковые системы (SEO)3 заявкиЗакрыт14 лет назадНужно исправить недочеты по рекомендации WebEffector.
Поисковые системы (SEO)2 заявкиЗакрыт14 лет назадНадо вывести в ТОП 5 сайт по запросам: заработок в интернете работа на дому Хочу услышать стоимость ключей по отдельности и сроки вывода каждого ключа. Адрес сайта в ...
Поисковые системы (SEO)9 заявокЗакрыт14 лет назадВобщем ситуация такова есть у меня сайт http://movieshd.ru/ регистрировал в поисковиках gogle yandex и еще там в парочке каких то забыл уже, (больше негде) на данный день посещаемость 300+ хостов хотелось бы увеличить поднять тиц ...
Поисковые системы (SEO)6 заявокЗакрыт14 лет назад- $100
Необходимо проанализировать форум financeforum.ru и написать стратегию развития до критической массы (т.е до того момента когда пользователи начнут самостоятельно общаться). Цель форума: привлечь профессионалов и новичков по страхованию, бухгалтерии, трейдингу и т.д. ...
Поисковые системы (SEO)2 заявкиЗакрыт14 лет назад - $30
http://fortrue.ru/ поднять тиц до 10 или выще (нужны гарантии) за 30$
Поисковые системы (SEO)1 исполнительЗакрыт14 лет назад Нужна небольшая консультация по поводу афилиата в яндексе. общение в аське. есть 5 вопросов на которые по моему сайту хочу получить ответ. соискатели без отзывов по сео заявки не оставлять
Поисковые системы (SEO)5 заявокЗакрыт14 лет назадПоставлена задача по раскрутке сайта элитных аксессуаров. Оговоренные сроки попадания в топ 10 (3-4 месяца)
Поисковые системы (SEO)1 исполнительЗакрыт14 лет назадЗдравствуйте. Нужно составить семантическое ядро для сайта Центр развития потенциала. Примеры запросов по теме, от которых можно плясать: помощь психолога, личностный рост, тренинги, коучинг, личная эффективность, психотерапия Черновой вид сайта: ...
Поисковые системы (SEO)5 заявокЗакрыт14 лет назад