Требуется провести полный анализ новостного сайта

http://www.topix.com

Сайт представляет из себя новостной агрегатор. Автоматически парсятся новости с сети и выкладываются на сайте с разбивкой по категориям/подкатегориям.

Требуется изучить и понять механизм сставления/разбивки/добавления категорий на сайте. Алгоритм вычисления категории новости и тд.

Вот категори сайта

http://www.topix.com/dir

Они разбиты на главные и подкатегории.

Главные категории скорее всего составлялись вручную ТВ, Здоровье, а вот подкатегории уже создаются автоматом.

Пункты кот. необходимо осветить в отчете.

- Алгоритм определения категории/подкатегории новости.

По какому принципу и как определяется категория/подкатегория новости добавляемой на сайт.

Новости бывает пишутся сразу в несколько категорий, от чего это зависит.

- Алгоритм добавления новых подкатегорий.

Практически все подкатегории на сайте добавлены на 99% автоматически. Т.е. идет анализ текста, выделение ключевых слов и по какому-то алгоритму некоторые из них становятся новой подкатегорией. В дальнейшем уже идет анализ новых новостей по вхождению этого слова в тексте новостей.

То что добавление подкатегорий идет автоматически, можно увидеть по именам подкатегорий

7pm

247

Hard

Т.е. имена подкатегорий не связаны с какой-то определенной темой, а просто вычленын из текстов новостей по Какому-то алгоритму и им предан статус Категория.

Имена категорий, людей и тд, вроде как вычисляются по заглавным буквам слов/словосочетаний или слов в кавычках, например

I have "Book" - Book будет стоять в списке претендентов на название категории, если найдут еще какой-то процент подобных названий

We saw Pamela Anderson on the beach - Pamela Anderson - категория в именах.

- Алгоритм определения имен компаний/городов/стран/людей/марок автомобилей.

Вот подкатегории

http://www.topix.com/companies/list - список новостей по имени компании

http://www.topix.com/companies/list - список новостей по имени людей

http://www.topix.com/autos/list

Каким образом идет распознавание имени компании автоматом.

Как вариант, после имени стоит добавка Corp. или Ltd.

Еще на странице новости по компании, сверху выводится ее абривиатура на Бирже. Может быть как-то связано что изначально была распарсена база компаний на биржах и потом по ним идет поиск.

Но, аббривиатура не у всех компаний.

Какие еще варианты могут быть по выделению имен компаний.

Аналогично по имени людей, каким образом идет выделение имен людей из новости. По какому алгоритму. Пример с Памелой Андерсон был выше.

Вот еще пример:

http://www.topix.com/autos/list

Список автомобильных марок. Был ли он составлен вручную или аналогично схеме описанной выше спарсен с новостей?

Аналогично надо проанализировать все другие категории/подкатегории на сайте и вывести схему добавления категории и распознавания новости по данной категории.

Внимание:

Отчеты в виде фраз "ну они просто взяли список имен людей и распарсили по ним новости" не принимаются.

Там не все так просто, и помните, что все это делается на сайте автоматически :-)

Вот допустим список категории Люди

http://www.topix.com/who/list

В именах есть такое

21 Guns

22-20s

22 Brides

220 Volt

23 Skidoo

24-7 Spyz

2mex

Понятно что если бы парсинг был по списку существующих имен, такое бы туда не попало, значит это просто среднестатистическая ошибка скрипты парсера. Но все остальное более менее похоже на человеческие имена

Andrea Ferreol

Andrea Leeds

Andrea Marcelli

Andrea Marcon

и тд.

14 лет назад
sopla
72 года
16 лет в сервисе
Был
13 лет назад

Заявки фрилансеров

Нет заявок фрилансеров