Поиск фактов (Data-mining)
Поисковая система.
Обрабатывает тексты на естественном языке. Из них выделяет "факты" о упоминаемых людях, и выполняет поиск по этой базе.
Например, "Oscar" выведет всех обладателей премии оскар известных системе, вместе с краткой аннотацией.
Паук.
PHP(многопоточность)+Redis+mySQL
Обходит сайты, сохраняет копии страниц, получает вложенные ссылки, переходит по новым ссылкам.
Экстрактор контента.
PHP|Python
Выделяет из текста страницы смысловую часть (основной текст).
Обработка естественного языка.
Java+Python+PHP
- Распознавание именованных сущностей (NER)
- Определение частей речи
- Определение связей между словами
- Определение ссылок (местоимения, разные варианты имени) (CR)
- Построение семантического дерева
- Обход дерева (собственно выделение структурированных данных)
Индекс+Поиск
PHP+Phing+MySQL
Данные харняться в виде набора фактов:
человек-*функция*-*аргумент