Классификатор "новости-рассказы"

words-mar15.png

Исследователи из шт. Колорадо представили алгоритм, который позволяет компьютеру отличать новостные сообщения от художественных текстов, а именно рассказов. Алгоритм базируется на теории сложных сетей (Complex Networks), активно развивающейся в последнее десятилетие.

В сети на базе текстов узлами выступают термы (слова или словосочетания), а ребрами - их связи (встречаемость рядом).  Подход, предложенный авторами (J. T. Stevanak и Lincoln D. Carr) при построении сети, заключается в том, что анализируется, сколько раз терм из текста встречается вместе с другими термами в рассказах и новостных сообщениях.

На основании сравнения характеристик (средний путь, коэффициент кластерности, показатель степенного распределения узлов) полученной сети и делаются окончательные выводы. Таким образом, посроен классификатор, характеризующийся следующими показателями: при идентификации новостных сообщений точность составила 69,1 процента с погрешностью 1,22 процента, а для рассказов - 73,8 процента с погрешностью 5,15 процента.

Исследователи проверили спредложенную методику на базе из 400 новостных сообщений, и 400 случайных рассказов из электронной библиотеки проекта "Гутенберг". 

Ист. : arxiv.org/abs/1007.3254