Мера близости объекта и категории
В этом методе правилом классификатора является скалярное произведение. Пусть каждой категории C соответствует вектор Cj = (сЛ, ciN), где N - размерность пространства термов. В качестве правила классификатора используется формула:
Нормализация проводится обычно таким образом, чтобы итоговая формула для CSV(d) - это нормированное скалярное произведение - косинус угла между вектором категории c и вектором из весовых значений термов, входящих в документ d - d = (dl, dN) :
Координаты вектора С1 определяются в ходе обучения, которое проводится по каждой категории независимо от других.
Метод Rocchio
Некоторые классификаторы используют так называемый профайл для определения категории. Профайл - это список взвешенных термов, присутствие или отсутствие которых позволяет наиболее точно отличать конкретную категорию от других категорий.
Профайл (profile) -прототип документа, категории или массива документов, чаще всего совокупность взвешенных термов. К таким методам классификации относится и метод Rocchio, который относится к линейным классификаторам, в которых каждый документ представляется в виде вектора весовых значений термов. Профайл категории І будем рассматривать как вектор С{ = (с1І, с№) (Ы- количество термов в словаре), значения элементов которого си в рамках метода Rocchio рассчитывается по формуле:
где wky - это вес терма tk в документе dy (рассчитанный, например, по принципу TF IDF),
и
В этой формуле, a и Ь -контрольные параметры, которые характеризуют значимость положительных и отрицательных примеров. Например, если ОС = 1 и Ь = 0, С будет центром масс всех документов, относящихся к соответствующей категории.
Функция СБУ1 (с1) определяется либо как величина обратная расстоянию от вектора из весовых значений термов, входящих в документ ё, до профайла категории 1 — С, либо как скалярное произведение этих векторов.
Метод Rocchio дает удовлетворительные результаты когда документы из одной категории близки друг к другу по расстоянию.