< Попер   ЗМІСТ   Наст >

Мера близости объекта и категории

В этом методе правилом классификатора является скалярное произведение. Пусть каждой категории C соответствует вектор Cj = (сЛ, ciN), где N - размерность пространства термов. В качестве правила классификатора используется формула:

Нормализация проводится обычно таким образом, чтобы итоговая формула для CSV(d) - это нормированное скалярное произведение - косинус угла между вектором категории c и вектором из весовых значений термов, входящих в документ d - d = (dl, dN) :

Координаты вектора С1 определяются в ходе обучения, которое проводится по каждой категории независимо от других.

Метод Rocchio

Некоторые классификаторы используют так называемый профайл для определения категории. Профайл - это список взвешенных термов, присутствие или отсутствие которых позволяет наиболее точно отличать конкретную категорию от других категорий.

Профайл (profile) -прототип документа, категории или массива документов, чаще всего совокупность взвешенных термов. К таким методам классификации относится и метод Rocchio, который относится к линейным классификаторам, в которых каждый документ представляется в виде вектора весовых значений термов. Профайл категории І будем рассматривать как вектор С{ = (с1І, с№) (Ы- количество термов в словаре), значения элементов которого си в рамках метода Rocchio рассчитывается по формуле:

где wky - это вес терма tk в документе dy (рассчитанный, например, по принципу TF IDF),

и

В этой формуле, a и Ь -контрольные параметры, которые характеризуют значимость положительных и отрицательных примеров. Например, если ОС = 1 и Ь = 0, С будет центром масс всех документов, относящихся к соответствующей категории.

Функция СБУ1 (с1) определяется либо как величина обратная расстоянию от вектора из весовых значений термов, входящих в документ ё, до профайла категории 1 — С, либо как скалярное произведение этих векторов.

Метод Rocchio дает удовлетворительные результаты когда документы из одной категории близки друг к другу по расстоянию.

 
< Попер   ЗМІСТ   Наст >