Байесовская логистическая регрессия
В модели байесовской логистической регрессии рассматривается условная вероятность принадлежности документа П классу С : р(С| П).
Предполагается, что документ определяется термами, входящими в него, т.е. в рамках данной модели документ -это вектор:
, где wi- вес терма і, а N -размер словаря.
Модель байесовской логистической регрессии задается формулой:
где
- вектор параметров модели, а
р - логистическая функция, в качестве которой рекомендуется использовать:
Основная идея подхода состоит в том, чтобы использовать предшествующее распределение вектора параметров Д , в котором каждое конкретное значение Д. с большой вероятностью может принимать значение, близкое к 0. При реальных расчетах принимаются гипотезы о Гауссовском или Лапласовом распределении значений Д, а также то, что все величины Д взаимно независимы.
Наивная байесовская модель
Рассматривается условная вероятность принадлежности объекта классу С при том, что он обладает признаками
В соответствии с теоремой Байеса:
По определению условной вероятности:
В соответствии с "наивным" байесовским подходом
предполагается, что события независимы для любых
Перейдем к классификации документов. В случае бинарной классификации "наивная" байесовкая вероятность принадлежности документа классу определяется по формуле:
В соответствии с теоремой Байеса:
Допустим, классификация происходит только по двум классам - С и С . Тогда в соответствии с формулой Байеса имеем:
В качестве критерия принадлежности документа к категории рассматривается следующее отношение вероятностей:
На практике используется логарифм отношения вероятностей:
Если выполняется неравенство
То считается, что документ V относится к категории С .