< Попер   ЗМІСТ   Наст >

Байесовская логистическая регрессия

В модели байесовской логистической регрессии рассматривается условная вероятность принадлежности документа П классу С : р(С| П).

Предполагается, что документ определяется термами, входящими в него, т.е. в рамках данной модели документ -это вектор:

, где wi- вес терма і, а N -размер словаря.

Модель байесовской логистической регрессии задается формулой:

где

- вектор параметров модели, а

р - логистическая функция, в качестве которой рекомендуется использовать:

Основная идея подхода состоит в том, чтобы использовать предшествующее распределение вектора параметров Д , в котором каждое конкретное значение Д. с большой вероятностью может принимать значение, близкое к 0. При реальных расчетах принимаются гипотезы о Гауссовском или Лапласовом распределении значений Д, а также то, что все величины Д взаимно независимы.

Наивная байесовская модель

Рассматривается условная вероятность принадлежности объекта классу С при том, что он обладает признаками

В соответствии с теоремой Байеса:

По определению условной вероятности:

В соответствии с "наивным" байесовским подходом

предполагается, что события независимы для любых

Перейдем к классификации документов. В случае бинарной классификации "наивная" байесовкая вероятность принадлежности документа классу определяется по формуле:

В соответствии с теоремой Байеса:

Допустим, классификация происходит только по двум классам - С и С . Тогда в соответствии с формулой Байеса имеем:

В качестве критерия принадлежности документа к категории рассматривается следующее отношение вероятностей:

На практике используется логарифм отношения вероятностей:

Если выполняется неравенство

То считается, что документ V относится к категории С .

 
< Попер   ЗМІСТ   Наст >