< Попер   ЗМІСТ   Наст >

Кластеризация

Все рассмотренные выше классические модели информационного поиска имеют общий недостаток, связанный с большими размерностями. Для обеспечения эффективной работы необходимо группирование как термов, так и тематически подобных документов. Только в этом случае может быть обеспечена обработка современных информационных массивов в режиме реального времени. В данном случае на помощь приходят два основных приема -классификация и кластеризация. Классификация - это отнесение каждого документа к определенному классу с заранее известными признаками, полученными на этапе обучения системы. Число классов при классификации строго ограничено.

Кластеризация - разбиение множества документов на кластеры - подмножества, смысловые параметры которых заранее неизвестны. Количество кластеров может быть произвольным или фиксированным. Если классификация допускает приписывание документам определенных, известных заранее признаков, то кластеризация более сложный процесс, который допускает не только приписывание документам некоторых признаков, но и выявление самых этих признаков - классов.

Классификация и кластеризация представляют собой два уровня человеческого участия в процессе группирования документов. Механизм классификации обычно обучается на отобранных документах только после того, как заканчивается стадия обучения путем автоматического выявления классов (кластеров).

Задачей кластеризации является автоматическое выявление групп семантически подобных документов. Однако, в отличие от классификации, тематическая ориентация этих групп не известна заранее. Цель всех методов кластеризации массивов документов состоит в том, чтобы подобие документов, которые попадают в кластер, было максимальным. Поэтому методы кластерного анализа базируются на таких определениях кластера, как множества документов, значение семантической близости между любыми двумя элементами которых не меньше определенного порога или значение близости между любым документом множества и центром кластера также не меньше определенного порога.

При использовании численных методов кластерного анализа определения близости используются такие основные метрики:

Евклидово расстояние:

которое является частным случаем метрики Минковского при р=2:

Для группирования документов, представленных в виде векторов весовых значений входящих в них термов, часто используется метрика, базирующаяся на скалярном произведении весовых векторов:

Где - документы элемент матрицы весовых значений термов, входящих в

нормализированный вектор

Начальным пространством признаков обычно выбирается пространство термов, которое образуется в результате анализа большого массива документов. Для проведения такого анализа используются разные подходы -весовой, вероятностный, семантический и т. д.

В области информационного поиска кластерный анализ чаще всего применяется для решения двух задач -группирования документов в базах данных (информационных массивах) и группирования результатов поиска.

Для статических документальных массивов методы кластерного анализа в настоящее время получили большое развитие и популярность. Вместе с тем открытым остается вопрос применения этих методов к динамично изменяемым информационным потокам, которым присущи, кроме динамики, еще и большие объемы.

Методы кластерного анализа находят широкое применение в процедурах ранжирования откликов информационно-поисковых систем, при построении персонализированных папок поиска, персональных поисковых интерфейсов пользователей информационно-поисковых систем.

 
< Попер   ЗМІСТ   Наст >