< Попер   ЗМІСТ   Наст >

Статистичні методи Data Mining

Ці методи включають: попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів); виявлення зв'язків і закономірностей (лінійний і нелінійний регресійний аналіз, кореляційний аналіз); багатовимірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз); динамічні моделі і прогноз на основі часових рядів.

Статистичні методи Data Mining поділяються на чотири групи методів: дескриптивний аналіз і опис початкових даних; аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз); багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції); аналіз часових рядів (динамічні моделі і прогнозування).

Кібернетичні методи Data Mining

До цієї групи належать такі методи: еволюційне програмування; асоціативна пам'ять (пошук аналогів, прототипів); нечітка логіка; дерева рішень; системи обробки експертних знань, штучні нейронні мережі (розпізнавання, кластеризація, прогноз); генетичні алгоритми (оптимізація).

Нейронні мережі (Neural Networks) - це клас моделей, що базуються на аналогії з роботою мозку людини і призначаються для вирішення різноманітних задач аналізу даних після проходження етапу навчання на даних.

Нейронні мережі - це моделі біологічних нейронних мереж мозку, в яких нейрони імітуються однотипними елементами (штучними нейронами).

Нейронна мережа може бути представлена направленим графом зі зваженими зв'язками, у якому штучні нейрони є вершинами, а синаптичні зв'язки - дугами.

Серед сфер застосування нейронних мереж - автоматизація процесів розпізнавання образів, прогнозування показників діяльності підприємства, медична діагностика, прогнозування, адаптивне управління, створення експертних систем, організація асоціативної пам'яті, оброблення аналогових і цифрових сигналів, синтез й ідентифікація електронних систем.

За допомогою нейронних мереж можна, наприклад, передбачати обсяги продажу виробів, показники фінансового ринку, розпізнавати сигнали, конструювати самонавчальні системи.

Нейронна мережа є сукупністю нейронів, з яких складаються шари. У кожному шарі нейрони пов'язані з нейронами попереднього і наступного шарів. Серед задач Data Mining, що вирішуються за допомогою нейронних мереж, розглядатимемо такі:

  • 1. Класифікація (навчання з учителем). Приклади завдань класифікації: розпізнавання тексту, розпізнавання мови, ідентифікація особи.
  • 2. Прогнозування. Для нейронної мережі задача прогнозування може бути поставленою так: знайти оптимальне наближення функції, заданої кінцевим набором вхідних значень.
  • 3. Кластеризація (навчання без учителя). Прикладом задачі кластеризації може бути завдання стиснення інформації шляхом зменшення розмірності даних.

Генетичні алгоритми - різновид еволюційних обчислень. Засновником генетичних алгоритмів є Дж. Холланд. Суть їх розкривається у книзі "Адаптація у природних і штучних системах".

Генетичні алгоритми (ГА) - це алгоритми, що дають змогу знайти задовільне рішення для аналітично нерозв'язуваних проблем через послідовний підбір і комбінування параметрів з використанням механізмів, що нагадують біологічну еволюцію.

ГА належать до універсальних методів оптимізації, що дають змогу вирішувати задачі різних типів (комбінаторні, загальні задачі з обмеженнями і без обмежень) і різного ступеня складності. ГА характеризуються можливістю як однокри-теріального, так і багатокритеріального пошуку в інформаційному просторі. Інтеграція ГА і нейронних мереж допомагає вирішувати проблеми пошуку оптимальних значень ваг входів нейронів, а інтеграція ГА і нечіткої логіки дає можливість оп-тимізувати систему продукційних правил, які можуть бути використані для управління.

Різні методи Data Mining характеризуються певними властивостями. Серед основних властивостей і характеристик методів Data Mining можна назвати точність, масштабованість, здатність до інтерпретації, перевірки, трудомісткість, гнучкість, швидкість і популярність.

Масштабованість - властивість обчислювальної системи, що забезпечує розгорнення системних характеристик, наприклад, швидкості реакції, загальної продуктивності при додаванні до неї обчислювальних ресурсів.

Для досягнення успіху в інтелектуальному аналізі даних необхідно мати чітке уявлення про мету аналізу; зібрати реле-вантні дані; вибрати адекватні методи аналізу та перевірити передумови їх застосування; обрати програмно-технологічні та математичні засоби, що реалізують ці методи; виконати аналіз та прийняти рішення про використання результатів. Загальна схема використання методів Data Mining складається з таких етапів (рис. 8.8).

Етапи інтелектуального аналізу даних

Рис, 8.8. Етапи інтелектуального аналізу даних

На першому етапі виконується осмислення поставленої задачі і уточнення цілей, які мають досягатися методами Data Mining, тобто формується гіпотеза (рис. 8.9). Гіпотеза - частково обґрунтована закономірність знань, що слугує для зв'язку між різними емпіричними фактами або для пояснення факту чи групи фактів.

Важливо правильно сформулювати цілі і вибрати необхідні для їх досягнення методи, оскільки від цього залежить подальша ефективність усього процесу. Необхідно підібрати параметри, що якнайкраще описують об'єкт. Після вибору параметрів дані можуть бути представлені у вигляді таблиці. Після підготовки таблиці з описом параметрів потрібно оцінити значимість кожного з них. Можливо, частина з них буде відсіяна у результаті аналізу.

Є кілька методів збору необхідних для аналізу даних: 1) отримання цих даних з облікових систем; 2) отримання відомостей з непрямих даних; 3) використання відкритих джерел; 4) проведення власних маркетингових досліджень і заходів щодо збору даних; 5) збирання даних вручну.

Другий етап полягає у приведенні даних до форми, придатної для застосування методів Data Mining.

Третій етап - це застосування методів Data Mining, сценарії якого можуть бути різними і включати складну комбінацію різноманітних методів, особливо якщо методи дозволяють проаналізувати дані з різних позицій.

Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає у тому, що всі наявні дані, які необхідно аналізувати, поділяються на дві групи різної розмірності. На більшій групі, застосовуючи методи Data Mining, одержують моделі, а на меншій - перевіряють їх. За різницею в точності між тестовою і навчальною групами можна стверджувати про адекватність побудованої моделі.

Останній етап - інтерпретація одержаних моделей експертом у цілях їх використання для прийняття рішень, додавання нових правил і залежностей у бази знань. Цей етап часто має на увазі використання методів, що знаходяться на стику технології Data Mining і технології експертних систем.

Є інші підходи щодо моделювання та реінжинірингу аналітичного процесу в організації в цілому. Особливість, наприклад, ситеми KXEN полягає у тому, що закладений у ній математичний апарат на основі теорії мінімізації структурного ризику дає змогу практично повністю автоматизувати процес побудови моделей і на порядок збільшити швидкість аналізу, що проводиться. Відмінності традиційного процесу Data Mining і підходу KXEN наведено на рис. 8.9. Таким чином, побудова моделі у KXEN з проекту дослідження перетворюється на функцію аналізу в режимі он-лайн у вигляді "питання-відповідь". Причому відповіді даються в тих термінах, у яких було сформульоване питання, і завдання користувача зводиться до того, щоб ставити потрібні питання і вказувати дані для аналізу. Серед переваг KXEN можна назвати: зручна і безпечна робота з даними; наочність результатів моделювання, легкість для розуміння: графічне відображення моделей; широкі можливості застосування моделей: автоматична генерація коду моделей різними мовами, при цьому модель зможе працювати автономно.

Отже, інтелектуальний аналіз даних дає змогу автоматично, ґрунтуючись на великій кількості накопичених даних, генерувати гіпотези, які можуть бути перевірені іншими засобами аналізу, наприклад, OLAP.

Перед застосуванням методів Data Mining початкові дані мають бути перетворені. Вид перетворень цих даних залежить від методів.

Методи та інструменти Data Mining можуть ефективно використовуватися в різних сферах людської діяльності: бізнесі, медицині, науці, телекомунікаціях.

Серед подібних інструментів відомі Darwin компанії Thinking Machines, що нині входить в Oracle Corporation, та Intelligent Miner for Data корпорації IBM. Останнім часом намічається тенденція до інтеграції можливостей Data Mining у сервери баз даних. Так, корпорація Microsoft реалізувала деякі алгоритми у версії СУБД SQL Server 2000.

Найважливішим ресурсом сучасного підприємства, здатним значно вплинути на підвищення його конкурентоспроможності, є знання. Знання стають четвертим фактором вироб-

ництва, а їх значимість стає більш пріоритетною, ніж інші ресурси, капітал, праця.

OLAP, ВІ та Data Mining, що ґрунтуються на методах статистичної обробки, прогнозування і візуалізації, допомагають аналізувати структуровані дані. Складнішою є задача аналізу неструктурованих даних.

 
< Попер   ЗМІСТ   Наст >