Формалізований опис економічної інформації
Поняття даних
Поряд з поняттям "інформація" поширення набуло поняття "дані". У загальновживаному сенсі це синоніми, але існує досить суворе відмінність, яка полягає в тому, що "інформація" має загальнотеоретичне значення – "заходи упорядкованості системи", а поняття "дані" зводить інформацію до об'єкта тих чи інших перетворень. У цьому відношенні дані представляють собою конкретні відомості (інформацію в певній формі – мовну, аудіо, відео) на носії, які можна піддати обробці, в тому числі і комп'ютерними засобами. Таким чином, інформацію пов'язують із змістом відомостей про об'єкти реального світу, а дані – з формою подання цих відомостей в процесі їх зберігання і переробки. Співвідношення понять "інформація" і "дані" подано на рис.1.2. [6]:
Рис. 1.2. Ілюстрація співвідношення понять "інформація" та "дані"
Інформація за допомогою процедур формалізованого опису перетворюється у дані. Таким чином, дані – це інформація, що подана у формалізованому вигляді, прийнятому для опрацювання автоматичними засобами за можливою участю людини.
Процес перетворення економічної інформації у відповідні дані приведений на рис. 1.3:
Рис. 1.3. Процес перетворення інформації в дані
Найбільш поширеними процедурами формалізованого опису економічної інформації є: класифікація та кодування [6, 19].
Класифікація економічної інформації
Система класифікації визначається і характеризується використаним методом класифікації, ознаками, їх послідовністю і кількістю ступенів класифікації, а також кількістю угруповань (ємністю).
Метод класифікації – це сукупність правил створення системи класифікаційних угруповань і їх зв'язки між собою.
Ознака класифікації – це властивість об'єкта класифікованої множини, які можуть мати кількісне або якісне значення. Кількість значень ознаки класифікації визначає кількість класифікаційних угруповань, які можуть бути створені при розподілі множини об'єктів за цією ознакою.
Таким чином,класифікація – це поділ множини об'єктів на частини за їхньою подібністю чи розбіжністю згідно з прийнятими методами.
Існує два методи класифікації, а саме: ієрархічний та фасетний [6].
Ієрархічний метод класифікації – це послідовний поділ множини об'єктів на підлеглі класифікаційні групування, між якими встановлюються відношення підпорядкованості (ієрархії) (рис. 1.4).
Рис. 1.4. Ієрархічна схема класифікації
Ієрархічний метод класифікації характеризується тим, що початкова множина об'єктів техніко-економічної інформації послідовно поділяється на угруповання (класи) першого рівня поділу, далі – на угруповання наступного рівня і т.п. Сукупність угруповань утворює при цьому ієрархічну деревоподібну структуру, яку часто зображують у вигляді гіллястого графа, вузлами якого є угруповання (рис. 1.5).
Кількість рівнів класифікації визначає глибину класифікації. Кожне угруповання може поділяти на угруповання нижчого рівня з використанням своєї ознаки, і глибина класифікації у кожній гілці ієрархічної структури може бути різною.
В ієрархічній класифікації в окремому випадку на кожному рівні поділу може бути використана одна ознака. Це означає, що об'єкти початкової множини характеризуються однаковим набором ознак.
Найбільш суттєвими і складними питаннями, при використанні ієрархічного методу класифікації, є вибір системи ознак, які стануть основою поділу, а також їх послідовність. Вибрані ознаки мають бути визначальними в розв'язуванні конкретних техніко-економічних задач, для яких створюється ця система класифікації. При цьому формовані в угрупованні об'єкти повинні мати найбільшу кількість однакових ознак. Вибір послідовності ознак залежить передусім від характеру техніко-економічної інформації.
При застосуванні ієрархічного методу класифікації для об'єктів із незалежними ознаками (наприклад, кадрів, продукції тощо) вибір послідовності ознак залежить від статистичних характеристик – частоти та ймовірності звертання до тієї чи іншої ознаки (найчастішим звертанням мають відповідати вищі рівні класифікації).
Ієрархічний метод класифікації характеризується кількістю рівнів класифікації, глибиною, ємністю і гнучкістю. Кількість рівнів визначає глибину класифікації, яка встановлюється залежно від міри необхідної конкретизації угруповань і кількості ознак, які беруть участь у розв'язуванні відповідних задач. Від глибини класифікації та кількості створених на кожному рівні угруповань залежить ємність. Як правило, найбільшу кількість послідовних угруповань, на які може поділяти попереднє угруповання на кожному рівні класифікації, беруть сталою або для всієї класифікації, або для даного рівня. Розділи ідентифікуються однозначним цифровим кодом. Код підрозділу складається з коду розділу та однозначного коду підрозділу.
Переваги методу: логічність побудови, чіткість виділення ознак, великий інформаційний обсяг, традиційність і звичність використання, повна пристосованість до ручної обробки інформації, велика інформативність кодів, які мають змістове навантаження.
Недоліки методу: жорсткість структури, яка зумовлена фіксованістю ознак і заздалегідь встановленим порядком їх проходження, які не допускають включення за відсутності резервного обсягу нових об'єктів класифікаційних угруповань та ознак; неможливість групувати за будь-якою наперед незаданою ознакою; відсутність для стабільності класифікаторів потрібних великих резервних обсягів [6, 19].
Фасетний метод класифікації – це паралельний поділ множини об'єктів на незалежні класифікаційні угруповання. При цьому множина об'єктів, що характеризується деяким набором однакових для всіх об'єктів ознак (фасет), значення яких відповідають конкретним виразам зазначених ознак, може поділятися багаторазово і незалежно.
У класифікаторах фасети найчастіше розміщуються простим переліком і мають свій код (рис. 1.5).
Кожна ознака фасетної класифікації відповідає фасету, що являє собою список значень найменованої ознаки класифікації. Отже, система класифікації може бути подана переліком незалежних фасетів (списків), які містять значення ознак класифікації.
Рис. 1.5. Фасетна схема класифікації
Множинний опис об'єктів техніко-економічної інформації відбувається в кожній конкретній задачі на основі завдання фасетної формули, яка утворюється із послідовності ознак класифікації. Кількість фасетних формул визначається можливим поєднанням ознак. Для кожної фасетної формули може бути утворена ієрархічна класифікація, в якій на кожному рівні поділу використовується одна ознака, що відповідає окремій фасеті, а послідовність ознак визначається фасетною формулою.
Отже, будь-яке угруповання у системі класифікації визначається набором значень ознак об'єктів класифікації (може бути одна або кілька ознак). Оскільки, кількість можливих класифікацій швидко зростає зі зростанням незалежних ознак, у ряді випадків краще мати перелік окремих фасетів – ознак. Будь-яка комбінація фасетів визначає одну ієрархічну класифікацію, кожне угруповання якої визначається комбінацією значень ознак. Загалом уся множина об'єктів класифікації може описуватися досить великою кількістю дескрипторів, які відповідають значенням різних ознак множини об'єктів. Кожний об'єкт може описуватись якоюсь частиною цих значень.
У кожному конкретному випадку фасетна формула визначається залежно від характеру розв'язуваних задач і алгоритму обробки даних. Можуть створюватись одночасно різні незалежні підмножини класифікаційних угруповань.
Фасетний метод класифікації є однорівневим, оскільки вхідна множина об'єктів ділиться на підмножини відповідно до значень ознак окремих фасет (рис. 1.5).
Переваги методу: гнучкість структури, яка може пристосовуватися до змін у задачах; можливість включати нові фасети чи видаляти старі; особливо ефективний у разі функціонування комп'ютерних інформаційних систем.
Недоліки методу: недостатньо повне використання обсягу через відсутність практично багатьох із можливих комбінацій фасет; не традиційність і незвичайність при використанні для ручної обробки даних [6, 19].