< Попер   ЗМІСТ   Наст >

Теоретичні відомості

Організація доступу до інформаційних ресурсів є одним із важливих завдань інформаційної підтримки сучасної науки, виробництва. Для отримання потрібної інформації в мережі Інтернет необхідно звернути увагу на інформаційно-пошукові системи. Інформаційно-пошукова мова виступає основою пошуку необхідної інформації.

Інформаційно-пошукова система - різновид автоматизованих інформаційних систем, що опрацьовують запит користувача і призначені для пошуку текстів (документів, їх частин, фактографічних записів) у сховищах (базах даних) за формальними характеристиками.

Інформаційно-пошукова мова (ШМ) - штучна мова, призначена для вираження семантичних аспектів інформаційних джерел (частіше всього - документів) і запитів у формі, придатній для здійснення пошуку інформації.

Основним призначенням пошукових систем є пошук інформації. Документів, здобуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних, таких як Інтернет та локальні Intranet.

Інформаційний пошук (ІП) (англ. Information retrieval) - наука про пошук неструктурованої документальної інформації. Об'єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (information query), який може містити слова, фрази чи речення або їх комбінацію. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами - ключовими словами (словами або словосполученнями).

У всесвітній мережі Інтернет для організованого пошуку інформації використовують пошукові системи.

Пошукова система - онлайн-служба (програмно-апаратний комплекс із веб-інтерфейсом), що надає можливість пошуку інформації в мережі Інтернет [15].

Таким чином, процес пошуку інформації передбачає взаємодію у режимі "запит - відповідь" користувача та інформаційно-пошукової системи через посередництво заздалегідь узгодженої ІПМ.

Запит - це ключове слово або фраза, яку вводить користувач у рядок пошуку.

Здійснення інформаційного пошуку передбачає деякі принципи роботи:

  • - з використанням векторно-просторового представлення (vector space model);
  • - пошук імовірності появи пошукового терміну в документі (probabilistic retrieval);
  • - з побудовою мовної моделі для кожного документа (language models);
  • - з побудовою мережі припущень, яка використовується для встановлення відповідності документа до пошукового запиту (inference network);
  • - з Булевим індексуванням, коли кожному пошуковому терміну присвоюється своя "вага", що потім враховується при побудові впорядкованих списків документів (Boolean indexing);
  • - з використанням не проявленого семантичного індексування (latent semantic indexing);
  • - з побудовою нейромереж (neural networks);
  • - з використанням продуктивних алгоритмів, коли початковий пошуковий запит "еволюційно" видозмінюється (genetic algorithms);
  • - з використанням нечітких множин, коли документу ставиться у відповідність нечітка множина (fuzzy set retrieval).

Кожна пошукова система використовує власний принцип пошуку інформації. Пошукові системи Yandex, Rambler й Google мають різні алгоритми, тобто різна тематична вибірка за певним пошуковим запитом. Крім того, кожна компанія (підприємство), визначаючи коло ключових слів, під якими оптимізується сайт, рухається за власним маршрутом. У такий спосіб виходить, що в реальному житті ідентичні щодо запропонованої продукції компанії можуть і не зустрічатися в якійсь пошуковій вибірці. Зазвичай компанії, що йдуть у ногу з часом, як правило, намагаються охопити якнайбільше ключових слів і тим паче домогтися перших місць у пошуковій видачі - ТОП10, тобто першої сторінки розвідувача.

Більшість пошукових інструментів пропонують два способи пошуку - simple search (простий пошук) та advanced search (розширений пошук) з використанням спеціальної форми запиту та без неї.

Інформаційно-пошукові мови поділяються на два основні типи:

  • o ЩМ класифікаційного типу. До мов цього типу відносяться ієрархічні, алфавітно-предметні та фасетні класифікації. Наприклад, класифікатори ББК та УДК.
  • o ЩМ дескрипторного типу. Словник такої мови (контрольований словник) складається з фіксованого набору слів і словосполучень (дескрипторів, ключових слів) однієї або декількох природних мов. Таким чином, індексування інформаційного джерела передбачає створення його пошукового образу як певного набору слів і словосполучень (з його тексту), які характеризують його ключові змістовні ознаки.

ІПС можуть використовуватися для зберігання і пошуку нормативних, планових, звітних та інших документів, даних для наукових досліджень. Такі системи відрізняються одна від одної за багатьма ознаками, але при вирішенні завдань збору, зберігання і видачі інформації мають спільні процедури. Г. Тесленко визначає такі:

  • - аналіз документів і їх добір;
  • - створення пошукового образу документів (ПОД);
  • - запис документів і їх пошукових образів на прийняті носії;
  • - зберігання документів і ПОД;
  • - аналіз запитів;
  • - видача документів користувачам.

Для отримання доступу до веб-сторінок необхідно встановити браузер, що дозволяє переглядати вміст гіпертекстових документів.

Веб-браузер (от англ. Web browser) - програмне забезпечення для перегляду веб-сайтів, тобто для запиту веб-сторінок, їх обробки, виведення та переходу від однієї сторінки до іншої.

Наведемо перелік браузерів:

перелік браузерів

Найбільш ефективним способом вирішення отримання достовірних інформаційних ресурсів є організація інформації в інформаційні системи, електронні публікації та колекції, відображені у форму електронних бібліотек.

Електронні бібліотеки - це розподілені каталогізовані інформаційні системи, що дозволяють зберігати, обробляти, поширювати, аналізувати, а також організовувати пошук у різноманітних колекціях електронних документів через глобальні мережі передачі даних.

Електронні публікації наукових колекцій - це одна з форм зберігання та обміну інформацією. Для неї характерні, насамперед, динамічність (можливість оновлення) і глобальний доступ (через комп'ютерні мережі).

 
< Попер   ЗМІСТ   Наст >