Корреляциионный анализ
Если обозначить через У( член ряда количества публикаций (количества электронных сообщений, поступивших, например, в день 4 t = 1,...,N), то автокорреляционная функция для этого ряда У определяется как:
где т - среднее значение ряда У
Рис. 3.12.4 - Зависимость D(n) ряда наблюдений (ось ординат) от длины отрезка аппроксимации n (ось абсцисс) в логарифмической шкале (а =0.7)
Предполагается, что ряд У может содержать скрытую периодическую составляющую.
Известно, что функция автокорреляции обладает тем свойством, что если скрытая периодическая составляющая существует, то ее значение асимптотически приближается к квадрату среднего значения исходного ряда.
Бриллюэн Л. Наука и теория информации. М.: Гос. изд. физ.-мат. лит., 1960.
Известна теорема, что если рассматриваемый ряд периодический, т.е. может быть представлен как:
то его автокорреляционная функция будет равна:
т.е. автокорреляционная функция периодического ряда также является периодической, имеет ту же частоту, но без фазового угла ф.
Рассмотрим числовой ряд X, являющийся суммой некоторой содержательной составляющей N и синусоидальной сигнала 5:
Найдем функцию автокорреляционную функцию для этого ряда (значения приведены к среднему т = 0 и разделены на среднеквадратичные отклонения):
Очевидно, первое слагаемое - это функция непериодическая, асимптотически стремящаяся к нулю. Так как взаимная корреляция между N и Б отсутствует, то третье и четвертое слагаемое также стремятся к нулю. Таким образом, ненулевой вклад составляет второе слагаемое -автокорреляция сигнала Б. Т.е. функция автокорреляции ряда X остается периодической.
В качестве иллюстрации рассмотрим модель информационного потока, в рамках которой рассматривается временной ряд, соответствующий количеству новых сообщений в сети. Предполагается, что ежедневное количество сообщений в сети растет по экспоненциальному закону (с очень небольшим значением экспоненциальной степени), и на это количество накладываются колебания, связанные с недельной цикличностью в работе информационных источников. Также принимается во внимание некоторый элемент случайности, выраженный соответствующими отклонениями.
Для получения соответствующего временного ряда были рассмотрены значения функции:
которая реализует простейшую модель информационного потока - экспонента отвечает за рост количества публикаций во времени (общая тенденция), синус - за недельную периодичность, параметр а - за случайные отклонения. Количество публикаций у не может быть отрицательным числом. На рис. 3.12.5 представлен график модели .
Исходный ряд был обработан: приведен к нулевому среднему и нормирован (каждый член разделен на среднее). После этого были рассчитаны коэффициенты корреляции, которые для рядов измерений х длиной N рассчитываются по формуле:
где Г(к) - функция автокорреляции;
дисперсия.
Рис. 3.12.5 - Модель потока с экспоненциальным ростом (ось абсцисс - переменная х - день, ось ординат -переменная у- количество публикаций)
На рис. 3.12.6 приведен график значений коэффициентов корреляций (ось абсцисс - переменная к, ось ординат - коэффициент корреляции R(к).
Графическое представление коэффициента корреляции для ряда наблюдений, соответствующего динамике реального информационного потока веб-публикаций свидетельствует о неизменности корреляционных свойств по дням недели (рис. 3.12.7). Вместе с тем коэффициенты корреляции ряда наблюдений, усредненного по неделям, аппроксимируются гиперболической функцией, которая характеризует долгосрочную зависимость членов исходного ряда (рис. 3.12.8).
Рис. 3.12.6 - Значения коэффициентов корреляции модели
Рис. 3.12.7 - Коэффициенты корреляции ряда наблюдений R(к) (ось ординат) в зависимости от к (ось абсцисс)
Рис. 3.12.8 - Коэффициенты корреляции ряда наблюдений R(к) (ось ординат), усредненного по неделям в зависимости от к (ось абсцисс)