Спектральный, корреляционный и вейвлет-анализ сложных сигналов

Стр 1 из 6Следующая ⇒

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Юго-Западный государственный университет»

Спектральный, корреляционный и вейвлет-анализ сложных сигналов

Курс лекций

Специальность 210020

«Конструирование и технология электронных средств»

ОСНОВНЫЕ ПОЛОЖЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» — соотношение, взаимосвязь. Второй термин (от лат. «regressio» — движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» — у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

В естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой (например, скорость свободного падения тела в вакууме в зависимости от времени и т.п.).

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или с тохастической, вероятностной ).

Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.

В силу неоднозначности статистической зависимости между Y и X для исследователя, в частности, представляет интерес усредненная по x схема зависимости, т.е. закономерность в изменении условного математического ожидания М_Х(Y) (математического ожидания случайной переменной Y, вычисленного в предположении, что переменная X приняла значение х в зависимости от х.

Определение. Корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.

Корреляционная зависимость может быть представлена в виде:

М_х(Y)=φ (x) (1) или М_Y(X)=φ (y) (2)

Уравнения (1) и (2) называются модельными уравнениями регрессии (или просто уравнениями регрессии) соответственно Y по X и X по Y, функции φ (х) и ψ (у) - модельными функциями регрессии (или функциями регрессии), а их графики — модельными линиями регрессии (или линиями регрессии).

Для отыскания модельных уравнений регрессии, вообще говоря, необходимо знать закон распределения двумерной случайной величины (Х, Y). На практике исследователь, как правило, располагает лишь выборкой пар значений (х_i, у_i) ограниченного объема. В этом случае речь может идти об оценке (приближенном выражении) по выборке функции регрессии. Такой наилучшей (в смысле метода наименьших квадратов) оценкой является выборочная линия (кривая) регрессии Y по X:

(3)

где y_х — условная (групповая) средняя переменной Y при фиксированном значении переменной Х= х; b₀, b₁…b_p — параметры кривой.

Аналогично определяется выборочная линия (кривая) регрессии Х по Y:

(4)

где х_у — условная (групповая) средняя переменной X при фиксированном значении переменной Y = у; c₀, c₁,..., c_p — параметры кривой.

Уравнения (3), (4) называют также выборочными уравнениями регрессии соответственно Y по X и X по Y.

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа.

Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа — выявление связи между случайными переменными и оценка ее тесноты.

Линейная парная регрессия

Данные о статистической зависимости удобно задавать в виде корреляционной таблицы.

Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов X (млн руб.) для совокупности 50 однотипных предприятий (табл. 1).

В дальнейшем для краткости там, где это очевидно по смыслу, мы часто и выборочные уравнения (линии) регрессии будем называть просто уравнениями (линиями) регрессии.

(В таблице через х_i и у_j обозначены середины соответствующих интервалов, а n_i и n_j — соответственно их частоты).

Изобразим полученную зависимость графически точками координатной плоскости (рис. 1). Такое изображение статистической зависимости называется полем корреляции.

Для каждого значения х_i (i = 1, 2,..., l), т.е. для каждой строки корреляционной таблицы вычислим групповые средние

(5)

где n_ij — частоты пар (х_i, у_j ) и , m — число интервалов по переменной Y.

Таблица 1

Рис. 1

Вычисленные групповые средние поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по X (рис. 1).

Аналогично для каждого значения y_j (j = 1, 2,..., m) по формуле

(6)

вычислим групповые средние х, (см. нижнюю строку корреляционной таблицы), где , l - число интервалов по переменной X.

По виду ломаной можно предположить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (число рассматриваемых предприятий) п:

(7)

Поэтому уравнение регрессии (3) будем искать в виде:

(8)

Найдем формулы расчета неизвестных параметров уравнения линейной регрессии. С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры Ь₀ и Ь₁ выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних вычисленных по формуле (5), от значений , найденных по уравнению регрессии (8), была минимальной:

(9)

На основании необходимого условия экстремума функции двух переменных S = S(Ь₀, b₁, ) приравниваем нулю ее частные производные, т.е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

(10)

Учитывая (5), преобразуем выражения:

Теперь с учетом (7), разделив обе части уравнений (10) на п, получим систему нормальных уравнений в виде:

(11

где соответствующие средние определяются по формулам:

Подставляя значение Ь₀ = - Ь_x из первого уравнения системы (11) в уравнение регрессии (8), получим

Коэффициент Ь₁ в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) У по X, будем обозначать символом Ь_ух. Теперь уравнение регрессии Y по X запишется так:

Коэффициент регрессии У по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.

Решая систему (12.11), найдем

где — выборочная дисперсия переменной X:

μ — выборочный корреляционный момент или выборочная ковариация:

Рассуждая аналогично и полагая уравнение регрессии (4) линейным, можно привести его к виду:

— выборочный коэффициент регрессии (или просто коэффициент регрессии) X по Y, показывающий, на сколько единиц в среднем изменяется переменная X при увеличении переменной У на одну единицу,

—выборочная дисперсия переменной Y.

Так как числители в формулах (17) и (21) для Ь_yx и Ь_xy совпадают, а знаменатели — положительные величины, то коэффициенты регрессии Ь_yx и Ь_xy, имеют одинаковые знаки, определяемые знаком μ. Из уравнений регрессии (16) и (20) следует, что коэффициенты Ь_yx и 1/Ь_xy определяют угловые коэффициенты (тангенсы углов наклона) к оси oх соответствующих линий регрессии, пересекающихся в точке ( , ) (см. рис. 3).

Коэффициент корреляции

Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (16).

На первый взгляд подходящим измерителем тесноты связи Y от X является коэффициент регрессии Ь_у_x ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется Y, когда X увеличивается на одну единицу. Однако Ь_у_x зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов X выразить не в млн руб., а в тыс. руб. Очевидно, что для «исправления» Ь_у_x как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение S.

Представим уравнение (16) в эквивалентном виде:

(28)

В этой системе величина

(29)

показывает, на сколько величин S_y изменится в среднем Y, когда X увеличится на одно S_x Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 2 приведены две корреляционные зависимости переменной Y по X. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б). Нетрудно видеть, что r совпадает по знаку с Ь_у_x (а значит, и с Ь_ху).

Рис. 2

Если r > 0 (Ь_ух> 0, Ь_ху> 0), то корреляционная связь между переменными называется прямой, если r < О (Ь_у_x < 0, Ь_ху< 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.

Учитывая (17), формулу для r представим в виде:

Отсюда видно, что формула для r симметрична относительно двух переменных, т.е. переменные Х и Y можно менять местами. Тогда аналогично (24) можно записать:

Найдя произведение обеих частей равенств (29) и (31), получим

т.е. коэффициент корреляции r переменных X и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

АНАЛОГОВОЕ И ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ.

2.1. Задача спектрального анализа и цифровая обработка сигналов.

Непрерывную или дискретную функцию одного переменного можно представить рядов Фурье по тригонометрическим функциям , или интегралом Фурье от этих функций. Задача спектрального анализа состоит в определении спектра функции – кооффициентов ряда Фурье и спектральной плотности в интеграле Фурье в зависимости от частоты или круговой частоты . Спектральный анализ сигналов имеет очень важное значение в радиоэлектронике, поэтому функцию обычно рассматривают как сигнал, зависящей от времени .
Цифровая обработка состоит из двух больших областей: спектрального анализа и цифровых фильтров. Обе области рассматривают цифровые сигналы, называемые также дискретными, которые представляются в виде дискретных функций времени с постоянным шагом дискретизации , т.е. время , где – номер отсчета. Цифровой сигнал получается при дискретизации аналогового сигнала , представляемого непрерывной функцией времени.
Алгоритмы цифровой обработки позволяют выполнять различные преобразования дискретных функций, причем можно преобразовывать как сами функции, так и их спектры.
Рассмотрим периодические и непериодические сигналы. В таблице 2.1 приводятся основные характеристики сигналов и их спектров, причем используются следующие обозначения:
Д=1 означает дискретный, Д=0 – аналоговый, П=1 означает периодический, П=0 – непериодический.

Таблица2.1.

Аналоговые и дискретные сигналы и их спектры

Дискретный непериодический сигнал (Д=1, П=0) при цифровой обработке обычно рассматривают как периодический (Д=1, П=1) с большими и физически разумными значениями периода .
Период определяет разрешение в спектре, т.е. разность частот соседних составляющих равна . Очевидно, что при получаем , т.е. сплошной спектр (Д=0).
Количество составляющих в спектре дискретного сигнала определяется количеством отсчетов на периоде .

2.2. Аналоговое преобразование Фурье (АПФ).

АПФ – это преобразование Фурье для аналогового сигнала, представляемого непрырывной функцией .
Переодическую функцию , имеющую период , можно представить рядом Фурье.

(2.1)

где - основная круговая частота сигнала,

- круговая частота -й гармоники сигнала,

(2.2)

- среднее значение (постоянная состовляющая сигнала) сигнала,

(2.3)

- косинусные коэффициенты сигнала,

(2.4)

- синусные коэффициенты сигнала.

Ряд (11.1) можно переписать в виде

(2.5)

Здесь – амплитуда гармоники с номером , – фаза той же гармоники. Значения и определяются по коэффициентам , с помощью формул

(2.6)

Комплексное число , его модуль и аргумент показаны на рис.2.1.

Рис. 2.1. Определение амплитуды

и фазы

гармоники по коэффициентам

Отметим, что величину называют комплексной амплитудой гармоники.
Для непериодических функций , когда , ряд Фурье (11.1) или (11.2) и выражения для его коэффициентов переходят в интегралы Фурье.

(2.7)

- обратное преобразование Фурье,

(2.8)

- прямое преобразование Фурье.

2.3. Дискретное преобразование Фурье (ДПФ).

ДПФ позволяет вычислять спектр дискретного сигнала, в том числе полученного из аналогового сигнала выборкой его значений , , . Оно основано на следующих положениях.
1. Сигнал является периодическим или периодически продолженным, - период.
2. Сигнал является дискретным и имеет постоянный шаг дискретизации .
3. Отсчеты сигнала на периоде представляются массивом , где – номера отсчетов, .
4. Количество отсчетов на периоде равно .
5. Условие периодичности сигнала имеет вид , т.е. .
6. Формулы ДПФ записываются в безразмерных целых переменных , , где – номера отсчетов сигнала, – номера спектральных составляющих.
7. Номера – это номера гармоник. Для вещественного сигнала (комплексный будет рассмотрен позже) значения для четного , т.е. гармоник вдвое меньше, чем отсчетов сигнала. Нечетные значения возможны, но мы их рассматривать не будем. Значение показывает количество полных колебаний на периоде. Например, на рис.11.2 показан гармонический сигнал для .
8. Для каждой гармоники определяются ее амплитуда и фаза. В вычислениях амплитуд и фаз используются синусных составляющих и косинусных составляющих, т.к. две синусные составляющие и являются нулевыми и не учитываются в формулах.

Рис. 2.2. Гармонический сигнал для

Безразмерные переменные

В ДПФ рассматриваются следующие физические переменные, характеризующие сигнал: время , период , частота -ой гармоники , шаг дискретизации , и для каждой переменной используется ее безразмерный аналог, см. таблицу 11.2.

Таблица 2.2

	размерные	безразмерные
Период
Время
Шаг дискретизации		1 или
Частота

– количество отсчетов на периоде, – номера отсчетов, – номера гармоник.
Связь размерных и безразмерных переменных дают простые формулы

(2.9)

где – частота первой гармоники, называемая также основной, - безразмерный шаг дискретизации. Безразмерные переменные позволяют использовать универсальные стандартные подпрограммы ДПФ для любых сигналов, т.к. размерные значения периода и частот в основных формулах не используются. Для спектрального анализа важны номера гармоник, а не размерные значения частот.

Используя (11.1), нетрудно показать, что гармоническое колебание или может быть записано в виде или , т.к. .

Сравнение ДПФ и АПФ

АПФ – это аналоговое преобразование Фурье. Оно определяет коэффициенты Фурье для аналогового сигнала, т.е. для непрерывной функции . Его формулы записаны в выше. Здесь укажем лишь на различия формул ДПФ и АПФ для периодического сигнала.

В (2.15), (2.16) суммируется конечное количество гармоник, а в АПФ их количество может быть бесконечным.
В (2.17), (2.18), (2.19), (2.20) при вычислении коэффициентов используются суммы, а в АПФ – интегралы, т.е. рассматривается бесконечно большое количество отсчетов на периоде.
С помощью интегралов в АПФ могут быть легко вычислены спектры лишь нескольких простых сигналов, а основное достоинство ДПФ – это возможность вычисления спектров любых дискретных сигналов.

Периодичность спектра.

Выше указывалось, что ДПФ дает гармоники с номерами от до . Что будет, если вычислить гармонику с номером ?

Пусть , т.е. . Используем (2.17) получим

(2.21)

т.к. .

Получили

(2.22)

Аналогичным образом получим

(2.23)

Эти формулы означают, что спектр ДПФ периодический по , т.к. . Кроме того, относительно имеется симметрия для и антисимметрия для .
Следовательно, если амплитудный спектр известен для гармоник , то далее все повторяется и поэтому вычисления при никогда не проводятся, см.рис.2.3.

Рис.2.3. Периодичность спектра ДПФ.

Отметим, что с помощью ДПФ (при ) правильно вычисляется половинка любой " шапочки" рис.2.3, что используется при вычислении спектров модулированных сигналов, например, для .

Наложение частот в ДПФ.

Этот эффект проявляется в тех случаях, когда количество отсчетов сигнала на периоде выбрано недостаточно большим.
Рассмотрим произвольный аналоговый сигнал . Пусть - его амплитудный спектр, который в общем случае содержит бесконечное количество гармоник. Пусть рассматриваемый сигнал дискретизирован и по его точкам с помощью ДПФ вычислен спектр , содержащий гармоник.
Если значение N выбрано правильно, то спектры и совпадают. Если же недостаточно велико, то спектры и существенно различаются, что показано на рис.2.4.

Рис. 2.4. Спектры аналогового и дискретного сигнала при правильном (б) и неправильном (в) выборе значения

На рис.2.4в даны только гармоники для рабочего диапазона ДПФ , а далее эти гармоники повторяются в соответствии с рис.2.3. Большие погрешности в спектре рис.2.1в обусловлены тем, что в исходном аналоговом сигнале есть гармоники с номерами , а в ДПФ они не рассматриваются из-за периодичности спектра.
Пусть - отсчет исходного аналогового сигнала , т.е. , .
Далее знак суммы по будет означать суммирование по этим значением , т.е. по всем отсчетам. Используем целый индекс для гармоник аналогового сигнала, в общем случае. Тогда аналоговое преобразование Фурье (АПФ) можно записать в соответствии с (2.2) в виде

(2.24)

По отсчетам (2.24) вычисляем прямое ДПФ, т.е. подставляем (2.24) в (2.17) или (2.19). Получим двойную сумму вида

(2.25)

Раскроем скобки и используем известные формулы для произведений, например,

Можно показать, что

При этом учитывается, что . Поэтому для коэффициента (или ) большинство слагаемых в двойной сумме (2.25) по k и p будет равно нулю и останутся только слагаемые с и слагаемые, для которых кратно .
Если аккуратно провести все указанные преобразования, то из (2.25) получим

(2.26)

и аналогичную формулу для . Из (2.26) делаем следующие выводы:
1. В вещественном ДПФ вычисляются гармоники с номерами , хотя в исходном аналоговом сигнале могут присутствовать гармоники с номерами .
2. Если в спектре исходного аналогового сигнала есть гармоники с номерами то при вычислении ДПФ они накладываются на гармоники с номерами и искажают их. Наложение происходит для гармоник с номерами и , если кратно . Это и есть эффект наложения частот (см. рис.2.5). При этом исходный спектр складывается как бы " гармошкой".

Рис.2.5. Эффект наложения частот при ДПФ.

- амплитудный спектр аналогового сигнала; здесь для ДПФ

, т.к.

3. Для устранения эффекта наложения частот нужны фильтры верхних частот для аналогового сигнала или большие значения N, т.к. спектр аналогового сигнала не должен иметь гармоник с номерами . Если такие гармоники есть, то они не должны превышать заданной погрешности вычисления спектра.
Пример. Пусть в аналоговом сигнале имеем , , , , выбрано . Это ошибка, т.к. при ДПФ гармоники 50 и 49 накладываются на нулевую и первую соответственно, что даст погрешность 20%. Нужно выбрать .

2.10. Теорема отсчетов.

Другое название теоремы – теорема Котельникова, которое используется в отечественной литературе. Пусть исходный сигнал имеет спектр, ограниченный частотой , которая соответствует номеру гармоники , где – период сигнала.
При дискретизации должно выполняться условие

(2.27)

т.е. отсчетов должно быть не меньше удвоенного количества гармоник.
Условие (2.27) можно записать в обычной для ДПФ форме

(2.28)

которая использовалась выше.
Формулы (2.27) и (2.28) – это теорема отсчетов в безразмерных переменных. Используя размерные переменные , , (см. раздел 13.3) и частоту дискретизации эти формулы можно записать в более известном виде

(2.29)

или .

Пример телевизионного сигнала

Спектр телевизионного радиосигнала имеет полосу 8 МГц от МГц до МГц. Здесь – несущая частота конкретного канала. Пусть МГц. Получаем МГц. За период выберем длительность одной строки мксек, т.е. основная частота МГц.
При дискретизации высокочастотного сигнала по (12.4)
на периоде, что соответствует частоте дискретизации МГц.
Это нереальная частота дискретизации. Если же радиосигнал демодулировать и перенести спектр в диапазон от 0 до 8 МГц, то получим значение и МГц, реализуемые в современной цифровой обработке.

Контроль точности.

Если спектр сигнала неизвестен, то использовать (2.27) для выбора нельзя. В этом случае выбирается произвольное и определяется гармоник. Затем шаг дискретизации уменьшается в 2 раза и ДПФ вычисляют по точкам, что дает гармоник. Можно также выполнить контроль, взяв точки через одну, т.е. по отсчетам сигнала.
Сравнивая амплитуды гармоник с одинаковыми номерами s в двух расчетах, получим погрешности вычислений по аналогии с (2.26). Если погрешность больше допустимой, то значения должны быть увеличены, т.е. следует использовать значения и , например.

Количество операций в ДПФ.

12 3 4 5 6 Следующая ⇒