Достаточные координаты. Дискретный случай

Рассмотрим задачу синтеза оптимального управления системой

(19.1)

полагая, что измеряется некоторый вектор , связанный с соотношением

(19.2)

Здесь по-прежнему - вектор состояния; - вектор управления в i^-ймомент времени; - вектор измерения (наблюдения) в тот же момент времени; - случайные векторы, которые характеризуют возмущения, действующие на систему (19.1), и ошибки измерения соответственно. Предполагается, что статистические свойства векторов полностью известны.

В качестве критерия оптимальности, как и прежде, примем характеристику конечной точности

(19.3)

Основная особенность задачи синтеза оптимального управления при неполной статистической информации заключается в следующем.

Поскольку вектор фазовых координат не измеряется, то синтезируемое оптимальное управление в i^-й момент времени должно в общем случае зависеть от всех прошлых и настоящих измерений , обозначаемых сокращенно через . Иными словами, оптимальная стратегия управления является некоторой последовательностью функций, ставящих в соответствие всем прошлым и текущим наблюдениям векторы управления из условия минимума критерия (19.3). Эта оптимальная стратегия может быть формально найдена с помощью достаточных условий оптимальности, методом динамического программирования. Основное рекуррентное соотношение при этом принимает вид

(19.4)

Здесь через обозначена функция будущих потерь, представляющая собой минимальное значение критерия (19.3), которое может быть достигнуто при оптимальном управлении системой (19.1), начиная с момента времени i по наблюдениям (19.2), полученным в моменты .

Граничным условием для (19.4), как и при управлении при полной информации, может служить следующее формальное равенство

(19.5)

Соотношения (19.4) с учетом (19.5) определяют рекуррентную процедуру последовательного синтеза оптимальных управлений в следующем порядке: , , …, .

Синтез управления сводится к вычислению на каждом шаге функции будущих потерь , раскрытию операции математического ожидания и оптимизации по правой части в (19.4). Для раскрытия операции математического ожидания необходимо, в свою очередь, вычисление условных плотностей вероятностей , . В общем случае вычислить их очень трудно, поскольку необходимо запоминать все прошлые и настоящие измерения .

Задача значительно облегчается, если предположить существование некоторого вектора , называемого обычно вектором достаточных координат или статистик, который является функцией от и удовлетворяет следующим условиям:

1) знание вектора достаточно для определения оптимального управления и функции будущих потерь , а это означает, что плотности типа могут быть представлены в виде ;

2) знание вектора в любой момент времени достаточно для

определения собственной будущей эволюции, т.е. для моментов .

В этом случае рекуррентное соотношение (19.4) может быть представлено в виде

(19.6)

причем согласно (19.5)

(19.7)

Использование соотношения (19.6) вместо (19.4) упрощает решение задачи синтеза, поскольку функция будущих потерь теперь зависит от вектора вполне определенной размерности для всех моментов времени, в то время как размерность совокупности увеличивается с возрастанием номера i. С введением понятия достаточных координат исходная задача синтеза оптимального управления при неполной информации может быть условно разделена на две: определение достаточных координат и определение оптимального управления как функции достаточных координат. Соответственно оптимальный регулятор, получаемый в результате решения задачи, состоит из двух блоков: обработки измерительной информация и оптимального управления. Строго говоря, синтез обоих блоков, необходимо осуществить совместно. Однако в некоторых случаях, например для линейной системы с аддитивным возмущением и квадратичным критерием оптимальности, оказывается справедливой так называемая теорема разделения, согласно которой задача определения достаточных координат отделяется от задачи синтеза собственно оптимального управления. Эта теорема с успехом может быть использована для приближенного решения задачи в общем случае.

Упражнение. Показать, что основное рекуррентное соотношение метода динамического программирования для задачи синтеза оптимального управления системой (19.1) по наблюдениям (19.2) при критерии оптимальности

(19.8)

с использованием понятия достаточных координат имеет вид

(19.9)

при прежнем граничном условии (19.7).

⇐ Предыдущая 3 4 5 6 7 8 91011 12 Следующая ⇒

Последнее изменение этой страницы: 2019-10-24; Просмотров: 198; Нарушение авторского права страницы