Функция Беллмана, вывод функционального уравнения Беллмана.

⇐ ПредыдущаяСтр 5 из 6Следующая ⇒

Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, предположим, что задача управления решена и найдено оптимальное управление U*(t) и соответствующая ему траектория движения объекта X(t). Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом:

Данная функция S(X0, t0), зависящая от начального состояния объекта X(t0)=X0 (зависимость значения критерия от конечного состояния, которое в задачах управления часто фиксировано, причем Xk=0 (задача стабилизации), не рассматривается) называется функцией Беллмана.

Выберем на оптимальной траектории две точки, соответствующие моментам t и t+Dt, где Dt – малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек t и t+Dt до конечной точки tk являются оптимальными. Обозначим через S(X(t), t) и S( X(t+Dt), t+Dt) минимальные значения функционала (2), соответствующие этим участкам

Между этими величинами существует связь

. (3)

Подчеркнем, что при составлении уравнения (3) непосредственно учитывался принцип оптимальности Беллмана.

Учитывая малость величины Dt, представим

где Q1(t) – малая с большим порядком малости, чем Dt.

Функцию X(t+Dt) разложим в ряд Тейлора в окрестности точки t и, учитывая малость величины Dt, разложение представим в виде

X(t+Dt)=X(t)+(dx/dt)* Dt+Q2(t), или

DX=X(t+Dt)-X(t)=(dx/dt)*Dt+Q2(t), (5)

где Q2(t) – совокупность последующих членов ряда Тейлора (векторные величины).

Далее предположим, что функция S(X, t) дифференцируема по своим аргументам. Это предположение ничем не обосновано, поскольку сама функция не известна. Если в последствии наше предположение не подтвердится, то все нижеследующие рассуждения несут только познавательный характер. Это обстоятельство вносит определенный элемент необоснованности в сущность непрерывного варианта метода динамического программирования в отличие от его дискретного аналога. Основываясь на предположении о дифференцируемости и учитывая представление (5), функцию разложим в ряд Тейлора

, (6)

где − вектор-столбец частных производных функции S по компонентам вектора X (градиент), вычисленных в точке (X(t), t), O3(t) – совокупность последующих членов ряда Тейлора.

Учитывая структуру приращения , подставим (4), (6) в (3):

. (7)

Здесь О₄(t) – совокупность всех членов с порядком малости, большим, чем у .

Величина не зависит от управления U(t), так как представляет наименьшее значение функционала, полученное в результате подстановки в него оптимального управления, поэтому ее можно вынести из-под символа минимума и взаимно уничтожить с такой же величиной в левой части (7). Оставшееся выражение делим на и устремляем . В силу сделанных замечаний о порядке малости слагаемого О4(t) выполняется условие Производная также как и функция S, не зависит от управления и может быть вынесена за фигурные скобки. После проведения всех указанных операций соотношение (7) превращается в известное функциональное уравнение Беллмана

(8)

или в скалярной форме записи

. (9)

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных.

9. Функциональное уравнение Беллмана, техника определения оптимального управления в методе динамического программирования.

Функциональное уравнение Беллмана:

(8)

или в скалярной форме записи

. (9)

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. Техника определения оптимального управления их сводится к следующим процедурам

1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция X, S, t, т.е. в форме .

2. Найденное управление подставляется в уравнение (9):

(10)

Это уравнение, содержащее только одну неизвестную функцию S(X, t), называют уравнением Гамильтона-Якоби-Беллмана.

3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. Здесь необходимо подчеркнуть, что в настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана.

4. Функцию S[X(t), t] подставляют в выражение оптимального управления , что позволяет определить его как функцию состояния и времени, т.е. в форме обратной связи .

Таким образом, если удается реализовать изложенную последовательность процедур, то метод динамического программирования позволяет в принципе решить задачу синтеза оптимальной замкнутой системы управления.

10. Техника определения оптимального управления в методе динамического программирования, достоинства и недостатки динамического программирования.

Техника определения оптимального управления их сводится к следующим процедурам

(1)

2. Найденное управление подставляется в уравнение (1):

(2)

3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. В настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана.

Однако при применении изложенного метода необходимо иметь в виду следующее:

1. В заданном классе допустимых управлений не всегда существует такое, при котором достигается минимум в (1) ( называется допустимым, если при это управлении допустимо и функционал при нём конечен).

2. Функция Беллмана S[X, t] не всегда обладает той гладкостью, которая была использована при выводе уравнения (1).

3. Если функция S[X, t] удовлетворяет уравнению Беллмана, то отсюда не следует, что управление, при котором достигается минимум в уравнении (1), является оптимальным. В частности при этом управлении может, вообще говоря, не существовать решение уравнений движения (т.е. функционал качества будет не определён или бесконечно большим)

4. Решение уравнений Беллмана может оказаться не единственным. В этом случае требуется дополнительное исследование, позволяющее установить, какое из этих решений является функцией Беллмана исходной задачи оптимального управления.

Замечание. Требование непрерывной дифференцируемости функции S[X, t] является весьма ограничительным, оно не выполняется во многих задачах (например, в задачах о быстродействии при управлении двумя последовательно соединенными интеграторами. В определенной степени требуется лишь непрерывность скалярного произведения ( ) в любой момент времени t = , когда и разрывны.

ВОПРОСЫ ПО ТЕОРИИ АКОР

⇐ Предыдущая 1 2 3 456 Следующая ⇒