Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Функция Беллмана, вывод функционального уравнения Беллмана.
Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, предположим, что задача управления решена и найдено оптимальное управление U*(t) и соответствующая ему траектория движения объекта X(t). Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом: Данная функция S(X0, t0), зависящая от начального состояния объекта X(t0)=X0 (зависимость значения критерия от конечного состояния, которое в задачах управления часто фиксировано, причем Xk=0 (задача стабилизации), не рассматривается) называется функцией Беллмана. Выберем на оптимальной траектории две точки, соответствующие моментам t и t+Dt, где Dt – малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек t и t+Dt до конечной точки tk являются оптимальными. Обозначим через S(X(t), t) и S( X(t+Dt), t+Dt) минимальные значения функционала (2), соответствующие этим участкам
Между этими величинами существует связь . (3) Подчеркнем, что при составлении уравнения (3) непосредственно учитывался принцип оптимальности Беллмана. Учитывая малость величины Dt, представим где Q1(t) – малая с большим порядком малости, чем Dt. Функцию X(t+Dt) разложим в ряд Тейлора в окрестности точки t и, учитывая малость величины Dt, разложение представим в виде X(t+Dt)=X(t)+(dx/dt)* Dt+Q2(t), или DX=X(t+Dt)-X(t)=(dx/dt)*Dt+Q2(t), (5) где Q2(t) – совокупность последующих членов ряда Тейлора (векторные величины). Далее предположим, что функция S(X, t) дифференцируема по своим аргументам. Это предположение ничем не обосновано, поскольку сама функция не известна. Если в последствии наше предположение не подтвердится, то все нижеследующие рассуждения несут только познавательный характер. Это обстоятельство вносит определенный элемент необоснованности в сущность непрерывного варианта метода динамического программирования в отличие от его дискретного аналога. Основываясь на предположении о дифференцируемости и учитывая представление (5), функцию разложим в ряд Тейлора , (6) где − вектор-столбец частных производных функции S по компонентам вектора X (градиент), вычисленных в точке (X(t), t), O3(t) – совокупность последующих членов ряда Тейлора. Учитывая структуру приращения , подставим (4), (6) в (3): . (7) Здесь О4(t) – совокупность всех членов с порядком малости, большим, чем у . Величина не зависит от управления U(t), так как представляет наименьшее значение функционала, полученное в результате подстановки в него оптимального управления, поэтому ее можно вынести из-под символа минимума и взаимно уничтожить с такой же величиной в левой части (7). Оставшееся выражение делим на и устремляем . В силу сделанных замечаний о порядке малости слагаемого О4(t) выполняется условие Производная также как и функция S, не зависит от управления и может быть вынесена за фигурные скобки. После проведения всех указанных операций соотношение (7) превращается в известное функциональное уравнение Беллмана (8) или в скалярной форме записи . (9) Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. 9. Функциональное уравнение Беллмана, техника определения оптимального управления в методе динамического программирования.
Функциональное уравнение Беллмана: (8) или в скалярной форме записи . (9) Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. Техника определения оптимального управления их сводится к следующим процедурам 1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция X, S, t, т.е. в форме . 2. Найденное управление подставляется в уравнение (9): (10) Это уравнение, содержащее только одну неизвестную функцию S(X, t), называют уравнением Гамильтона-Якоби-Беллмана. 3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. Здесь необходимо подчеркнуть, что в настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана. 4. Функцию S[X(t), t] подставляют в выражение оптимального управления , что позволяет определить его как функцию состояния и времени, т.е. в форме обратной связи . Таким образом, если удается реализовать изложенную последовательность процедур, то метод динамического программирования позволяет в принципе решить задачу синтеза оптимальной замкнутой системы управления.
10. Техника определения оптимального управления в методе динамического программирования, достоинства и недостатки динамического программирования. Техника определения оптимального управления их сводится к следующим процедурам (1) 1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция X, S, t, т.е. в форме . 2. Найденное управление подставляется в уравнение (1): (2) Это уравнение, содержащее только одну неизвестную функцию S(X, t), называют уравнением Гамильтона-Якоби-Беллмана. 3. Уравнение Гамильтона-Якоби решается относительно функции S[X(t), t]. При решении используется граничное условие S[X(tk), tk]=0, смысл которого очевиден из определения функции S[X(t), t]. В настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию Беллмана. 4. Функцию S[X(t), t] подставляют в выражение оптимального управления , что позволяет определить его как функцию состояния и времени, т.е. в форме обратной связи . Таким образом, если удается реализовать изложенную последовательность процедур, то метод динамического программирования позволяет в принципе решить задачу синтеза оптимальной замкнутой системы управления. Однако при применении изложенного метода необходимо иметь в виду следующее: 1. В заданном классе допустимых управлений не всегда существует такое, при котором достигается минимум в (1) ( называется допустимым, если при это управлении допустимо и функционал при нём конечен). 2. Функция Беллмана S[X, t] не всегда обладает той гладкостью, которая была использована при выводе уравнения (1). 3. Если функция S[X, t] удовлетворяет уравнению Беллмана, то отсюда не следует, что управление, при котором достигается минимум в уравнении (1), является оптимальным. В частности при этом управлении может, вообще говоря, не существовать решение уравнений движения (т.е. функционал качества будет не определён или бесконечно большим) 4. Решение уравнений Беллмана может оказаться не единственным. В этом случае требуется дополнительное исследование, позволяющее установить, какое из этих решений является функцией Беллмана исходной задачи оптимального управления. Замечание. Требование непрерывной дифференцируемости функции S[X, t] является весьма ограничительным, оно не выполняется во многих задачах (например, в задачах о быстродействии при управлении двумя последовательно соединенными интеграторами. В определенной степени требуется лишь непрерывность скалярного произведения ( ) в любой момент времени t = , когда и разрывны. ВОПРОСЫ ПО ТЕОРИИ АКОР Популярное:
|
Последнее изменение этой страницы: 2016-08-24; Просмотров: 1496; Нарушение авторского права страницы