Метод динамического программирования, принцип оптимальности, параметр состояния, функция состояния, рекуррентные динамические соотношения.

⇐ ПредыдущаяСтр 7 из 11Следующая ⇒

Динамическое программирование представляет собой математический аппарат, разработанный для решения некоторого класса задач математического программирования путем их разложения на относительно небольшие, и, следовательно, менее сложные задачи. Специфика метода в том, что для отыскания оптимального управления планируемая операция разделяется на ряд последовательных «шагов» (этапов). Соответственно, и сам процесс планирования операции становится «многошаговым» и развивается последовательно, от этапа к этапу, причем каждый раз оптимизируется управление только на одном шаге.

Принцип динамического программирования не предполагает, что выбирая управления на одном отдельном шаге, можно забыть обо всех остальных, напротив, управление на каждом шаге должно выбираться с учетом всех его последствий.

Процесс динамического программирования идет от конца к началу: спланировав оптимальным образом последний шаг, можно спланировать предпоследний и т.д.

В начале процесса состояние системы известно и делать какие-то предположения не нужно. Поэтому с учетом того, что все последующие шаги спланированы для различных состояний системы, остается выбрать управление на первом шаге так, чтобы оно было оптимальным с учетом всех направлений, уже принятых наилучшим образом на последующих шагах.

Принцип, положенный в основу построения такого решения (искать всегда оптимальное продолжение процесса относительно того состояния, которое достигнуто в данный момент) принято называть принципом оптимальности.

Состояние системы на каждом шаге характеризуется некоторой переменной величиной, которая называется параметром состояния.

Наилучший эффект на данном этапе вместе с уже рассмотренными шагами характеризуется функцией состояния.

Решение конкретной задачи методом динамического программирования сводится к выбору параметра состояния, составлению функции состояния и рекуррентных соотношений, связывающих функции состояния для двух соседних последовательных этапов, и их применению для выбора оптимального решения.

Пример: задача о кап. вложениях, №9

Принятие решений в условиях полной неопределённости, матрицы последствий и рисков.

Предположим, что лицо, принимающее решение, может выбрать одну из возможных альтернатив, обозначенных номерами i = 1, 2, …, m. Ситуация является полностью неопределенной, т. е. известен лишь набор возможных вариантов состояний внешней (по отношению к лицу, принимающему решение) среды, обозначенных номерами j = 1, 2, …, n. Если будет принято i-e решение, а состояние внешней среды соответствует j-й ситуации, то лицо, принимающее решение, получит доход .

Матрица называется матрицей последствий (Возможных решений). В ситуации с полной неопределенностью могут быть высказаны лишь некоторые рекомендации предварительного характера относительно того, какое решение нужно принять. Эти рекомендации не обязательно будут приняты. Многое будет зависеть, например, от склонности к риску лица, принимающего решение. Но как оценить риск в данной схеме?

Допустим, мы хотим оценить риск, который несет i-e решение. Нам неизвестна реальная ситуация. Но если бы мы знали, что осуществляется j-е состояние внешней среды, то выбрали бы наилучшее решение, т. е. приносящее наибольший доход .

Значит, принимая i-е решение, мы рискуем получить не а только , т.е. принятие i-го решения влечет риск недобрать . Матрица R = ( матрица рисков.

Пример: сидя в отправляющемся поезде, пассажир вспоминает, что забыл выключить телевизор. Можно еще успеть сойти с поезда и исправить ошибку, но пропадет путевка (1000 рублей). Если же уехать, то телевизор может сгроет, придется ремонтировать квартиру (15000 рублей). Пассажир не уверен, включен телевизор или выключен. Следует составить матрицу последствий и рисков.

- матрица последствий

Составление матрицы рисков: максимум по первому столбцу равен 0, по втоому = -1000, поэтому матрица рисков имеет вид:

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒