Динамическое программирование

Динамическое программирование (далее Д) раздел математики, посвященный теории и методам решения многошаговых задач оптимального управления.

В Д для управляемых процессов среди всех возможных управлений ищется то, которое доставляет экстремальное (наименьшее или наибольшее) значение целевой функции - некоторой числовой характеристике процесса. Под многошаговостью понимают либо многоступенчатую структуру процесса, либо разбиение управления на ряд последовательных этапов (шагов), соответствующих, как правило, различным моментам времени. Т. о., в названии "Д" под "программированием" понимают "принятие решений", "планирование", а слово "динамическое" указывает на существенную роль времени и порядка выполнения операции в рассматриваемых процессах и методах.

Методы Д являются составной частью методов, используемых в исследовании операций (см. Операций исследование), и применяются как в задачах оптимального планирования, так и при решении различных технических проблем (например, в задачах определения оптимальных размеров ступеней многоступенчатых ракет, в задачах оптимального проектирования прокладки дорог и др.).

Пусть, например, процесс управления некоторой системой состоит из m шагов (этапов), на i-м шагу управление y_i переводит систему из состояния x_i-1 в новое состояние x_i, которое зависит от x_i-1 и y_i:

x_i = x_i(y_i, x_i-1).

Т. о., управление у₁, у₂, ..., у_m переводит систему из начального состояния x₀ в конечное х_m. Требуется выбрать x₀ и у₁, ..., у_m таким образом, чтобы целевая функция = å^m_i=1 j_i (x_i-1, y_i) достигла максимального значения *. Основным методом Д является сведение общей задачи к ряду более простых экстремальных задач. Пользуясь так называемым принципом оптимальности, сформулированным американским математиком Р. Беллманом, легко получить основное функциональное уравнение:

и (k = 2, ..., m - 1)

f₁(x₀) = *,

где

(k = 1, ..., m).

Т. о., метод Д приводит к необходимости решения этой рекуррентной системы функциональных уравнений. В процессе решения последовательность этапов проходится дважды: в приведенном варианте рекуррентной системы в первый раз от конца к началу (находятся оптимальные значения * и х*₀), второй раз - от начала к концу (находятся оптимальные управления y*₁, ..., у*_m).

Методы Д находят применение не только в дискретных, но и в непрерывных управляемых процессах, например в таких процессах, когда решения надо принимать в каждый момент некоторого интервала времени. Д дало новый подход к задачам вариационного исчисления.

Хотя метод Д существенно упрощает исходные задачи, однако непосредственное его применение, как правило, сопряжено с громоздкими вычислениями. Для преодоления этих трудностей разрабатываются приближенные методы Д

Лит.: Беллман Р., Д, пер. с англ., М., 1960; Хедли Дж., Нелинейное и динамическое программирование, пер. с англ., М., 1967.

В. Г. Карманов.

		Новости 25.06.2026 11:11:10

	Copyright © 1999-2024 Oval.ru, All Rights Reserved.