Стохастическое динамическое программирование.

В рассмотренных примерах управляемые переменные, а также переменные состояния и шага принимали только целочисленные значения. (Задачи такого рода называют задачами дискретного программирования). Кроме того, на результаты и переходы из одного состояния в другое не оказывали влияния случайные факторы. Учет случайного характера параметров модели есть предмет анализа стохастического динамического программирования.

Рассмотрим небольшой пример, иллюстрирующий основные идеи и методы стохастического динамического программирования.

Предположим, что каждый год почва может находиться в одном из трех состояний: хорошем (1), удовлетворительном (2) или плохом (3). Пусть k=1 и 2 – две возможные стратегии поведения садовника: не удобрять или удобрять. Оптимальное поведение садовника определяется такой стратегией, при которой он получает наибольший ожидаемый доход через N лет. Обозначим р_ij(k) – вероятность перехода почвы из состояния i в состояние j при применении садовником стратегии k.

Если садовник не применяет удобрения (k=1), то при хорошем состоянии почвы (строка 1) вероятность ее перехода в хорошее состояние – 0.2, в удовлетворительное – 0.5 и в плохое – 0.3. При плохом состоянии (строка 3) с вероятностью 1 почва остается плохой.

Если садовник применяет удобрения (k=2), то при хорошем состоянии почвы (строка 1) вероятность ее перехода в хорошее состояние – 0.3, в удовлетворительное – 0.6 и в плохое – 0.1. При плохом состоянии (строка 3) с вероятностью 0.05 почва станет хорошей, с вероятностью 0.4 удовлетворительной и с вероятностью 0.55 останется плохой.

Обозначим r_ij(k) – доход (или убыток), который получит садовник за одногодичный период, если почва перейдет из состояния i в состояние j при применении садовником стратегии k.

Если садовник не применяет удобрения (k=1), то при переходе из хорошего состояния почвы (строка 1) в хорошее доход составит 7 единиц, в удовлетворительное – 6 и в плохое – 3. При переходе из плохого состояния (строка 3, вспомним, что в этом случае с вероятностью 1 почва остается плохой) доход составит –1 (убыток).

Если садовник применяет удобрения (k=2), то при переходе из хорошего состояния почвы (строка 1) в хорошее доход составит 6, в удовлетворительное – 5 и в плохое – убыток в размере 1 (не в коня корм). При переходе из плохого состояния (строка 3) в хорошее доход составит 6, в удовлетворительное – 3 и в плохое – убыток 2.

Обозначим v_i(k) – ожидаемый доход, обусловленный одним переходом из состояния i при стратегии k, тогда

Как и прежде будем анализировать плановый период с конца, обозначим f_n(i) – оптимальный ожидаемый доход за n лет до конца периода, тогда рекуррентные соотношения примут вид:

Проведем вычисления при N=4. Результаты поместим в таблицы 2.8.4 – 2.8.7.

Из оптимального решения следует, что в 1-й,2-й и 3-й годы садовник должен применять удобрения (k*=2) при любом состоянии почвы, а в 4-й год (n=1) садовнику следует применять удобрения только при условии, что состояние почвы удовлетворительное или плохое. Суммарный ожидаемый доход за четыре года составит f₄(1)=13.10 при хорошем состоянии почвы в первый год, f₄(2)= 10.19 при удовлетворительном состоянии и f₄(3)=6.43 при плохом состоянии.

Приведенный выше метод решения задачи называют еще методом итераций по стратегиям.

Задачу садовника можно обобщить в двух отношениях. Во-первых, переходные вероятности и значения дохода не обязательно одни и те же в любой год; в этом случае они являются функциями n-го этапа: p_ij(k,n) и r_ij(k,n). Во-вторых, можно использовать коэффициент дисконтирования ожидаемых доходов, вследствие чего значения f_N(i) будут представлять собой приведенные величины ожидаемых доходов по всем этапам. Если α – годовой коэффициент дисконтирования, вычисляемый по формуле α=1/(1+t), где t – годовая норма процента, то рекуррентное соотношение (4.9.4) преобразуется к виду:

Упражнение. Решите задачу садовника при коэффициенте дисконтирования α=0.6. (ответ приводится в таблице 2.8.8).

Заметим, что использование коэффициента дисконтирования приводит к другим оптимальным стратегиям. В данном случае при хорошем состоянии почвы удобрения не требуются в течение всех четырех лет.

Для определения оптимальной долгосрочной стратегии применяют два метода. Первый метод основан на переборе всех возможных стационарных стратегий управления и может быть использован при их малом числе. Второй метод (итераций по стратегиям) более эффективен в том смысле, что определяет оптимальную стратегию за малое число итераций. Идея метода заключается в использовании соотношения (2.8.4) при n → ∞.

Итак, задача стохастического динамического программирования включает в себя матрицу переходных вероятностей системы из состояния i в момент времени t_n_-1 в состояние j в момент t_n. Матрица переходных вероятностей совместно с исходными вероятностями состояний полностью определяет марковскую цепь. Можно задачу стохастического динамического программирования (Марковскую задачу принятия решений) сформулировать как задачу линейного программирования (см. тему 2.2), однако в вычислительном отношении метод итераций по стратегиям более эффективен. Для задач с К альтернативами решений на каждом шаге и N состояниями соответствующая модель линейного программирования включает (N+1) ограничений и NК переменных.

Основными задачами теории замен являются прогноз затрат, связанных с обновлением оборудования, и выработка наиболее экономичной стратегии замен. В зависимости от характера оборудования процессы замен делятся на два класса. Первый связан с оборудованием, которое, устаревая в процессе эксплуатации, становится менее производительным физически вследствие износа или морально в результате появления новых, более совершенных машин (сюда относятся, например, металлорежущие станки, автомобили и т.д.). Эксплуатация устаревшего оборудования связана с ростом производственных затрат, удлинением времени простоя, увеличением числа отказов и длительности ремонта и т.д. Вместе с тем замена старого оборудования новым также сопряжена с расходами. Необходимо определить такой срок службы оборудования, при котором экономия за счет приобретенного нового оборудования начинает превышать компенсацию его первоначальной стоимости. При аренде оборудования необходимо учитывать подобные соображения: при увеличении срока аренды уменьшается арендная плата в единицу времени, зато возрастают эксплутационные расходы.

Второй класс задач связан с оборудованием со случайной длительностью срока службы (например, лампы освещения, элементы микросхем). При решении задач второго класса приходится определять, какие именно единицы оборудования следует заменить и как часто следует проводить замену с тем, чтобы минимизировать общие затраты. Если замену оборудования производить лишь после его выхода из строя, то при минимуме затрат на обновление возрастают расходы, связанные с простоями, тогда как замена деталей до их поломки приводит к высокой стоимости оборудования, но зато к малым затратам на некомплектность. Базой для решения этих задач является наличие закона распределения вероятностей повреждения (отказа) оборудования в зависимости от срока его службы, для чего должны быть задействованы методы математической статистики.

Пусть с_i – затраты на приобретение (включаются в с₁) и эксплуатацию оборудования в период i. Здесь учитываются только эксплутационные затраты, которые изменяются с ростом срока службы. Тогда период n, после которого должна быть произведена замена, определяется из следующих соображений:

1. Если издержки в следующем периоде ниже средней величины прошлых затрат, то оборудование заменять не следует.

2. Если же издержки в следующем периоде превосходят величину средних затрат, то оборудование следует заменить.

Т.е. должны выполняться следующие неравенства

Пример 2.8.5. Пусть расходы, связанные с приобретением и заменой оборудования, представлены в табл. 2.8.9.

В третьей колонке вычисляем средние значения затрат и видим, что замена оборудования должна производиться в третий период, т.к.

Цена денег, ввиду наличия процентов на капитал, меняется со временем. Проведем расчеты с учетом коэффициента дисконтирования. Пусть r – учетный процент в течение каждого периода, тогда обозначим d=1/(1+r/100). В правой части неравенств (2.8.6) – (2.8.7) средние затраты заменяются на средневзвешенные затраты:

Пример 2.8.6. Пусть расходы, связанные с приобретением и заменой оборудования, аналогичны предыдущему примеру и r =5%. В колонке 3 табл. 2.8.10 вычисляем средневзвешенные затраты (d=0,952):

В данном случае замена оборудования должна производиться также в третий период, т.к. соотношения (2.8.8) – (2.8.9) выполняются для n=3. В обоих примерах мы предполагали, что затраты на эксплуатацию стареющего оборудования возрастали со временем.

Рассмотрим теперь задачу замены оборудования как многошаговый процесс динамического программирования.

Пусть величина c_ij представляет собой сумму покупной цены и ожидаемых расходов на ремонт и обслуживание оборудования, приобретенного в начале года i, за вычетом остаточной стоимости этого оборудования на начало года j.

f_i – величина затрат, соответствующая стратегии замены, минимизирующей эти затраты в интервалах i, i+1,…, n, в предположении, что новое оборудование приобретается в год i.

Тогда для нахождения оптимальной стратегии нам необходимо вычислить f₁(минимальные затраты и соответствующую стратегию с первого шага), пользуясь следующим рекуррентным соотношением:

Предположим, что затраты, отвечающие некоторой стратегии замены, включают две составляющие:

р_ik – стоимость замены оборудования возраста k на интервале i за вычетом его остаточной стоимости;

r_ik – стоимость эксплуатации оборудования возраста k на интервале i.

Пусть f_i(k) – стратегия, минимизирующая затраты на интервалах i, i+1,…, n, при условии, что в начале интервала i возраст оборудования составляет k лет.

Если оптимальное решение состоит в сохранении оборудования в интервале i, то

но если оптимальное решение сводится к его замене, то

где f_n+1(k)=0 для всех k. Пусть К – возможный срок службы оборудования.

Мы планируем на n лет, поэтому начало (n+1)-го периода соответствует концу нашего планового периода.

Нахождение оптимального решения заключается в вычислении f₁(k₀), где k₀– возраст оборудования на начало планового периода. Если в это время рассматриваемая единица оборудования отсутствует, то нет смысла говорить о его сохранении при i=1, а решение о замене есть просто покупка нового оборудования.

Пример 2.8.7. Необходимо составить план замены оборудования на пять лет при условии отсутствия его в начале первого года, прогнозируемые затраты сведены в таблицы 2.8.11 и 2.8.12.

Таблица 2.8.11. Значения r_ik Таблица 2.8.12. Значения р_ik

Пустые клетки в таблицах образовались из того факта, что в начале планового периода оборудования нет, оно только приобретается, поэтому нет нужды прогнозировать некоторые затраты, например, в год 3 не будет оборудования с возрастом 4, или на начало любого года не будет оборудования с пятилетним возрастом, поэтому колонка 5 в табл. 2.8.12 отсутствует.

i=5 (в начале года 5 возраст не может быть больше 4):

f₅(4) =min{r₅₅ +f₆(5), р₅₄ +r₅₁ +f₆(1)}=min{200+0,115+10+0}=125,

f₅(3) =min{r₅₄ +f₆(4), р₅₃ +r₅₁ +f₆(1)}=min{85+0,110+10+0}=85,

f₅(2) =min{r₅₃ +f₆(3), р₅₂ +r₅₁ +f₆(1)}=min{40+0,90+10+0}=40,

f₅(1) =min{r₅₂ +f₆(2), р₅₁ +r₅₁ +f₆(1)}=min{20+0,70+10+0}=20.

i=4 (в начале года 4 возраст не может быть больше 3):

f₄(3) =min{r₄₄ +f₅(4), р₄₃ +r₄₁ +f₅(1)}=min{120+125,105+14+20}=139,

f₄(2) =min{r₄₃ +f₅(3), р₄₂ +r₄₁ +f₅(1)}=min{52+85,85+14+20}=119,

f₄(1) =min{r₄₂ +f₅(2), р₄₁ +r₄₁ +f₅(1)}=min{28+40,65+14+20}=68.

i=3 (в начале года 3 возраст не может быть больше 2):

f₃(2) =min{r₃₃ +f₄(3), р₃₂ +r₃₁ +f₄(1)}=min{68+139,80+16+68}=164,

f₃(1) =min{r₃₂ +f₄(2), р₃₁ +r₃₁ +f₄(1)}=min{32+119,60+16+68}=144.

i=2 (в начале года 2 возраст не может быть больше 1):

f₂(1) =min{r₂₂ +f₃(2), р₂₁ +r₂₁ +f₃(1)}=min{36+164,55+18+144}=200.

Т.к. по условию примера в начале первого года мы приобретаем новое оборудование, то

Таким образом, оптимальная стратегия заключается в следующем:

В начале третьего года заменяем оборудование, купленное в начале первого года, и эксплуатируем его до конца планового периода.

Выше мы рассматривали детерминированный вариант задачи о замене оборудования, где с индексом k была связана продолжительность нормально эксплуатируемого устройства. В стохастическом варианте задачи восстановления допускается, что устройство может выйти из строя еще до запланированного момента замены (тогда оно заменяется в следующий за поломкой момент времени).

Пусть нам известны p_j – вероятности того, что поломка оборудования произойдет в j–й момент его использования (j<k);

r_j – стоимость эксплуатации исправного оборудования в течение j–го интервала его использования;

s_j – дополнительный ущерб, обусловленный преждевременной поломкой оборудования в интервале j.

Пусть r₁ включает первоначальную стоимость устройства и вышедшее из строя оборудование полностью обесценивается (например, лампы, сгоревшие электромоторы и т.п.).

Оптимальной будет являться стратегия, минимизирующая математическое ожидание затрат, в составе которых должны быть учтены:

– средние затраты во все моменты восстановления в случаях, когда оборудование выйдет из строя раньше запланированного момента k;

– средние затраты во все моменты восстановления в случаях, когда оборудование не выйдет из строя до запланированного момента k;

– ожидаемые эксплутационные затраты в период между текущим и очередным моментами восстановления.

Следовательно, в результате надлежащего обобщения соотношений (2.8.10) и (2.8.11) получаем

f_i =min_k=1,2,…,K{åf_i+j р_j+f_i+k(1 - åр_j)+R_k}, i=1,2,…,n, f_n+1=0, (2.8.12)

где первое слагаемое соответствует математическому ожиданию затрат, связанных с преждевременной заменой, второе слагаемое есть произведение минимальных затрат с периода i+k и далее, умноженное на вероятность того, что оборудование нормально доработает до этого периода. Третье слагаемое, отражающее эксплутационные затраты, можно представить следующим образом:

R_k = r₁ + r₂(1 - p₁)+ r₃(1 - p₁ - p₂)+…+ r_k(1 - åp_j) + ås_jp_j. (2.8.13)

Эти затраты складываются из затрат первого года эксплуатации оборудования плюс затраты второго года, умноженные на вероятность того, что оно не вышло из строя в первом году, плюс затраты третьего года, умноженные на вероятность того, что оно не вышло из строя в первых двух годах, и так далее до k-го интервала, плюс к этому математическое ожидание ущерба от преждевременной поломки до k-го интервала.

В силу громоздкости формул (2.8.12),(2.8.13) мы не будем приводить числовой пример, хотя с использованием компьютера вычисления не представляют сложности.

Рассмотрим стохастическую задачу замены оборудования для неограниченного планового периода.

В этом случае априорно допускается, что оптимальной является стационарная стратегия (каждый раз замена производится через k-й промежуток времени). Формула для определения оптимальной стратегии тогда существенно упрощается:

где Е_k есть среднее значение сроков замены оборудования,

Заметим, что выражение, стоящее в фигурных скобках в (2.8.14), определяет ожидаемые затраты за один отрезок планового периода, и мы приходим к методике определения оптимальной стратегии замены оборудования, рассмотренной нами в самом начале (пример 2.8.5).

Пример 2.8.8. Данные за первые пять лет неограниченного планового периода сосредоточены в табл.2.8.13 (колонки 2 – 4).

Значения величин в колонке 5 вычисляем по формуле 2.8.13:

R₃ = r₁ + r₂(1 - p₁)+ r₃(1 - p₁ - p₂) + s₁p₁+ s₂p₂=114+20´3/4=129,

Значения величин в колонке 6 вычисляем по формуле 2.8.15:

Вычисляем отношение в колонке 7 и находим минимум, ему соответствует k=3, это оптимальное значение планового срока замены оборудования.

Из полученного результата видно, насколько дорого обходятся ошибки при неправильном учете фактора неопределенности. Так, например, если использовать критерий R_k/k, то решение будет k=5, а если в качестве критерия взять å_j(r_j/k), то решение будет k=4.

В этих случаях ожидаемые затраты за один интервал превышают оптимальное значение почти на 20%.

(упражнение: проверить вышесказанное самостоятельно).

При учете коэффициента дисконтирования (пусть, как и прежде r – учетный процент в течение каждого периода и d=1/(1+r/100)) формулы (2.8.12) – (2.8.13) для конечного планового периода принимают вид:

f_i=min_k=1,2,…,K{åd^jf_i+jр_j+d^kf_i+k(1 - åр_j)+R_k}, i=1,2,…,n, f_n+1=0, (2.8.16)

R_k=r₁+d¹r₂(1 - p₁)+d²r₃(1 - p₁ - p₂)+…+d^k-1r_k (1 - åp_j) + åd^j-1s_jp_j. (2.8.17)

Для неограниченного планового периода с коэффициентом дисконтирования d формулы (2.8.14) – (2.8.15) принимают вид:

где Е_k_d есть среднее значение коэффициента дисконтирования

Здесь f представляет собой математическое ожидание дисконтированных затрат при неограниченном плановом периоде в случае, когда реализуется оптимальная стратегия.

Для двух предприятий выделено a единиц средств. Как распределить все средства в течение 4 лет, чтобы доход был наибольшим, если известно, что доход от x единиц средств, вложенных в первое предприятие, равен f ₁(x), а доход от y единиц средств, вложенных во второе предприятие, равен f ₂(y). Остаток средств к концу года составляет g ₁(x) для первого предприятия и g ₂(y) для второго предприятия.

РЕШЕНИЕ. Процесс распределения средств разобьем на 4 этапа – по соответствующим годам.

Обозначим a_k = x_k + y_k – средства, которые распределяются на k –ом шаге как сумма средств по предприятиям.

Суммарный доход от обоих предприятий на k –ом шаге:

z_k = f ₁(x_k) + f ₂(a_k − x_k) = 3 x_k + 2(a_k − x_k) = 2 a_k + x_k.

Остаток средств от обоих предприятий на k –ом шаге:

a_k₊ ₁ =g ₁(x_k)+ g ₂(a_k – x_k) =0,1 x_k + 0,5(a_k – x_k) =0,5 a_k –0,4 x_k.

Обозначим z * _k (a_k) – максимальный доход, полученный от распределения средств a_k между двумя предприятиями с k -го шага до конца рассматриваемого периода.

Рекуррентные соотношения Беллмана для этих функций

Проведем оптимизацию, начиная с четвертого шага:

т.к. линейная возрастающая функция достигает максимума в конце рассматриваемого промежутка, т.е. при x ₄= a ₄.

z *₃(a ₃)=

a ₃+ x ₃ + 3(0,5 a ₃– 0,4 x ₃)}=

a ₃– 0,2 x ₃)}=

a ₃

т.к. линейная убывающая функция достигает максимума в начале рассматриваемого промежутка, т.е. при x ₃= 0.

z *₂(a ₂)=

a ₂+ x ₂ + 3.5(0,5 a ₂– 0,4 x ₂)}=

a ₂– 0,4 x ₂)}=

a _2,

т.к. линейная убывающая функция достигает максимума в начале рассматриваемого промежутка, т.е. при x ₂=0.

z *₁(a ₁)=

a ₁+ x ₁ + 3.75(0,5 a ₁– 0,4 x ₁)}=

a ₁– 0,5 x ₁)}=

a _1,

т.к. линейная убывающая функция достигает максимума в начале рассматриваемого промежутка, т.е. при x ₁=0.

Определим количественное распределение средств по годам:

Т.к. a ₁= a =1000, x *₁=0, получаем a ₂=0.5 a ₁– 0.41 x *₁=500. Далее аналогично:

Представим распределение средств в виде таблицы:

При таком распределении средств за 4 года будет получен доход, равный

Строительный подрядчик оценивает минимальные потребности в рабочей силе на каждую из последующих пяти недель следующим образом, 6, 5, 3, 6, 8 рабочих соответственно. Содержание избытка рабочей силы обходится подрядчику в 300 долларов за одного рабочего в неделю. А наем рабочей силы на протяжении одной недели обходится 400 долларов плюс 200 долларов за одного рабочего в неделю. Каждому уволенному рабочему выплачивается выходное пособие в размере 100 долларов. Найти оптимальное решение задачи.

1. Этап i представляется порядковым номером недели, i = 1, 2, 3, 4, 5.

2. Вариантом решения на i -том этапе являются значения

–количество работающих на протяжении i -той недели.

3. Состояние на i -том этапе является

– количество работающих на протяжении (i- 1)-й неделе.

Рекуррентное уравнение динамического программирования представляется в виде:

– затраты, связанные с содержанием избытка;

Проведем оптимизацию, начиная с пятого этапа:

Оптимальное решение определятся последовательно таким образом:

Вывод: в результате решения задачи получилось, что на первой неделе надо нанять 6 человек, на второй уволить 1 рабочего, на третьей уволить 2 рабочих, на четвертой нанять троих рабочих и на пятой нанять двоих рабочих.

Компания по прокату автомобилей разрабатывает план по обновлению парка своих машин на следующие пять лет. Каждый автомобиль должен проработать не менее 2-х и не более 4-х лет. В следующей таблице приведена стоимость замены автомобиля в зависимости от года покупки и срока эксплуатации.

Сведем задачу к задаче нахождения кратчайшего пути в сети:

К наименьшим затратам приведет замена автомобиля в 2002 и 2005 годах.