Оптимално поведение. Основни принципи на оптимално поведение

Методът на динамичното програмиране, разработен през 50-те години от американския математик Р. Белман, е нов подходза решаване на вариационни задачи. Идеята на този подход е, че оптималното поведение се разглежда като функция на състоянието на системата, описано с помощта на стойността на фазовите координати в текущия момент от времето T. Белман много точно отбеляза връзката между причинно-следствената връзка и оптималността за динамичните системи в смисъл, че ако промяната в състоянието на всяка динамична система под въздействието на входен управляващ сигнал може да бъде описана с функционално уравнение, характеризиращо причинността

тогава за една оптимална система да опише промените в своето състояние, характеризиращи се с определена функция като степента на постигане на потисната цел, има, по аналогия, същия тип функционално уравнение с единствената разлика, че минимумът или максимумът на целевата функция се постига при избора на управление:

В този случай изборът на управление на отделна стъпка се прави от гледна точка на интересите не само на тази стъпка, но и на целия процес като цяло, както на текущите, така и на всички следващи стъпки.

Въз основа на това, Белман формулира принципа на оптималност, каквото и да е първоначалното състояние и първоначалния контрол, последващите контроли трябва да бъдат оптимални спрямо състоянието, произтичащо от прилагането на първия контрол. Принципът на оптималност може да се формулира и по следния начин: оптималното поведение не зависи от историята на системата, а се определя само от първоначалното (до в този моментвреме) състояние и крайна цел, а текущото управление трябва да бъде избрано, като се вземат предвид бъдещите последствия. Класически пример за оптимално поведение е стратегията на бегача на дълги разстояния. В началото бегачът планира бягането си така, че да измине разстоянието за минимално време. Това не означава, че той трябва да бяга всеки участък възможно най-бързо. Напротив, докато е на дистанция, във всеки момент той трябва да разпределя силите си така, че като се вземе предвид състоянието му, да може да пробяга оставащия участък за минималното време, което може да съответства на бурен финал в края на разстоянието.

Динамичното програмиране по своята същност решава проблеми, които са дискретни по природа поради повторението на последователния избор на управление в многоетапна процедура за оптимизация. Имайте предвид, че принципът на оптималност е валиден както за непрекъснати детерминирани, така и за стохастични процеси на управление, поради което динамичното програмиране може да се използва широко в редица кибернетични проблеми.

Въпреки привидната простота на принципа на оптималност, от него могат да бъдат изведени редица нетривиални условия за оптималната траектория.

Дискретна форма на динамично програмиране.

Нека започнем да изучаваме метода с решаване на едномерен проблем, когато контролиран автономен едномерен обект е описан или в дискретна форма

или в диференциална форма, която съответства на диференциалното уравнение

където u е общо ограничен контрол, т.е.

;-- Време дискретно равно.

При първоначалното състояние на обекта и свободния десен край е необходимо да се осигури минимум от зададената функционалност във фиксирано време

или като адитивна целева функция

По този начин, Джима функция ( Да се+ 1) избираеми променливи, присъстващи в ( Да се+1) уравнения на връзката, т.е. можете да опитате да разрешите проблема с помощта на множители на Лагранж. Това обаче е трудно поради големия размер на проблема, затова се използва различен подход.

Нека първо изведем функционалното уравнение на Белман, разсъждавайки по следния начин. Нека минимизираната стойност на функционала Джв началния момент от времето зависи по определен начин от началното състояние на системата, т.е. от и x(). Нека означим тази зависимост с така наречената функция на Белман, като под това разбираме не произволна стойност на функционала, а неговия минимум за оптимално поведение на системата.

Нека сега си представим, че системата е работила известно време, в резултат на което е достигнала до това време ново състояние. След това, съгласно принципа на оптималност, оставащата стойност на минимизирания функционал

в резултат на последващи оптимални действия има и функция на Белман, но този път в зависимост от новите стойности на и. Остава да свържем функциите и помежду си да представим последствията от избрания контрол в даден период от време под формата на два термина - загуби в дадена стъпка и загуби на всички следващи стъпки до края на решаването на проблема , в зависимост от и, тъй като последствията в бъдещето се определят от ново състояние, което съгласно формула (3.1) се описва с израза

Следователно, преследвайки целта за минимизиране на общите загуби, както текущи, така и последващи, можем да напишем

Разсъждения по подобен начин при преминаване към следващата стъпка от момент на момент и т.н. към момента можем да напишем следното функционално уравнение:

Разработвайки същия подход по отношение на многомерен неавтономен обект, можем да получим функционалното уравнение на Белман:

Изборът на управление стъпка по стъпка с помощта на уравнение (1.5) е удобен за компютърни изчисления. В този случай численото решение обикновено се извършва от десния край на дъгата. Тъй като граничните условия в десния край не са еднозначно дефинирани, изчисленията започват със задаване на набор от векторни стойности, разделяйки, например, диапазона от възможни стойности на секции R-1. В резултат на това за всеки вариант на крайното състояние се определя уникален контрол на последната стъпка (при предположението, че контролите на останалите стъпки ще бъдат намерени по-късно), тъй като даден само последният член във функция (1.3) зависи върху него:

Тази операция също се извършва числено, например чрез разделяне на всеки от диапазоните от възможни стойности на (M-1) секции, което формира опции за управление. Резултатите от най-добрия вариант се запомнят, а именно за всеки от вариантите се записват три величини - вектор на състоянието, оптимално управление и минимум на целевата функция. Така числата се съхраняват в паметта на компютъра.

На следващата стъпка, която вече е типична за изчисленията, отново се формират опции за състояние, след което за всяка от тях се определя числено управлението, но на базата на минималната сума от два члена, а вторият член се намира в паметта на компютъра в съответствие с прехода от B;

Резултатите от изчислението за новата стъпка също се съхраняват в компютъра. Тази процедура се повтаря, като се движи от край към начало за всички стъпки с изключение на първата. В същото време необходимото количество памет непрекъснато нараства. И накрая, на първата стъпка, използвайки единствената опция за дадено начално състояние, оптималното управление се определя числено, но точно за тази цел беше необходимо да се запомнят резултатите от оптимизацията на втората стъпка, което води до необходимостта да се запомнят резултатите от предишните стъпки.

Сега, след като контролът е намерен и следователно е определена стойността, представляваща минимизираната стойност на функционала, остава да се идентифицират специфичните стойности, съответстващи на тази оптимална траектория. За да направите това, на базата на уравнение (1.7) и известното управление се определя състоянието, на което съответства неговото съхранено управление. Сега, продължавайки движението отляво надясно, те последователно възстановяват цялата контролна програма и оптималната траектория за всички Да сестъпки.

Фиг.2.

Разглежданият метод решава проблеми, когато част от фазовите координати са фиксирани в десния край. Например, фиг. 2 показва случая на преход от точка А до точка Б с произволна крайна скорост; Тогава движението отдясно наляво, както е показано на фиг. 2, с k = 3 изисква променливо количество запаметени резултати, тъй като малък брой опции първо се оценяват с помощта на координатите и след това броят расте, докато точка A В този случай основното съдържание на изчислението остава същото на всяка стъпка.

Трябва да се отбележи, че въпреки известна досадност на разглежданата изчислителна процедура, методът на динамично програмиране намалява проблема с минимизирането на функция от променливи до отделни стъпки чрез изчисляване на минимизирането на функцията на Белман, което зависи само от Жпроменливи. Това спестява време за изчисление, въпреки че изисква значително количество компютърна памет. Предимството на метода за числени изчисления е и намаляването на обема на изчисленията при стесняване на обхвата на допустимите контроли или допустимия набор от стойности. Въпреки това, тъй като размерът на проблема се увеличава, дискретизацията увеличава броя на опциите за изчисляване на запаметени резултати до степен n, което е известно като „проклятието на размерността“ и изисква различни подходи към използването на динамично програмиране.

Непрекъсната форма на динамично програмиране

Принципът на оптималност на Белман предоставя доста общо условие, което може да се приложи както към дискретни, така и към непрекъснати системи за управление.

Нека разгледаме следния граничен случай, когато дискретността на времето е безкрайно малка, т.е. . Нека се обърнем към функционалното уравнение на Белман за едномерен обект, замествайки в него дискретния момент от времето (с текущото време) и, съгласно (1.2) и (1.3), функциите и, съответно, с и. Тогава можем да получим израза

В този случай функцията S във втория член от дясната страна на уравнението също има безкрайно малки нараствания. Да приемем, че функцията на Белман S е непрекъсната и освен това има частни производни. Тогава можем да разширим функцията като серия на Тейлър в точката (x,t) и, пренебрегвайки членове от втория ред на малкост, получаваме

Обърнете внимание, че последният член може да бъде взет предвид, ако променливата x (t) е случаен процес, в който има компонент от типа бял шумс безкрайно голяма дисперсия D, равна на където е коефициентът на дифузия. Нека заместим получения резултат в дясната страна на уравнение (1.8). Като се вземе предвид факта, че функциите и управлението не зависят от резултатите от вече извършената оптимизация и могат да бъдат извадени от фигурни скоби, уравнението (3.8) може да бъде представено във формата


Премествайки първите два члена вляво, разделяме уравнението на:

Последните два члена могат да бъдат пренебрегнати поради тяхната малка част. След това, като вземем предвид случайния характер на оптимизирания процес, получаваме уравнението.

Ако разгледаме детерминистичния случай при и накрая изследваме поведението на система с n координати и r контроли, тогава можем да получим добре известното частично диференциално уравнение на Белман

Много е важно да се подчертае, че уравнението на Белман (1.10) е нелинейно диференциално уравнение, тъй като съдържа операция за минимизиране. Във векторна форма може да се запише така:

Нека сега обясним значението на термините, включени в дясната страна на уравнение (1.10). Първият член характеризира загубите на текущата стъпка, вторият член под формата на сума от термини оценява последствията от взето решениев бъдеще. Освен това всеки термин отчита промяната сегашно състояниепо координатата, възникваща в резултат на управление, като се използва производната, която се умножава по нейния тегловен коефициент. По този начин производните са вид "коефициенти на чувствителност" на оставащата стойност на минимизирания функционал към промените в текущите стойности на фазовите координати. Това съображение илюстрира далновидността на метода и съживява идеята за функцията на Белман като някаква функция на реакцията на критерия за оптималност към променените вектори на състоянието. Често в технически проблемиможе физически да се разбере природата на зависимостта на функцията S от фазовите координати на системата. Следователно е възможно да се намери управление като функция на състоянието на фазовите координати, което ни позволява да стигнем до затворена система за управление с обратна връзкаи по този начин да ускори решаването на проблема, което ще бъде показано по-долу в примерите.

С помощта на динамичното програмиране е възможно да се решават проблеми с нефиксирано време за управление. По-специално за автономни системиможе да се получи уравнението на Белман във формата

където функцията не зависи от времето. За проблеми с максимална производителност е необходимо да се въведе заместване в уравнение (1.11).

В заключение отбелязваме, че извеждането на уравнения (1.10) и (1.11) изисква диференцируемост на функцията S. Има обаче проблеми, при които тази функция не е диференцируема, но съществува оптимално управление. Нека обясним с пример, че на превключващата линия функцията S винаги е недиференцируема.

Връзка между динамичното програмиране и вариационното смятане и принципа на максимума

Методът на динамично програмиране е по-универсален от методите, базирани на принципа на максимума и вариационното смятане, тъй като е разработен за оптимално управление на процеси, които не е задължително да се описват със система от диференциални уравнения. В същото време този метод няма строго оправдание в редица случаи в сравнение с принципа на максимума и вариационното смятане, въпреки че е тясно свързан с тях.

Връзка между метода на динамичното програмиране и вариационното смятане. Нека целевата функция зависи от скоростта на промяна на фазовите координати. Тогава уравнение (3.10) може да се запише във вида

Нека диференцираме уравнение (1.12) по отношение на факта, че функцията на Белман не зависи от:

След това записваме общата производна по отношение на t:

Нека сега диференцираме уравнение (1.14) по отношение на;

Изваждайки предишното уравнение от получения резултат, стигаме до уравнението на Ойлер в вариационното смятане

Обърнете внимание, че тази връзка е получена при предположението за непрекъснатост на частичните производни от втори ред.

Нека сега гранично състояниезадачи в крайния момент от време има връзка

Тогава, като вземем предвид равенството (1.13), получаваме от (1.12) следната връзка, идентична на условието на задачата с подвижен край в вариационното смятане:

Освен това може да се провери, че уравнение (1.13) е необходимо условиеминимум за израза от дясната страна на (1.13), тъй като, първо, уравнение (1.13) е частната производна на този израз по отношение на равно на нула. Второ, диференцирайки по отношение на уравнение (1.13) втори път и като вземем предвид, че производната на първия член е равна на нула, получаваме друго необходимо минимално условие, което се състои в положителната определеност на матрицата на частичните производни от втори ред , което съвпада с условието на Лежандр във вариационното смятане.

Може също да се покаже, че ако екстремумът в дадена точка съвпада с абсолютния минимум, т.е.

тогава това съответства на добре известното условие на Вайерщрас.

Връзка между метода на динамичното програмиране и принципа на максимума. Геометрична интерпретация на динамичното програмиране. Връзка с функцията на Ляпунов. Класическото описание на тази зависимост се основава на факта, че от уравненията на динамичното програмиране при определени допускания се извеждат резултати, които отговарят на принципа на максимума. Основната точка на тези сравнения е да се покаже, че прилагането на динамично програмиране изисква прекалено строги изисквания, свързани със съществуването на непрекъснати частични производни. Наистина, ако за задача с фиксирано време въведем (n + 2)-мерна векторна функция

тогава уравнението на Белман (1.10) може да бъде записано във формата

или max, което съответства на принципа на максимума, ако въведем функция.

Ако разгледаме проблема с максималната производителност, тогава, използвайки уравнение (1.14) за автономни системи и диференцирайки го по отношение на, получаваме

Първият член може да се трансформира, като се вземе предвид очевидната връзка

откъдето получаваме следния резултат:

Може да се види, че и двата термина съдържат едни и същи функции, които сега обозначаваме с.

Тогава условието (1.14) за оптималния процес приема формата

което веднага позволява лявата страна на това равенство да бъде означена с хамилтониан H и от връзка (1.15) да се получи система от диференциални уравнения за спомагателни променливи, използвани в принципа на максимума

Така резултатите от динамичното програмиране и принципа на максимума съвпадат, ако въведем нотацията

или във векторна форма.


Ориз. 3.

Това ни позволява да дадем следното геометрична интерпретациядинамично програмиране. На фиг. Фигура 3 показва изохронните повърхности S = ​​const за проблема с максималната производителност и стойността S, в смисъл равна на оставащото време, което трябва да бъде минимизирано, намалява с приближаването до крайната точка, т.е.

В този случай движението трябва да се извършва в посока на намаляване на функцията S, т.е. в посока, обратна на нейния градиент в изоповърхнините S = const. От физически съображения е очевидно, че движението по нормалата е най-бързо във времето, тъй като движението по изоповърхността не осигурява приближаване до крайната точка.

Използвайки функцията на Белман S, може да се даде друга интерпретация на процеса на нейното намаляване, свързвайки го с функцията на Ляпунов.

Наистина, ако целевата функция е положително определена,

след това, изразявайки уравнение (1.12) във формата

виждаме, че функцията S е функция на Ляпунов.

Това означава, че ако функцията S е положително определена, то оптималната система има още едно забележително свойство – тя е асимптотично устойчива, което е особено важно за нелинейните системи.

Разликата между динамичното програмиране и другите методи е, че ако принципът на максимума е необходимо условие за оптималност, тогава уравненията на динамичното програмиране, при спазване на всички необходими предположения, се разбират като достатъчно условие. Необходимо е също така да се подчертае, че в принципа на максимума променливите се разглеждат като функции на времето, а в динамичното програмиране това са функции на фазовите координати, които характеризират чувствителността на минимизираната стойност на функционала към промени в текущото състояние.

Формално, това изисква решаване на нелинейни частични диференциални уравнения под формата (1.9) или (1.10), което е толкова трудно, колкото решаването на проблеми с гранични стойности в принципа на максимума.

Аналитично проектиране на регулатори и прилагане на динамично програмиране за техния синтез

Тъй като динамичното програмиране е най-близко до получаване на оптимално управление в затворена форма, трябва да се спрем по-подробно на проблема със системния синтез автоматично управление, отговарящи на изискваното качество при съществуващи ограничения. Едно от направленията в тази област е подходът, разработен в нашата страна от А. М. Летов, наречен аналитичен дизайн на регулатори [Z1], когато алгоритъмът на устройството за управление на система със затворен контур се намира аналитично в съответствие с определено качество функционал, съответстващ на квадратичен критерий на формата

Минимизирането на функционала (1.16) съответства на проблема на контролера на състоянието, когато е важно да се поддържат всички компоненти на вектора на състоянието близо до нула. Възможни са и други варианти за поддържане на грешка близо до нула, което е разликата между желания и изходен сигнал в задачите за проследяване, но семантичното съдържание на критериалната структура остава непроменено. Първият член характеризира грешката на терминала в последния момент, вторият член има за цел да гарантира, че грешката е малка при задържане на системата в дадена позиция. Последният член представлява „наказанието за големи контроли“ и оценява енергията, изразходвана за контрол.

Съответно положителните полуопределени матрици Г-Ни положително определена матрица Рсе избират, като се вземе предвид значимостта на посочените фактори, предимно с ненулеви диагонални елементи или, по желание на проектанта, някои от матриците могат да бъдат нулирани.

В този случай по правило се разглежда линеен нестационарен обект, описан от уравненията

където не се налагат преки ограничения на управлението. В тази връзка за аналитично решение можете да използвате както вариационното смятане, така и принципа на максимума, но за да получим решение в затворена форма, ще използваме метода на динамично програмиране. Като се вземе предвид крайният член, функцията на Белман S е функцията

което при не е равно на нула.

Като се вземат предвид (1.16) и (1.17), уравнението на Белман има формата

При липса на ограничения за оптимален контрол, ние изчисляваме производната на израза във къдрави скоби и, приравнявайки го на нула, получаваме

Тъй като матрицата D е положително определена, можем да намерим, първо, оптималното управление

и, второ, напишете уравнението на Белман без операцията за минимизиране:

Уравнение (3.20) може да бъде решено при условието Може да се покаже, че уравнение (3.20) има точно аналитично решение, което е квадратичната форма

Където K(t) е симетрична нестационарна матрица с необходимите елементи.

След изчисляване на частните производни

Нека ги заместим в уравнение (1.20):

Като се има предвид това, уравнението (1.22) може да се трансформира до формата

което съответства на равенството на нула на израза в квадратни скоби, който има формата на система от линейни нехомогенни диференциални уравнения с граничното условие:

Уравнение (1.23) се нарича матрично уравнение на Рикати, чието решение обикновено се намира числено на компютър, преди системата да започне да работи. В общия случай оптималното управление съответства на линеен закон за управление с променлив коефициент на предаване

И отново възниква логичен въпрос --- при какви условия структурата и параметрите на контролера ще останат непроменени. Работите на Калман доказват, че за M = 0 и за неподвижни обекти, т.е. с постоянни матрици A, B, K и P, решението на уравнението на Рикати е постоянната матрица K, съответстваща на уравнението

В този случай оптималното затворена системае неподвижен

и асимптотично стабилен поради поведението в стационарно състояние при, въпреки факта, че контролният обект може да е нестабилен.

Организационни дейности. Алтернативни парадигми на организационния процес.

Цялото разнообразие от подходи към организационната дейност може да се представи под формата на две алтернативни парадигми (Таблица 5.1). Горните парадигми отразяват основно две различни подходикъм организационни дейности. Първият може грубо да се нарече подход на принуда, когато са необходими усилия за създаване и поддържане. Веднага щом тези усилия спрат, системата се връща в първоначалното си състояние. Можете да изградите колкото искате изкуствени организационни схеми, но те ще бъдат крехки и неефективни. Историята познава много такива примери: колективни ферми, стопански съвети, производствени асоциации и др.

Таблица 5.1

Алтернативни парадигми на организационния процес

Вторият подход е фокусиран върху естествените процеси на организацията, развиващи се достатъчно дълго, за да дадат място на човешката воля. Човешките цели, които попадат извън обхвата на естественото развитие (например създаването на колективни ферми), са обречени на провал, без значение какви ресурси се използват за постигането им. В същото време тук няма фатализъм - човек с неговата целеполагаща и волева активност не е изключен от процеса на развитие, трябва само да се изпълни условието: пространството на целите на човека трябва да съвпада с диапазона от посоки на естественото (принципно възможно) развитие. Ориентация към естественото развитие може да се намери и в изследванията на А. Смит, който твърди, че за социално-икономическото развитие на обществото са необходими мир, леки данъци и толерантност в управлението, а останалото ще се направи от естествения ход от нещата.

Система за управление – кибернетичен подход. Принципи на управление: принцип на управление с отворена верига; принцип на управление с отворена верига с компенсация на смущенията; принцип на управление в затворен контур; еднократен принцип на управление.

Организацията като процес на организиране е една от основните функции на управлението. Управленската функция се разбира като набор от повтарящи се управленски действия, обединени от единството на съдържанието. Тъй като организацията (като процес) служи като функция на управление, всяко управление е организационна дейност, въпреки че не се ограничава до нея.

Контролът е специално ориентирано въздействие върху системата, което гарантира, че тя получава необходимите свойства или състояния. Един от атрибутите на държавата е структурата.

Да се ​​организира означава преди всичко да се създаде (или промени) структура.

Въпреки че има разлики в подходите за изграждане на системи за контрол, има общи модели, разработена в кибернетиката. От гледна точка кибернетичен подходСистемата за управление е неразделна съвкупност от обект на управление (система за управление), обект на управление (управлявана система), както и директни и обратни връзки между тях. Предполага се също, че системата за управление взаимодейства с външната среда.

Основният класификационен признак за изграждане на системи за управление, който определя вида на системата и нейните потенциални възможности, е методът за организиране на контролния контур. Според последното се идентифицират няколко принципа за организиране на управляващия контур.

Принципът на отворено (софтуерно) управление.Този принцип се основава на идеята за автономно влияние върху системата, независимо от условията на нейната работа. Очевидно обхватът на практическото приложение на този принцип предполага достоверността на знанията за състоянието на околната среда и системата в целия диапазон на нейното функциониране. След това е възможно предварително да се определи реакцията на системата към изчисленото въздействие, което е предварително програмирано под формата на функция (фиг. 5.1).

Ориз. 5.1. Принцип на управление с отворена верига

Ако този ефект е различен от очаквания, веднага ще последват отклонения в характера на изменение на изходните координати, т.е. системата ще бъде незащитена от смущения в първоначалния смисъл на думата. Следователно, подобен принцип се използва, когато има увереност в надеждността на информацията за условията на работа на системата. Например, за организационни системи такава увереност е приемлива при висока изпълнителска дисциплина, когато дадената поръчка не изисква последващ контрол. Понякога този тип управление се нарича директивно управление. Безспорното предимство на тази схема за управление е простотата на организацията на управление.

Принципът на управление с отворена верига с компенсация на смущенията.Съдържанието на подхода е желанието да се премахнат ограниченията на първата схема, т.е. нерегулирано въздействие на смущения върху функционирането на системата. Възможността за компенсиране на смущенията и следователно елиминиране на ненадеждността на априорната информация се основава на достъпността на смущенията за измервания (фиг. 5.2).


Ориз. 5.2. Принцип на управление на компенсациите

Измерването на смущенията дава възможност да се определи компенсаторен контрол, който противодейства на последствията от смущенията. Обикновено, наред с коригиращия контрол, системата е обект на софтуерно въздействие. На практика обаче не винаги е възможно да се записва информация за външни смущения, да не говорим за наблюдение на отклонения в параметрите на системата или неочаквани структурни промени. При наличие на информация за смущения практически интерес представлява принципът на компенсирането им чрез въвеждане на компенсиращо управление.

Принцип на управление в затворен контур.Принципите, обсъдени по-горе, принадлежат към класа на отворените контролни контури: количеството контрол не зависи от поведението на обекта, а е функция на времето или смущението. Класът на затворените контури на управление се формира от системи с отрицателна обратна връзка, въплъщаващи основния принцип на кибернетиката.

В такива системи предварително се програмира не входният ефект, а необходимото състояние на системата, т.е. следствие от въздействието върху обекта, включително контрол. Следователно е възможна ситуация, при която смущението има положителен ефект върху динамиката на системата, ако доближава нейното състояние до желаното. За да се реализира принципът, априори се намира програмен закон за промяна на състоянието на системата във времето Spr(t) и задачата на системата се формулира като гарантиране, че действителното състояние се доближава до желаното (фиг. 5.3). Решението на този проблем се постига чрез определяне на разликата между желаното състояние и действителното:

∆С(t) = Ср(t) – С(t).


Фигура 5. 3 Принцип на управление в затворен контур

Тази разлика се използва за контрол, за да се минимизира откритото несъответствие. Това гарантира, че контролираната координата се доближава до програмната функция, независимо от причините, които са причинили разликата, било то смущения от различен произход или грешки в управлението. Качеството на управление влияе върху характера на преходния процес и установената грешка - несъответствието между програмираните и действителните крайни състояния.

В зависимост от входния сигнал теорията на управлението разграничава:

■ системи за програмно управление (разглеждан случай);

■ системи за стабилизиране, когато cpr(t) = 0;

■ системи за проследяване, когато входният сигнал е предварително неизвестен.

Тази подробност по никакъв начин не засяга изпълнението на принципа, но внася специфика в техниката на изграждане на системата.

Широкото разпространение на този принцип в естествени и изкуствени системи се обяснява с производителността на схемната организация: проблемът с управлението се решава ефективно на концептуално ниво поради въвеждането на отрицателна обратна връзка.

Разгледан е случаят на програмиране на промени във времето на състоянието на системата Ср(t), което означава предварително изчисляване на траекторията в пространството на състоянията. Но въпросът как да стане това изчезна от поглед. Отговорът е ограничен от две изисквания за траекторията, която трябва:

1) преминаване през целта;

2) удовлетворяват екстремума на критерия за качество, т.е. бъдете оптимални.

Във формализираните динамични системи, за да се намери такава траектория, се използва апаратът на вариационното смятане или неговите съвременни модификации: максималния принцип на Л. Понтрягин или динамичното програмиране на Р. Белман. В случай, че проблемът се свежда до търсене на неизвестни параметри (коефициенти) на системата, за решаването му се използват методи на математическо програмиране - необходимо е да се намери екстремумът на качествената функция (индикатор) в пространството на параметрите. За решаване на лошо формализирани проблеми може да се разчита само на евристични решения, базирани на футурологични прогнози или на резултатите от математическо симулационно моделиране. Трудно е да се оцени точността на такива решения.

Да се ​​върнем към проблема с програмирането. Ако има начин да се изчисли програмна траектория за формализирани задачи, тогава е естествено да се изисква системата за управление да се задоволи с целта и да намери програмна промяна в състоянието на системата директно в процеса на управление (терминално управление) . Такава организация на системата, разбира се, ще усложни алгоритъма за управление, но ще позволи да се сведе до минимум първоначалната информация, което означава, че ще направи контрола по-ефективен. Подобна задача през 60-те години на ХХ в. е теоретично решен от професор Е. Горбатов за управление на движението на балистични ракети и космически кораби.

Във връзка с формулирането и решаването на задачата за оптимално управление трябва да се вземе предвид следното основно обстоятелство.

Възможно е да се избере оптималното поведение на системата само ако поведението на обекта, който се изследва през целия контролен интервал, и условията, при които се извършва движението, са надеждно известни.

Оптималните решения могат да бъдат получени чрез изпълнение на други, допълнителни допускания, но въпросът е, че всеки случай трябва да бъде посочен отделно, решението ще бъде валидно „до условията“.

Нека илюстрираме заявената позиция с примера на поведението на бегач, който се стреми да постигне висок резултат. Ако ние говорим заоколо късо разстояние (100, 200 м), тогава трениран спортист си поставя за цел да осигури максимална скорост във всеки момент от времето. При бягане на по-дълги разстояния успехът се определя от способността му да разпределя правилно силите по маршрута, като за това той трябва ясно да разбира своите възможности, терена на маршрута и характеристиките на опонентите си. В условията на ограничени ресурси не максимална скороствъв всеки момент не може да има реч.

Съвсем очевидно е, че горното ограничение се изпълнява само в рамките на детерминирана формулировка на проблема, т.е. когато всичко се знае със сигурност a priori. Такива условия се оказват прекомерни за реални проблеми: прокрустовото легло на детерминизма не съответства на реалните условия на работа на системата. Априорният характер на нашите знания е изключително съмнителен както по отношение на самата система, така и по отношение на околната среда и нейното взаимодействие с този или онзи обект. Колкото по-сложна е системата, толкова по-малко надеждна е априорната информация, което не добавя оптимизъм към изследователите, провеждащи процедурата за синтез.

Такава несигурност доведе до появата на цяла посока в теорията на управлението, основана на отчитане на стохастичните условия на съществуване на системата. Най-конструктивни резултати са получени при разработването на принципите на адаптивните и самонастройващите се системи.

Оптимизация на управлението. Адаптивни и самонастройващи се системи.

Адаптивните системи позволяват да се справят с несигурността чрез получаване на допълнителна информация за състоянието на обекта и неговото взаимодействие с околната среда по време на процеса на управление, последвано от преструктуриране на структурата на системата и промяна на нейните параметри, когато работните условия се отклоняват от предварително известните такива (фиг. 5.4). В този случай, като правило, целта на трансформациите е да доближат характеристиките на системата до априорните, използвани при синтеза на управление. По този начин адаптацията е фокусирана върху поддържането на хомеостазата на системата при условия на смущения.


Ориз. 5.4. Адаптивна система

Един от най-трудните конструктивни компоненти на тази задача е получаването на информация за състоянието на околната среда, без която е трудно да се извърши адаптация.

Пример за успешно придобиване на информация за състоянието на околната среда е изобретяването на тръбата на Пито, която е оборудвана с почти всички самолети. Тръбата ви позволява да измервате напора на скоростта - най-важната характеристика, от които пряко зависят всички аеродинамични сили. Резултатите от измерването се използват за конфигуриране на автопилота. Подобна роля в социални системисоциологическите проучвания играят роля в подпомагането на коригирането на решения на вътрешни и външнополитически проблеми.

Ефективна техникаизучаването на динамиката на обект на управление е методът на двойния контрол, веднъж предложен от А. Фелдбаум. Същността му е, че заедно с командите за управление към обекта се изпращат специални тестови сигнали, чиято реакция е предварително зададена за априорния модел. Въз основа на отклонението на реакцията на обекта от стандартната се съди за взаимодействието на модела с външната среда.

Подобна техника е използвана от руското контраразузнаване по време на Първата световна война за идентифициране на шпионин. Беше идентифициран кръг от служители, заподозрени в предателство, и на всеки от този кръг беше „доверена“ важна, но невярна информация от уникален характер. Наблюдавана е реакцията на противника, по която е разпознат предателят.

Класът на самонастройващите се системи се разграничава от адаптивните системи. Последните се коригират в процеса на адаптация. Въпреки това, на приетото ниво на общоприетост, структурата на самонастройващата се система е подобна на структурата на адаптивната система (виж Фиг. 5.4).

По отношение на процесите на адаптация и самонастройка може да се отбележи, че тяхната възможност в конкретни случаи се определя главно от предназначението на системата и нейното техническо изпълнение. Такава теория на системите е пълна с илюстрации, но изглежда не съдържа обобщаващи постижения.

Друг начин за преодоляване на недостатъчността на априорни данни за процеса на управление е съчетаването на процеса на управление с процедурата за неговия синтез. Традиционно алгоритъмът за управление е резултат от синтез, базиран на предположението за детерминистично описание на модела на движение. Но е очевидно, че отклоненията в движението на възприетия модел влияят върху точността на постигане на целта и качеството на процесите, т.е. водят до отклонение от екстремума на критерия. От това следва, че управлението трябва да бъде изградено като терминално управление, изчисляващо траекторията в реално време и актуализиращо информацията за модела на обекта и условията на движение. Разбира се, в в такъв случайнеобходимо е да се екстраполират условията на шофиране за целия оставащ контролен интервал, но с приближаването до целта точността на екстраполацията се увеличава, което означава, че качеството на контрола се подобрява.

Това показва аналогия с действията на правителство, което не е в състояние да изпълни планираните цели, каквито са бюджетните. Условията на работа на икономиката се променят непланирано, в нарушение на прогнозите, така че е необходимо постоянно да се коригира планираният план, за да се постигнат крайните показатели, по-специално да се извърши секвестиране. Отклоненията от априорните предположения могат да бъдат толкова големи, че наличните ресурси и предприетите управленски мерки вече не могат да осигурят постигането на целта. След това трябва да „приближите“ целта, като я поставите вътре нова областдостижимост. Имайте предвид, че описаната схема е валидна само за устойчива система. Лошото качество на организацията на управление може да доведе до дестабилизация и, като следствие, разрушаване на цялата система.

Нека се спрем на още един принцип на управление, който е в основата на развитата теория за изследване на операциите.

Принцип на еднократен контрол. Широк набор от практически значими задачи предполага необходимостта от извършване на еднократен акт на управление, а именно вземане на решение, чиито последици се усещат дълго време. Разбира се, традиционното управление може да се тълкува и като поредица от еднократни решения. Тук отново се сблъскваме с проблема за дискретността и непрекъснатостта, границата между които е толкова размита, колкото между статични и динамични системи. Разлика обаче все още съществува: в класическа теорияконтролите изхождат от факта, че въздействието върху системата е процес, функция на времето или параметрите на състоянието, а не еднократна процедура.

Друга отличителна черта на изследването на операциите е, че тази наука оперира с контроли – константи, системни параметри. Тогава, ако в динамичните задачи като критерий се използва математическа конструкция - функционал, който оценява движението на системата, то при изследване на операциите критерият има формата на функция, дефинирана върху множеството от изследваните параметри на системата.

Областта на практическите проблеми, обхванати от изследването на операциите, е много обширна и включва дейности като разпределение на ресурси, избор на маршрут, планиране, управление на инвентара, управление на опашка при проблеми с опашка и т.н. При решаване на съответните проблеми, описаната по-горе методология за тяхното описание се използва, като се вземат предвид категориите модел, състояние, цели, критерии, управление. Също така е формулирана и решена оптимизационната задача, която се състои в намиране на екстремума на критериалната функция в пространството на параметрите. Проблемите се решават както в детерминистични, така и в стохастични формулировки.

Тъй като процедурата за работа с константи е много по-проста от работата с функции, теорията на изследването на операциите се оказа по-напреднала от общата теория на системите и по-специално теорията за управление на динамични системи. Изследването на операциите предлага по-голям арсенал от математически инструменти, понякога доста сложни, за решаване на широк набор от практически значими проблеми. Цялата съвкупност от математически методи, обслужващи изследването на операциите, се нарича математическо програмиране. Така в рамките на изследването на операциите се развива теорията за вземане на решения – една изключително актуална област.

Теорията на вземането на решения по същество разглежда процедурата за оптимизиране на условията Подробно описаниевекторен критерий и особености на установяване на неговата екстремна стойност. По този начин формулирането на проблем се характеризира с критерий, състоящ се от няколко компонента, т.е. многокритериален проблем.

За да се подчертае субективността на критерия и процеса на вземане на решение, в разглеждането се въвежда вземащ решение (DDM) с индивидуален поглед върху проблема. Когато се изучават решения с помощта на формални методи, това се проявява чрез система от предпочитания при оценката на един или друг компонент на критерия.

Като правило, за да вземе решение, вземащият решение получава няколко възможности за действие, всяка от които се оценява. Този подход е възможно най-близо до реалните условия на действие на отговорен субект в организационна система при избора на един от вариантите, подготвени от апарата. Зад всеки от тях стои изследване (аналитична, математическа симулация) на възможния ход на събитията с анализ на крайните резултати – сценарий. За удобство при вземане на критични решения са организирани ситуационни стаи, оборудвани с визуални средства за показване на сценарии на дисплеи или екрани. За целта се привличат специалисти (операционалисти), които познават не само математически методианализ на ситуации и подготовка за вземане на решения, но и по предметна област.

Ясно е, че резултатът от прилагането на теорията за изследване на операциите, в частност, и теорията за вземане на решения към даден обект е определен оптимален план за действие. Следователно, входът на определен блок, „напълнен“ с алгоритъм за оптимизация и конструиран с помощта на подходящия метод за математическо програмиране на ситуационен модел, се доставя с информация: първоначално състояние, цел, критерий за качество, списък от различни параметри, ограничения. (Системният модел се използва при конструирането на алгоритъма.) Резултатът от блока е желаният план. От гледна точка на кибернетиката, такава конструкция се класифицира като отворен контролен контур, тъй като изходната информация не влияе на входния сигнал.

По принцип разглежданият подход може да се приложи и в случая на управление по затворен контур. За да направите това, е необходимо да организирате итеративен процес във времето: след изпълнение на плана, въведете ново състояние на системата като първоначално условие и повторете цикъла. Ако задачата позволява, можете да съкратите периода на планиране, като приближите целта до първоначалното състояние на системата. След това има аналогия между предложените действия и итеративната процедура за контрол на терминала, обсъдена по-горе, която също се основава на периодично актуализиране на първоначалната информация. Освен това, динамична задача, работеща с процеси, може да бъде сведена до апроксимация на функции чрез функционални серии. В този случай променливите променливи вече ще бъдат параметрите на такива серии, което означава, че ще бъде приложим апаратът на теорията на изследването на операциите. (Това се прави в теорията на вероятностите, когато случайните процеси се описват чрез канонично разширение.)

Очертаната методика започна да намира приложение в теорията изкуствен интелектв синтеза на ситуационния мениджмънт.

Опасностите, свързани с практическо приложениетеория за вземане на решения от лица, които са недостатъчно компетентни в теорията на системите. Така че често в организационни системи (държавни институции, фирми, финансови организации) вземането на решения се абсолютизира и свежда до работа с множество показатели и оптимално изпълнение на еднократен управленски акт. В същото време те губят от поглед последствията от предприетите действия за системата, забравят, че управляват не критерия, а системата, без да отчитат многоетапността на затворения процес - от системата към неговото състояние, след това чрез индикатори към решението и отново към системата. Разбира се, по този дълъг път се допускат много грешки, обективни и субективни, които вече са достатъчни за сериозно отклонение от планираните резултати.

DNE5NGRADSUY ОРДЕН НА ЛЕНИН И ОРДЕН НА ТРУДА ЧЕРВЕН ХАШНИ ДЪРЖАВЕН УНИВЕРСИТЕТ

Като ръкопис

ЗАХАРОВ Виктор Василиевич

ОПТИМАЛНО ПОВЕДЕНИЕ В

йерархични системи

01.01.II - Системен анализ и автоматично управление.

дипломни работи за конкурс научна степенДоктор на физико-математическите науки

Ленинград - 1990г

Работата е извършена във Факултета по приложна математика - процеси на управление на Ленинградския държавен университет

Официални опоненти: доктор на физико-математическите науки КШОНЕНКО А.Й. Доктор на техническите науки ВОРОБИЕВ А.М.

Доктор на физико-математическите науки TOMSKY G.V.

Водеща организация - Иркутски изчислителен център на Сибирския клон на Академията на науките на СССР

Защитата ще се проведе "_"_1990 г. в_час. На

заседание на специализирания съвет D.063.57.33 към Ленинградския орден на Ленин и Ордена на Червеното знаме на Държавния университет на труда на адрес: I9S004 Ленинград, V.O., 10 линия, D.33.

Дисертацията можете да намерите на фундаментална библиотекакръстен на А. М. Горки Ленинградски държавен университет(Университетски насип, 7/9).

Научен секретар на специализирания съвет, ст.н.с

Харитонов B.JI.

ОБЩО ОПИСАНИЕ НА РАБОТАТА

Релевантност на проблема. Една от характерните тенденции модерен етапразвитието на науката е формирането на нови направления, които обединяват различни области научно познание. Изследванията в областта на системния анализ, свързани с проблемите на вземане на решения, принадлежат към тези области. Както отбелязва академик Н. Н. Моисеев, системният анализ е дисциплина, която се занимава с проблемите на вземане на решения в условия, когато изборът на алтернатива изисква анализ на разнообразна сложна информация. Ето защо методически концепции, на които се основават хардуерни методи за осъществяване на системен анализ обща теориясистеми и в дисциплини, занимаващи се с проблемите на вземане на решения - теория на изследването на операциите, обща теория на управлението и теория на игрите.

При конструирането на математически модели на функционирането или развитието на дори относително малки реални системи, изследователите са изправени пред необходимостта да вземат предвид сложни взаимоотношениякомпоненти на модела, които имат реално въздействие върху реализацията на алтернативите за развитие и постигането на поставените цели. Значителен брой сложни системи за управление се характеризират с конфликтност в процеса на вземане на решения, което е следствие от наличието на редица управленски субекти със система от различни представи както за глобалната цел на развитие на системата, така и за локалните цели. и критерии за развитие на неговите елементи.

Друга характерна особеност на сложните системи е тяхната йерархична структура, която се изразява както в наличието на вертикално подчинени подсистеми в системата, така и в йерархията на процеса на управление.

Йерархичната структура на управление в сложна система е последователност от нива на управление, следващи едно след друго по определен приоритет. Една от причините за появата на йерархична структура в системите за управление и вземане на решения е голямото количество информация за управлявани процесив системата, невъзможността тази информация за управляваните процеси да се обработва от един център за управление. Друга причина е децентрализацията на процеса на вземане на решения, която съществува в реалните системи, когато

Вие, подчинени на центъра, разработвате контролни действия въз основа на решенията на центъра и като вземете предвид техните собствени интереси.

Към днешна дата най-добре са проучени двустепенните статични и динамични системи, както и някои класове системи с йерархична структура от определен тип.

Управленски задачи в конфликтни ситуации двустепенни системи, формулирани за първи път през 30-те години във връзка с изследвания в областта на икономиката, след това са разработени и изследвани от много съветски и чуждестранни изследователи.

Основите на информационната теория на йерархичните системи са разработени от N.N. Moiseev, J.B. Germeyer, A.O. Kononenko и техните ученици. Една от основните задачи на моделирането на конфликтни системи, както отбелязва Н. Н. Воробьов, е проектирането и анализът на принципите на оптималност. Въпросът за принципите на оптималност, различните модификации на равновесието продължава да привлича вниманието на специалистите и е широко дискутиран в литературата, например в трудовете на Е. И. Вилкас, Н. Н. Воробьов, В. С. Бубелис, Е. Дам, Д. М. Крепс и други.

Развитието на проблемите на конфликтните динамични системи с йерархична структура се основава на фундаментални резултати от теорията на диференциалните игри, получени в края на 60-те - началото на 70-те години от L. S. Понтрягин и N. N. Kraeovsky и развити в трудовете на A. F. Kononenko, V. N. Lagunov, М. С. Николски, Ю. С. Осипов, Н. Н. Петров, Л. А. Петросян, Б. Н. Пшенични, Н. Ю. Сатиов, А. И. Суботин, Г. В. Томски и много други съветски и чуждестранни математици.

Необходимостта от изучаване на йерархични диференциални игри беше подчертана в трудовете на A.F. Kononenko, A.F. Kleimenov, N.S. Kukushkin, A. Bapchk, T. Bazar, които направиха значителен принос в развитието на проблемите, възникващи тук.

Основният проблем, който последните годинипривлече вниманието на много специалисти в теорията на конфликтните динамични системи, е проблемът за динамичната стабилност на решенията. Това се дължи на факта, че динамичната устойчивост е най-важният фактор за осъществимостта във времето на избраните принципи на оптималност. Формулирането на този проблем е извършено за първи път от Л. А. Петросян в края на 70-те години и е доразвито в трудовете на Н. Н. Данилов, С. В. Чистяков, В. В. Захаров и други изследователи. Трябва да се отбележи

Също така се обърнете към по-късните работи на чуждестранни учени Д. Крас, С. Холи, В. Хилър, в които се изследва проблемът за „временната последователност“ на оптималните решения, подобно на проблема за динамичната стабилност. Анализът на този проблем за различни класове диференциални игри показва спешната необходимост от получаване на условия, при които се осъществява динамична стабилност. Като се има предвид, че почти всички принципи на оптималност, използвани в конфликтни йерархични системи за управление, нямат това свойство, спешният проблем е да се разработят методи за регулиране на решения на йерархични диференциални игри, които осигуряват динамична стабилност на решенията.

В предлаганата работа е отделено значително място на тези проблеми. От приложна гледна точка стойността на всеки подход се определя от практическата стойност на разработените методи. Ето защо в тази работа теоретичните резултати се прилагат при изследването на конкретни йерархични модели на вземане на решения.

Целта на работата е да се разработи теория на контрола и разгърнати решения в конфликтни йерархични системи общ изглед;

Прилагане на традиционни и изграждане и изследване на нови принципи на оптималност в статични и динамични системи за контрол на конфликти с йерархична структура;

Изучаване на свойствата на решенията на йерархични игри от общ вид, сравняване на принципите на оптималност, идентифициране на модели в прилагането на решения за произволен принцип на оптималност;

Изучаване на проблема за динамичната стабилност на принципите на оптималност и решенията в йерархични диференциални игри и разработване на методи за регуляризиране на решения на различни класове стратегии;

Изграждане на конкретни модели на йерархични системи и прилагане на получените резултати за анализ и намиране на оптимални решения.

Научна новост. За първи път се формулира проблемът за управлението в конфликтни йерархични системи от общ вид. Въз основа на предложените подходи са разработени нови принципи на оптималност и процедури за избор на оптимални решения в статични и динамични системи. Беше въведена нова концепция и бяха получени нови резултати.

необходими и достатъчни условия за йерархична стабилност на решенията на игри от общ вид за произволен принцип на оптималност.

Формулиран е проблемът за динамичната устойчивост на решенията на йерархични диференциални игри и са доказани теореми за необходими и достатъчни условия за динамична устойчивост на решения за различни класове игри. За първи път са разработени методи за регуляризиране на решения за йерархични диференциални игри, осигуряващи тяхната динамична, а също и монотонно динамична устойчивост.

Разгледан е клас йерархични игри с прекъснати функции на изплащане, за които са формулирани необходими и достатъчни условия за съществуване и уникалност на решенията и са предложени конструктивни методи за намиране на решения в тези игри.

Практическа стойност. Разработените в дисертацията методи и подходи, получените условия за съществуване и уникалност на решения на йерархични игри и методи за регуляризиране на решения са използвани при изследването на редица игрово-теоретични модели за вземане на решения в конфликтни еколого-икономически системи. Получените теоретични резултати могат да бъдат използвани за по-нататъшното развитие на теорията на йерархичните системи, изследването на проблема за динамичната стабилност на решенията и принципите на оптималност в йерархичните диференциални игри.

Изследователски методи. Работата използва методологията и хардуерните методи за осъществяване на системен анализ, базирани на концепциите и положенията на общата теория на динамичните системи, теорията на управлението и теорията на игрите. Конструирането и анализът на редица модели на йерархични системи за управление се основават на методите на теорията на обикновените диференциални уравнения и частични диференциални уравнения и линейното програмиране.

Апробация на работата. Основните положения и резултати от работата бяха докладвани и обсъдени на 1-ви Ленинградски симпозиум по теория на игрите (1978), на 3-та Всесъюзна конференция по изследване на операциите (Горки, 1978), на Всесъюзния семинар „Приложни аспекти на Управление на сложни системи" (Кемерово, 19EZ), на Всесъюзната конференция "Проблеми на теоретичната кибернетика" (Иркутск, 1985), на Всесъюзната школа "Оптимално управление. Геометрия и анализ" (Кемерово, 1986), на Всесъюзното училище "Математически методи в екологията"

(Чита, 1986 г.), във Всесъюзната школа "Математически проблеми на биологията" (Чита, 1988 г.), на научни семинари на BC /L на СССР, Института по кибернетика /L на Украинската SSR, Института на Социално-икономически проблеми на Академията на науките на СССР, Факултет по изчислителна математика и кибернетика) Държавен университет на името на М. В. Ломоносов, Иркутски изчислителен център на Сибирския клон на Академията на науките на СССР, Институт природни ресурсиСибирски клон на Академията на науките на СССР, Изследователски център екологична безопасност LIC AS СССР, Изчислителен център на Арменската академия на науките CCI5, Отдел по теория на управлението и Отдел математическа статистика, теория на надеждността и масовото обслужване, Факултет по приложна математика-процеси на управление, Ленинградски държавен университет.

Работна структура. Дисертационният труд се състои от увод, три глави, деветнадесет параграфа, заключение и списък с използвана литература.Общият обем на дисертационния труд е 317 страници. Списъкът с литература включва 133 заглавия.

Във въведението му се обосновава актуалността на решавания проблем, формулират се целта, методите и насоките на изследването и резюме¡1 основни резултати от работата.

Gdaha I. Knogokriteg."Ial и йерархични системи

Първата глава дава обща формулировка на проблема за избор на оптимално задържане в многокритериални и йерархични системи, описва принципите на оптималност, изучава ромбовидни, дървовидни, двустепенни и многостепенни системи, предлага метод за конструиране на характерна функция на кооперативна игра с непразно C-ядро, въвежда концепцията за йерархична устойчивост на решението на играта G общ вид и се изучават свойствата на устойчивите оптимални ситуации.

В параграф O.1 проблемът с контрола сложна системае формализиран под формата на краен граф G, чието множество на Еершин е разделено на две подмножества - основни и съпътстващи компоненти. В този случай зависимостта на количествените

състоянията на основния компонент на системата от състоянията на компонентите на комплекта &\r), както и от параметъра на отравяне n; избрани от множеството M>y1" (r>), където

(O _ вектори, описващи състоянието на основните и съпътстващите компоненти. За всеки основен компонент се въвежда функция на полезност, която, като се вземе предвид взаимовръзката на системата, се дефинира като функция на управляващите параметри. Ако процесът на управление включва толкова много различни страни, избирайки съответно "контролни действия m-", тогава получаваме математически моделвземане на решения в условия на различни интереси на участниците. Особеността на модела е, че наборите от стратегии (контроли) на играчите и ((x° ^ зависят от количествените състояния на компонентите,

засягащи компонента £. Следователно тук не може да се каже, че играчите избират стратегиите си едновременно и независимо, както е обичайно в игрите без сътрудничество.

Нека означим множеството от елементи на йерархичната система 10 = (A0,Au...,Ab] ■ Ще приемем, че на най-горното ниво на йерархията има елемент A0, който се нарича център. Разделяме множество Г = 10\ (/40) в 1> несвързани подмножества ¿ >2, така че и £¿ = 7. Означаваме

през 1Г, ..,^(0 набори от допустими действия (контрол

ие, стратегии) ​​елементи A0> Al Ще приемем

приемете, че в общия случай наборите от допустими действия зависят от контролите, избрани от елементи на по-високи нива на системата, и не са празни за никакви допустими стойности на тези контроли. Ще дефинираме критерия за всеки елемент £е I ​​чрез някакъв функционал, дефиниран в множеството 1/x x. ..l gse ^e^O), . Всеки от елементите се интересува от максимизиране на своята функционалност.

Ще моделираме процеса на вземане на решения в такава система с йерархична многостепенна игра Г, която ще наричаме йерархична игра от общ вид.

В § 1.2 се обсъждат оптимизационни проблеми в системи за управление и вземане на решения с йерархична структура и се формулира концепцията за йерархична структура на управление. Характерен елемент, използван за избор на решение в йерархична система, е наборът от оптимални реакции на индивида

noP системни компоненти или групи от компоненти /?( ) на

избор на контроли за подсистеми на по-високи нива. Този раздел обсъжда редица специфични: модели за вземане на решения в двустепенни системи за управление.

Раздел 1.3 е посветен на принципите на оптималност, използвани в моделите на теорията на игрите. Тук разглеждаме двустепенни, дървоподобни игри и обща йерархична игра. Равновесията на Наш и Стакелберг се използват като принципи на оптималност в тези игри. Показано е, че в дървовидна игра, при предположението за уникалност на максималните точки на функционалите за изплащане за всички стойности на параметрите, решението на Stackelberg съвпада с набора от равновесни ситуации според Neu.

За играта Г въвеждаме концепцията за равновесни йерархични стратегии на играчите.

Нека дефинираме набора от оптимални реакции на играчите на това ниво, както следва:

/G(>Y,...U~1b(rLg/£_ ^ H; (u, y,1 .u1~\

къде е ir

vl¡\!^". - Управляващ вектор, в който £-тият компонент е заменен с r>/.

Определение. Преобразуване V n., u]..u^""1) » присвояване на всяко допустимо множество u> y1,.. единственото управление на k-то ниво, принадлежащо на

.”при оптимални реакции ще го направим

наречете го равновесна йерархична стратегия на L-то ниво

Има ли много оптимални реакции тук?< -го уровня определяется так:

където V ( ),...(.) са съответно равновесните йерархии

технически стратегии на &-I,..., b-ти нива.

Ние ще наречем равновесно йерархично решение на центъра множеството R0 от всички контроли, неговите ¿7, така че

Лема 1 доказва, че всеки набор от равновесни йерархични стратегии образува равновесна ситуация на Наш. За специалния случай на играта Г, когато има само един играч на всяко ниво на йерархията, е формулирана теорема I за съществуването на ситуация на е-равновесие.

В § 1.4 процесът на намиране на решение на Dtakelberg в игри с форма на диамант се обсъжда подробно; разглеждат се и многокритериални системи за управление с форма на диамант, които използват принципа на смесената оптималност. За да съответства на тази игрална система с форма на диамант, се въвежда концепцията за SP-решение, което има свойствата на решение на Stackelberg и изискванията на оптималността на Парето. За да илюстрираме процесите на вземане на решения в системи с ромбовидна структура, разглеждаме проблема за изграждане на оптимален план за производствена единица C, подчинена на два административни центъра B1 и A, които от своя страна също са подчинени на център A0 и такъв проблем с разпределението на ресурсите в йерархична производствена система. "

Основната характеристика на кооперативните игри с йерархична структура е, че характерните функции в тези игри са изградени, като се вземе предвид информационната структура. В трудовете на Л. А. Петросян характерните функции на игрите с форма на диамант са конструирани с помощта на равновесни ситуации на Наш. Раздел 1.5 предлага метод за конструиране на характеристичната функция на кооперативна йерархична игра от общ вид, използвайки равновесните йерархични стратегии на играчите в некооперативната игра G. Доказана е суперадитивността на конструираната характеристична функция. Теорема 4 установява, че векторът на изплащане в равновесната ситуация на играта Г е деление в кооперативна игра и принадлежи на нейното С-ядро. В края на раздела се разглеждат примери за конструиране на характеристични функции в игри с форма на диамант.

3 серия от научни публикации на R.D. Auman, N.N. Vorobyov, P.P. Луис, Е. Дмме, Д. М. Крепс, Н. Кун и други изследователи

В разширена форма се разглеждат различни модификации на концепцията за устойчивост на равновесните ситуации в игрите. В раздел 1.6 се въвежда ново понятие за стабилност на решение в йерархична игра Г от общ вид. Нека означим с

M = (O, V,...,r>n); u.e/g°, vke ..k = \,r,...,b)

Решение на йерархичната игра Г, където е множеството от оптимални йерархични решения на центъра, /?*( ] е множеството от оптимални реакции на играчите от k-то ниво, непразни за всички допустими стойности на контролите на играчи от по-високо ниво.

Нека означим йерархичните стратегии на играч r с Ε>-("), а коалициите с

Нека разгледаме ситуация (и, y 1(-), ■ ■., такава, че

всяко -ue/?0, = u, A = 1,2,...,1-

Нека M^ е подмножество на M, включващо всички алтернативи със стратегия с фиксиран център. За всяко k = 1,2,...,1 въвеждаме множеството

m1m.... V1"") = ((g>?..., V1): . 1>1.y-"), 1-K..L

Определение. Алтернативата (и, V1,... се нарича

йерархично стабилен по отношение на ситуацията, ако за всяко k = ■(, 2,..., I

Ще наречем подмножество A/" от множеството Mi йерархично стабилно по отношение на ситуацията (.u.uH"),...,Х10)), ако всяка алтернатива от множеството M^ е йерархично стабилна по отношение на тази ситуация . Ситуацията (и<рV-;,... ...»ф^С-)) будем называть абсолютно иерархически устойчивой, если относительно нее устойчиво множество М1о.

Нека формулираме следните теореми за необходими и достатъчни условия за йерархична стабилност, доказани в първа глава.

Теорема 6. За да има алтернатива

беше йерархично стабилен спрямо ситуацията (_ и, $4-),...

-»С-)), е необходимо и достатъчно, че за всеки

£ =1,2,",..,£ условието беше изпълнено

P k-<1()у*"*;,

където У^ср1^,»1,..., V , £=

Теорема 7. За да бъде оптималната ситуация C, ^"O,--"/?^")) абсолютно йерархично стабилна, е необходимо и достатъчно за всяка алтернатива (u, r>1...>y1 )&M1 условието е изпълнено

за всички A = (,2., ... ,1 .

Глава 2. Динамични системи за контрол на конфликти

с йерархична структура

Тази глава формулира проблема за управлението на конфликти на обща динамична система с йерархична структура. За йерархични системи за управление, чиято динамика се описва от векторни диференциални уравнения, а функционалите на изплащане съдържат интегрални и крайни термини, се формулира проблемът за динамичната стабилност на решенията за различни принципи на оптималност, условията, при които решенията се оказват динамични изследват се стабилни, а за нестабилни принципи на оптималност се предлагат методи за регулация, които осигуряват динамична стабилност на решенията на йерархичните игри.

Раздел 2.1 формулира проблема за контрола на конфликта в динамични модели с йерархична структура, обсъжда условията, които осигуряват съществуването и уникалността на решенията на системи от диференциални уравнения за различни класове стратегии и контроли и предоставя условия, при които наборите от всички възможни траекториите при използване на програмни и синтезиращи контроли съвпадат. В края на раздела разглеждаме два примера за намиране на равновесни ситуации в диференциални игри на две нива с терминал

печалби. Разгледаните примери се характеризират с това, че оптималните стратегии в един от тях се оказват динамично нестабилни, а в другия имат противоположно свойство.

Динамиката на всички конфликтни йерархични системи, обсъдени в първия параграф и в цялата глава, се описва от векторното диференциално уравнение

при начални условия

I th T > контрол gs. e, r. e-ти във всеки момент от времето се избират от компактни набори,..., Рп, £ = ■1,2,...,п Функционалите за изплащане на играчите се разглеждат във формата

= ¿-0,1....p.

Съществен момент при изграждането на теоретико-игровия модел на вземане на решения в система за управление на конфликти е изборът на принципа на оптималност, както и вида на стратегиите, използвани от играчите. Това се обсъжда в параграф 2.2. В съответствие с приетата терминология, ние определяме стратегията на играча като картографиране на набора от информация на този играч върху набора от неговите контролни параметри. В общия случай се приема, че стратегическото пространство на първия играч е набор от преобразувания ^¿(¿,xO>), където за фиксирано I, (p.(-) зависи от

Такъв е случаят, когато в йерархична диференциална игра на двама души се използват стратегии, които включват покана на играча от по-ниско ниво да проследи, заедно с играча от по-високо ниво, определена траектория, която е от полза и за двамата играчи. Такива стратегии са използвани например в произведенията на А. Ф. Клейменов.

В раздел 2.2 се разглеждат подобни стратегии за игра на две нива p-N лица с един център - играч от най-високо ниво, когато центърът не влияе върху динамиката на системата, а само върху стойността на функционалите за изплащане на играта.

скали от долното ниво. Характерна особеност на предложените решения е наличието на UG стратегия в центъра; ea, което предполага, че в случай на отклонение от изпълнението на предложената траектория, центърът ще премине към универсална стратегия, която може да се тълкува и като стратегия за наказание. Следващият параграф обсъжда приложението на принципа на оптимално! Тип Stackolberg за диференциални игри на две и три нива. В края на раздела са разгледани примери за намиране на o: Tical решения според Ltakelbsrg, както и BR-решения в диференциални игри на две нива.

В раздел 2.3 се обсъжда проблемът за динамичната стабилност на решенията на йерархични диференциални игри. Решението M(10>x0) на йерархичната диференциална игра ГС^0,ар^м се нарича динамично стабилно, ако за всеки набор от стратегии еМ(10,х0) и всяко ¿еЦ0>

просто знайте състоянието

където _ стесняване на оптималните стратегии На

интервал Г] . А/((,х(ξ)) е решението на текущата игра, в която точката на оптималната траектория в момент b се използва като начална позиция. От тази дефиниция на динамичната устойчивост на решението следва, че динамично устойчивата оптималните стратегии имат свойството оптималност през целия период на орбитата на играта по оптималната траектория.

По-нататък в този раздел се доказва динамичната стабилност на равновесието на Нол и оптималното по Парето решение в системата от програмни стратегии. Обсъдено подробно тук:< динамические свойства решения по Стапельбергу перархическо! даффереициальной игры двух лиц. Показано, что даже в том с. чае, когда множество оптимальных реакций игрока нижнего ур>nya се състои от една стратегия, решението Stackelbe; в общия случай се оказва динамично нестабилен както при всички програмни, така и при позиционни стратегии. В същото време има йерархични игри, в които решението на Stackelberg е динамично стабилно. Това се потвърждава от конкретен пример, поставен в края на параграфа.

Раздел 2.4 е посветен на метода за регуляризация на две нива

диференциални игри. Целта на метода е да осигури динамична стабилност на решението на играта. За да направите това, се предлага всеки играч да изплати такава част от интегралните печалби в момента, че във всеки интервал от време, оставащ до края на играта, не би било изгодно за играча да се отклони от избраната стратегия в началото на играта. Характерното свойство на решението на Stackel'erg за игра на две нива в класа на програмните стратегии е обобщено в следната лема.

Лема 2L. Нека M(i0,x0) е решението на Stackelberg на игра на две нива Г в класа на програмните стратегии. За всяка ситуация (ü,v^,...,vn)

vil, P eRsCü.Li,T)),

където Rs(ñ TU) е множеството от оптимални реакции на играчи от по-ниско ниво в текущата игра I. й-lГ]~ = (ß^iyT]).,., vn lít Г]) - стесняване на оптималните контроли играчи в интервала от време.

Подобна лема в този раздел е формулирана за S P -решението на двустепенна диференциална игра.

Нека сега разгледаме молива от траектории X?.(í) ¿0¡x0) Stackelberg оптимален, давайки, че контролът на центъра il.(i) е фиксиран. Тогава, както е показано в теорема 2, условието

N" °(ya,"P, vltj]) = макс. мин

u-"eVCtSJ vt£R^ut) 0 *

където vb) е функционалността на центъра в текущата игра,

xÍb xí(¿ í„, x\ е произволна позиция на сечението на лъча в момента

O >> O" O"

nt време í е достатъчно за динамичната устойчивост на решението. Подобно условие е установено за SP решението в теорема 3. В тези теореми условие от тип (I) предполага, че оптималният отговор на по-ниско ниво в случай на динамично стабилна равновесна ситуация (,ü,v) също е a стратегия за наказание. Въпреки това, както е показано в теорема 2, това условие може да бъде отслабено чрез въвеждане на концепцията за някаква универсална стратегия за наказание

и вече е формулирано условие (í) за тази стратегия от по-ниско ниво. Освен това, за да се приложи методът на регулиране, се приема, че интегралната печалба a.At) на играч i, която

той получава плащане във време íe[í0,T) , определено както следва:

u( (t) = ¡i¿ (b) I h; C^C-c;, ü(T), ü(T)) dr, i=0,i,...,n,

където p¿(í) са частично непрекъснати функции, приемащи стойности в диапазона от нула до единица. Освен това стойностите на функциите ji-(i), най-общо казано, зависят от "." от избраната траектория, следователно

Това ни позволява да изчислим стойностите на функционалите за изплащане на играчите за свиването на оптималните контроли ¿¿, vLi, T3, като вземем предвид функцията Ji(-) и за набор от стратегии, които не съответстват на избрания оптимален един, по обичайния начин. Ние ще наречем този процес на преразпределение на изплащането по оптималната траектория регулация на йерархична диференциална игра и йерархична диференциална игра, която допуска регулация с прехвърляеми изплащания във времето или ¿-прехвърляеми изплащания.

Нека ü(_í) v(i),äi)