用于計算機輔助地控制和/或調節(jié)技術系統的方法_3

文檔序號：9793944閱讀：來源：國知局

稱作獎勵(Reward))，并且行動序列&的所有評價標準的折扣加權總和是質量標準RE。折扣因子γ隨著與當前的時間點t間距越大變得越來越小，使得繼續(xù)地在將來存在的評價標準以較小的權重注入質量標準中。所述評價標準按照用于運行技術系統的所期望的優(yōu)化準則被確定。相應的評價標準的規(guī)格對于專業(yè)人員充分已知或者處于專業(yè)人員業(yè)務(Handeln)范圍中。
[0034] 在一種優(yōu)選的實施方式中，與事件視界T有關的因子γ在上述方程式（1)中使用，所述因子如下被定義：
在此q是固定的值，其中〇<q<l。由此所述評價標準r(sl)、也即用于第一行動的評價標準完全地注入所述質量標準RE，而用于置于在將來最遠的狀態(tài)r(sT)的評價標準以因子q 打折扣。發(fā)明人已經使用值q=5%=0.05。
[0035] 在粒子群優(yōu)化的范圍內，迭代地基于預先給定數量的迭代步驟(所述迭代步驟此外在下面用索引m指定)對于每個粒子i通過迭代地更新的速度向量確定行動序列Ai，對于所述行動序列于是通過遞歸神經網絡RNN和通過計算RC確定質量標準RE，所述質量標準RE 作為適應度注入粒子群優(yōu)化，并且導致速度向量的計算和從而導致用于下一迭代步驟的各自粒子的行動序列。在經歷所有的迭代后，通過粒子群優(yōu)化輸出最佳的行動序列，所述最佳的行動序列在圖1中用A表示。在這里描述的實施方式中，所述最佳的行動序列A的第一行動 a=a(0)在技術系統處被實施。這在技術系統中導致在新的當前時間點t的新的狀態(tài)s。所述狀態(tài)于是再次基于圖1的方法被處理，以便由此確定下一行動，所述行動在技術系統處被實施。
[0036 ]圖1的方法可以在5秒或者更少的短的計算時間中輸出適當的要實施的行動。由發(fā) 明人所執(zhí)行的模擬在此已經表明，所計算的行動導致高的質量標準，并且因此導致對通過質量標準指定的優(yōu)化準則的良好的滿足。在此有利的是，可以以簡單的方式改變質量標準或者其計算。在一種特別優(yōu)選的實施方式中，在使用圖1的方法時，也可以在技術系統處設置用戶接口，利用所述用戶接口，用戶可以在線地在改變技術系統的運行條件時相應地適配所述質量標準。
[0037] 以下描述在圖1中所使用的粒子群優(yōu)化PS0的優(yōu)選變型方案。粒子群優(yōu)化的算法通常是基于群體的非凸隨機優(yōu)化啟發(fā)學。在此粒子群的大量粒子被觀察，其中各自的粒子表示所觀察的問題的可能的解。在這里描述的實施方式中，要確定的最佳的行動序列Ai形式的潛在的解分配給每個粒子。所述粒子迭代地穿越多維的搜索空間，所述搜索空間也被稱作適應度景觀。在每個運動后，每個粒子獲得其新位置的適應度值，其中將所述適應度值與其先前的最好的適應度值比較。在粒子群優(yōu)化中使用的適應度值在上面已經被定義。粒子的位置在此對應于在相應的迭代步驟中確定的行動序列M。
[0038] 作為粒子群優(yōu)化的結果，具有最好的適應度的位置（以及因此所述行動序列)被輸出，所述最好的適應度曾經由在其鄰近的粒子發(fā)現。所述鄰近在此以適當的方式通過拓撲結構被確定，并且為各自的粒子指定相應的相鄰粒子。在其處粒子獲得最高的適應度值的位置被稱作粒子的最好的（自己的）位置。與此相對地，在其處任意粒子在各自粒子的鄰近 (包括各自的粒子自身）中獲得最高的適應度值的位置被稱作最好的鄰近位置。
[0039] 每個粒子明確地通過索引i被標識，所述索引對于由N粒子構成的群從i=l運行至i =N。在此xi(m)表示粒子i的位置，并且因此對于迭代步驟m表示相應的行動序列Ai，其中在所述粒子群優(yōu)化中，預先確定數量的迭代步驟被執(zhí)行。各自粒子的自己的最好位置在算法中對于迭代步驟m如下被計算：

是nx維搜索空間的在上面已經定義的適應度函數，其中技術系統在當前的時間點的狀態(tài)s被預先給定。參量yi(m)對應于來自圖1的行動序列Ai。在開始粒子群優(yōu)化時，每個粒子的位置隨機地被確定并且同樣也是自己的最好位置。
[0040] 按照鄰近的上述拓撲結構，所述粒子表示節(jié)點，所述節(jié)點通過邊彼此連接，其中各自粒子的鄰近包含所述粒子自身以及所有其它粒子，所述其它粒子直接地通過邊與所述各自粒子連接。所述拓撲結構在此可以以不同的方式被定義。圖2示出以具有7個粒子的粒子群為例在粒子群優(yōu)化中可使用的拓撲結構的不同變型方案。在此星形拓撲結構ST以及環(huán)形拓撲結構的兩個變型方案RT1和RT2被示出。各個粒子在此對應于各自的節(jié)點，所述節(jié)點表示為圓圈，其中示例性地第N個粒子的鄰近被強調。所述節(jié)點通過邊K彼此連接，其中出于清楚性原因在每個拓撲結構中僅用附圖標記K標出兩個邊。與相應的粒子直接地通過邊K連接的所有節(jié)點表示相應的粒子的鄰近粒子。按照星型拓撲結構，在此每個粒子與每個其它的粒子連接，然而在環(huán)形拓撲結構RT1中，各自粒子具有四個鄰近粒子，并且在所述環(huán)形拓撲結構RT2中，各自的粒子僅具有兩個鄰近粒子。必要時，在按照圖1的粒子群優(yōu)化中也可以使用更復雜的拓撲結構。
[0041] 粒子i的鄰近按照上面的描述被定義為：蛑& 粒子i和粒子k通過拓撲結構的邊連接}。
[0042]在粒子群優(yōu)化的范圍內，所述粒子將其自己的最好位置傳送給在其鄰近中的所有粒子。從中每個粒子如下確定最好的鄰近位置：
接著所述粒子基于此外在下面描述的速度確定其位置更新，并且根據所述位置更新運動。用于下一迭代步驟的速度于是被確定為在各自粒子的（自己的）最好位置和最好的鄰近位置之間的隨機折衷。
[0043] 用于每個迭代步驟的位置的變化通過將速度向量v-Jm)相加到各自粒子的位置上被執(zhí)行，而且基于以下方程式被執(zhí)行：
在此，所述方法利用各自的粒子位置Xl(〇)被初始化，所述粒子位置^(〇)均勻分布地位于事先確定的極限Xmin和Xmax之間，也即識乂適用。
[0044] 所述速度向量Vi(m)不僅包含認知分量而且包含社交分量（soziale Komponente)，并且促進算法的優(yōu)化過程。在此vij(m)表示對于迭代步驟m在維度j=l，…，n x 中粒子i的速度，其中j代表在行動序列的所有行動上的行動變量(和從而事件視界T)的索弓丨。所述變量是對于迭代步驟m在維度j中粒子i的位置，并且因此對應于行動序列的行動變量的值。參量(^和(3 2是正的加速度常數，所述加速度常數被使用用于縮放 (51^1161'111^)認知分量和社交分量的貢獻。例如可以使用(31=〇2=1.49618。變量1'1」(111)、印 (m)~U(0，1)是范圍[0，1]中的隨機值，所述隨機值由均勻分布推斷出，以便在算法中導入隨機兀素。
[0045] 來自方程式(5)的常數因子w表示慣性權重（英語為：inertia weight)(也見出版物[5])。所述慣性權重w控制：先前迭代的速度的多少記憶(GedSchtnis)應當影響新的速度。所述因子w通常配備有來自范圍[0，1]的固定的值。在特別優(yōu)選的變型方案中選擇w= 0.7298。具有w=l的粒子群優(yōu)化也可以被解釋為沒有慣性權重的粒子群優(yōu)化。
[0046]此外，"速度夾緊(Velocity Clamping)"被使用（也見出版物[4])。在此，所述速度在維度j中的特定最大值Vmax, j處被切斷。換句話說，粒子i的速度如以下被適配：
優(yōu)選地所述最大值Vmax>j這樣地被確定，使得所述最大值為相應維度j的位置波動的可供使用的總范圍的10%，也即適用的是：
必要時，粒子群優(yōu)化也可以在沒有速度夾緊的情況下被執(zhí)行。在該情況下，適用的是：
對于粒子群優(yōu)化的算法，在這里描述的實施方式中，預先給出預先確定數量的迭代。如果所述數量被達到，則作為結果從

完整全部詳細技術資料下載

當前第3頁1 2 3 4

相關技術