精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?多人游戲中的最優(yōu)決策

        多人游戲中的最優(yōu)決策

        時間:2023-02-11 理論教育 版權反饋
        【摘要】:許多流行的游戲允許多于兩個的參加者。例如在一個有三個人A,B和C的游戲中,每個節(jié)點都與一個向量〈vA, vB, vC〉相關聯(lián)。多人游戲通常會涉及在游戲者之間出現(xiàn)正式或者非正式的聯(lián)盟的情況。是否在多人游戲中對每個游戲者來說聯(lián)盟是最優(yōu)策略的一個自然結果?例如,假設有一個終止狀態(tài)的效用值向量是〈vA=1000,vB=1000〉,并且1000對于兩個游戲者都是最高的可能效用值。

        6.2.3 多人游戲中的最優(yōu)決策

        許多流行的游戲允許多于兩個的參加者。讓我們來看一看如何把極小極大思想推廣到多人游戲中。這在技術觀點上看比較直接,但產生了一些有趣的概念問題。

        首先我們需要把每個節(jié)點上的單一值替換成一個向量值。例如在一個有三個人A,B和C的游戲中,每個節(jié)點都與一個向量〈vA, vB, vC〉相關聯(lián)。對于終止狀態(tài),這個向量給出了從每個人角度出發(fā)得到的狀態(tài)效用值。(在兩人的零和游戲中,由于效用值總是正好相反,所以二維向量可以簡化為一個單一值。)簡單的實現(xiàn)這個的方法是讓函數(shù)UTILITY返回一個效用值向量。

        現(xiàn)在我們來看非終止狀態(tài)??紤]在圖6.4中的博弈樹上標為X的節(jié)點。在這個狀態(tài),輪到游戲者C選擇做什么。兩種選擇導致的終止狀態(tài)的效用值向量分別是:〈vA=1, vB=2, vC=6〉和〈vA=4, vB=2, vC=3〉。由于6比3大,所以C應該選擇第一種走法。這也意味著如果到達了狀態(tài)X,后繼的招數(shù)會走到效用值向量為〈vA=1, vB=2, vC=6〉的終止狀態(tài)。因此X的回傳值就是這個向量。一般來講,節(jié)點n的回傳值是該游戲者在節(jié)點n選擇的效用值最高的后繼者的效用值向量。


        圖6.4 有三個游戲者(A, B, C)的博弈樹中的前三層。每個節(jié)點標有從每個游戲者角度出發(fā)的值。根節(jié)點標示了最佳步驟

        任何玩過諸如 DiplomacyTM(外交游戲)這樣的多人游戲的人很快會意識到這比雙人游戲要復雜得多。多人游戲通常會涉及在游戲者之間出現(xiàn)正式或者非正式的聯(lián)盟的情況。隨著游戲的進行,聯(lián)盟也建立或者解散。我們如何去理解這種行為呢?是否在多人游戲中對每個游戲者來說聯(lián)盟是最優(yōu)策略的一個自然結果?看起來可能是這樣的。例如A和B相對比較弱,而C很強。那么對于A和B而言,它們一起進攻C比等C逐個消滅它們要好,這樣通常是最優(yōu)的。如此,合作從純自私的行為中涌現(xiàn)出來。當然,一旦C在聯(lián)合攻擊下被削弱,聯(lián)盟就失去了價值,于是A或者B就會破壞協(xié)議。某些情況下,外在的聯(lián)盟僅僅是把將要發(fā)生的具體化。在另一些情況下,違反盟約會損害社會聲譽,所以游戲者要在毀約得到的直接利益和被認為不可信任而帶來的長期弊端之間尋求平衡。在第17.6節(jié)中我們會有更詳細的討論。

        如果游戲是非零和的,那么合作也可能發(fā)生在兩人游戲中。例如,假設有一個終止狀態(tài)的效用值向量是〈vA=1000,vB=1000〉,并且1000對于兩個游戲者都是最高的可能效用值。那么雙方的最優(yōu)策略就是做一切可能的招數(shù)來到達這個狀態(tài)——也就是說,雙方會自動合作來達到共同渴望的目標。

        免責聲明:以上內容源自網絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內容。

        我要反饋