從博弈論的角度分析詐唬(2):特殊情況中的期望回報

時間:2019-07-22 14:11來源:未知作者:xiaoxiong

 

今天,我們要說的是第三點:

 

一些特殊情況下的期望回報

 

下面兩張表顯示了特殊情況中的期望回報。

 

第一張圖表示的是聽牌失敗時的期望回報,用上一篇文章的例子來計算:

 

對手的期望回報是你的期望回報的負數,再加上已經在底池中的$100。

 

他會得到你在下注輪的凈損失+現有底池。當然如果你贏下底池的話,你的凈損失是– $100,他沒有回報。

 

來看看最簡單的情況:當你的期望回報是0時,你的籌碼量不會發生變化,因此你不會贏下底池,底池會被對手贏走。由于我們已經玩到河牌圈,所以這不是一個零和博弈。

 

 

如果你知道什么時候詐唬,什么時候價值下注,而對手卻不知道,對他來說(也可能是對你),下面的這個圖表會更有用。

 

這張表顯示的是綜合獲勝和失敗之后,你的期望回報。我們假設過,你有20%的時候領先,80%的時候落后,因此你的平均期望回報是 qEw + (1 – q)El。(這個結果的負值+底池現有的$100=對手的期望回報Eop。)

 

 

結論

 

當你面對優秀的對手時,最好的選擇就是利用納什均衡點為你提供的策略:xopt。在這種情況對手會用 yopt的策略打牌。如果他沒有使用,他就在犯錯(也說明他不是一個優秀的玩家),你就可以利用他的錯誤找到最佳的打法。

 

如果他經常跟注,你就少詐唬,如果他很少跟注,你就多詐唬。如果你能猜到他的跟注頻率,就可以根據期望回報最大化的原則,計算自己應該詐唬的頻率。

 

附錄

 

◆◆yopt是怎樣計算的◆◆

 

如果y = yopt,無論x是多少,你的期望回報都不會改變。讓我們先假設x = 0,這時你什么牌也贏不了,公式是:

El = 0

 

現在假設x = 1,El的公式變為

El = (1 – yopt)P – yoptB

 

因為x=0和x=1時的期望回報一樣,所以

(1 – yopt)P – yoptB = 0,

 

所以

    (1 – yopt)P = yoptB,

    P – yoptP = yoptB,

    P = yopt(P + B), 

 

最后

yopt = P/(P + B)

 

◆◆從對手的角度來看◆◆

 

現在我們從對手的視角看看這個問題。

 

首先我們要列出他的期望回報Eop。由于他不知道你的牌是領先還是落后,所以他的期望回報還會受到q的影響,所以這個公式會復雜一點:

Eop = – qyB + q(1 – y)0 + (1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P]

 

– qyB 表示你有優勝牌,你下注,他跟注,并且輸了。

 

q(1 – y)0表示你有優勝牌,但是他棄牌,沒有輸贏。

 

(1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P]是他領先時的情況。

 

方括號中xy(P + B)表示你詐唬,他跟注,他贏得底池和你的下注。

 x(1 – y)0 表示你詐唬,他棄牌,沒有盈利和損失。

 

(1 – x)P表示你棄牌,他贏下底池的情況(包括他過牌贏下攤牌和他下注你棄牌兩種情況)

 

省略其中為0的部分,我們得到

Eop = (1 – q)[xy(P + B) + (1 – x)P] – qyB

 

如果對手知道你從不詐唬(x = 0),那他的最佳打法是什么?他永遠不會跟注,在上面的公式中如果用0代替x,我們得到

Eop x=0 = (1 – q)P– qyB

 

為了使結果最大化,我們必須讓y = 0 (永遠不跟注)。

 

反過來,如果對手知道你總是詐唬(x = 1),那他就很難找到最佳應對方式了。如果x = 1,我們得到

Eop x=1 = (1 – q)y(P + B) – qyB = y[(1 – q)(P + B) – qB]

 

如果

(1 – q)(P + B) – qB > 0,

y = 1 (總是跟注)會讓對手的期望回報最大化。

 

如果

(1 – q)(P + B) – qB < 0,

 

他就應該使用 y = 0 (永遠不跟注)的策略。

(1 – q)(P + B) – qB < 0

 

意味著

    (1 – q)(P + B) < qB,

    P + B – qP – qB < qB,

    P + B < q(P + 2B), 

 

最后

q > (P + B)/(P + 2B)

 

在我們的例子中,P = B = $100,如果q > 2/3,對手應該永不跟注(即使他知道你總是下注;因此在這種情況中你總是應該詐唬), 當q < 2/3時,他應該總是跟注(如果他知道你總是詐唬)。記住,這個q的值也僅取決于底池大小和下注大小。

 

◆◆xopt是怎么計算的?◆◆

 

如果x = xopt,那么無論y是多少,對手的期望回報都不會改變。和之前一樣,先假設y = 0。Eop的公式為

Eop = (1 – q)(1 – xopt)P

 

現在假設y = 1,我們得到

 

Eop = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB

 

因為y=0和y=1時的Eop一樣,我們得到

(1 – q)(1 – xopt)P = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB,

 

因此

qB = (1 – q) xopt (P + B)

 

(兩邊都有(1 – q)(1 – xopt)P,因此可以消掉),所以最終我們得到

xopt = qB/[(1 – q)(P + B)]

  

 

當我們討論頻率時,我們通常用 0.2代替20%,用0.5代替50%等等。一件不可能的事件發生的可能性是0 (0%),一件確定的事發生的可能性是1 (100%)。剩下的其他事件發生的可能性在0和1之間。

 
重庆时时开奖历史结果