AKQ GameのEV分布でGTOを学ぶ(前回の続き)
の続きを少し短めに。また少し数理的なってしまいますがなるべく要点だけお伝えしていけたらなと思います。
1.おさらい
AKQ Gameはリバーのシチュエーションをとても簡略化したものです。
OOPの期待値(EV)は以下のように計算されるんでした。
はIPがQでブラフを打つ確率、
はOOPがKでブラフキャッチをする確率でした。
AはPure Nuts(100% equity)、KはBluff Cacher(50% equity)、QはPure Air(0% equity)でした。
AKQ Gameはリバーのブラフ率、ブラフキャッチ率の最適な頻度を考えるのに大変良いモデルだと思います。
2.EV分布
さて、とは]の範囲をとりますが、これらを動かしてみてるとOOPの期待値はどのように変化するのでしょうか。見てみましょう。
軸はIPがブラフを打つ確率です(P_2 bet)。軸はIPがブラフキャッチをする確率です(P_1 call)。軸がの期待値です。例えばIPがすべてのQでベットし()、OOPがすべてのKでフォールド()する戦略をとっていると、OOPの期待値は約-0.15bb、つまり-15.5bb/100handです。
アグレッションが異常に高い、いわゆるManiacなプレイヤーに対してコールを多めにしなければいけないのはこういうことです。
OOPの期待値が0以上になっている点だけを緑の点でプロットしてみると、
このような風になります。OOPのはIPのすべての戦略に対して期待値が正になる部分は非常に少ない、言い換えると大変不利だということです。(ポーカーはポジションゲーだということがよくわかります。)
3.搾取プレイ
2節ではマニアックに対してコールするという戦略が必要だということをお話ししました。これは搾取プレイに当たります。のIPとプレイしているとすれば、OOPの期待値は以下の水色の線になります。
OOPの最適戦略はすべてのKでコールになっていることが図からわかります。大体期待値は0.13bb/handあたりでしょうか。
しかし、IP側がこちらのすべてコールという戦略に気づき始め、ベットする頻度を極端に減らしてきました。
こちらはすべてのKでコールする戦略をとっているため期待値がマイナスになっています(-0.12bb/hand)。これは、IPのブラフ頻度が減ったことにより、相手のベットレンジのナッツ率が上がったためです。
水色線のようなベット戦略のEV分布をみると、傾きがあることがわかります。この傾きがないような戦略がGTOです。傾きがないということは相手がどの戦略を選択しようと、EVが変化しません。
4.AKQ GameのGTOとEV
前回の記事でそれぞれのGTOは
だということを証明しました。上の図はGTOにおけるEVの線分です。どちらも傾きがないことが見てわかります。がGTOをプレイしているときの期待値はです。ゼロサムゲームなので、必然的にの期待値はです。
がGTOでプレイすれば必ずの期待値が保証されますが、そこから離れてしまうと先ほど説明したように、の戦略によっては-EVになります。
青線と緑戦の交点を鞍点(saddle point)と言います。与えられている関数を偏微分することによって求められるのですが、最適化理論によく出てくる話です。
5.おわりに
2記事にわたってAKQ Gameを勉強しました。GTOがどういうものなのかを再確認するのにとても役に立ったと思います。あと、ポーカーはポジションが本当に重要だということを実感できました!