Crushing or Crushed

主にShort-handed NLHEで自分が勉強したことについてまとめるブログです。

ナッシュ均衡(GTO)について

以下GTOのことはすべてNash eq.で統一します。すべてGTOと読み替えて差し支えありません。説明は定性的にわかりやすくかみ砕いたもので厳密なものではないので注意してください。

 

 NLHMにおける”解”

 結論から言うと、NLHEの解とは”一番バランスの取れた戦略”のことです。

経済学を学んだことがある人はナッシュ均衡(Nash eq.)という言葉を聞いたことがあると思いますが、一番バランスの取れた戦略とはこのナッシュ均衡のことを示しています。ゲームのルールによってはNash eq.が存在しない場合がありますが、テキサスホールデムにはNash eq.が存在することが証明されています。

 

Nash eq.でプレイすると何が嬉しいの?

下の図を使って、ヘッズアップシチュエーションのA側についてのNash eq.を説明します。感覚的にわかりやすく表現しただけの図ですので厳密な定義ではないです。

f:id:alphanavis:20180623014509p:plain

AとBの距離をAの期待値として表現することにしましょう。AがBより右の戦略をとっているとするとAの期待値は負になります。

例えばAがNash eq.でプレイしていたとします。Bが取れる戦略にはNash eq.から右側の点しかありません。したがってAの期待値を0未満にすることができません。BはMistakeによればよるほど自分の期待値を減少させてしまいます。(Nash eq. から離れれば離れるほど)

要するに、Aは相手がどのような戦略をとろうと期待値が0未満になることはありません。これが、Nash eq.でプレイすることのメリットです。

 

Aが取れる戦略にはNash eq.より左側の戦略があります。これが搾取プレイと呼ばれる戦略です。搾取プレイとは相手の弱点に合わせて自分の戦略を調整(Adjust)することです。AがNash eq.より左側の戦略をとることで自分の期待値を増やすことができます。

 

もう少し詳しく

上の図でNash eq.より搾取的な戦略のほうが勝てるんじゃない?と思われた方もいらっしゃるかと思います。これは正しいです。しかし、相手の戦略を知っているという前提が必要です。上の図をもう少し正しく表現してみましょう。

 

f:id:alphanavis:20180623021355p:plain

赤線はAの期待値が正、青線はAの期待値が負になる戦略です。Aが取れる戦略にはBより右のものがあるので、この戦略をとるとAの期待値は負になるのは前節で説明したものと同じですが、Nash eq.より左の部分にも青線があります。赤線の距離はBがNash eq. から離れた距離だけ左に広がるものです。つまりAがBに対して搾取プレイを正しく行えないと、青線の戦略を選択してしまいます。

 

搾取プレイの弱点

実際には相手の戦略はわかりませんよね。。。搾取プレイと思っていても、実際には-EVになってしまうことを説明します。

f:id:alphanavis:20180623022553p:plain

赤丸のBはAが何らかのデータから予測したBの戦略です。従って、搾取プレイ側に寄せた戦略を選択しました。しかしBは実際に青丸Bをとっていました。Nash eq.から離れた距離だけ搾取戦略の幅が広がるため、Aが取れる搾取戦略は図の赤線(Nash eq.より左)のみです。

Aは搾取プレイしているつもりでしたが、Nash eq. から離れたために自ら期待値を捨ててしまいました。

 

まとめ

Nash eq.について説明してみました。うまいプレイヤーほどNash eq.に近い戦略をとってきます。その人たちに勝つためにはこちらがよりNash eq.に近い戦略をとるしかありません。なのでPIOsolverなどでGTOを体系化して覚えることはポーカーで勝つためにとても重要だと思います。

 

あと、間違っているところがあれば訂正していただけるととても嬉しいです!