调整超参数

背景:在囚徒困境中,我们知道合作是对双方而言的最优解。但在长期演化的过程中,合作能否作为最优策略被学到呢?

你的队友是一个由强化学习算法控制的智能体,快来试试吧!

游戏步数 你的选择 对方选择 你的收益 对方收益

你的总收益:0 / 对方总收益:0

对方选择:

(收益:

你的选择:

(收益:

主页