背景:在囚徒困境中,我们知道合作是对双方而言的最优解。但在长期演化的过程中,合作能否作为最优策略被学到呢?
你的队友是一个由强化学习算法控制的智能体,快来试试吧!
(想好了) 合作 欺骗 (收益:)
合作 欺骗 (收益:)
继续
主页