Official · 速報 · AI要約未精査 2018.07.04 モンテズマの復讐ゲームで単一デモから高得点達成——強化学習の新たな挑戦とは? モンテズマの復讐ゲームで単一デモから高得点達成に成功 OpenAIがモンテズマの復讐ゲームで単一デモから高得点を達成 速報・AI要約未精査 Montezuma's Revenge PPO 強化学習 単一デモンストレーション学習 OpenAI News