Je trouvais la méthode éthiquement un peu dégueu, mais la lecture du point précis me laisse un peu pantois : d'un côté, mes craintes sont enlevées, de l'autre c'est pire.
Alors, d'abord, ce que je pensais : vu que ça insistait sur l'anonymat, je trouvais ça peu éthique de cacher aux joueurs que leur adversaire n'est pas humain. Dans les échecs, le go, etc, ils jouent contre UN adversaire, qui est au courant de l'identité (et de la forme non-humaine) de son adversaire. Pas là, tu joue contre des adversaires, et l'un d'eux est non-humain.
Bon, j'ai eu plus d'infos dans le texte :
During games, players were not able to see the usernames of other players. Although webDiplomacy notifies users that the website has participated in AI research and that certain game modes allow users to play with AI agents, we evaluated Cicero in games with humans in which the participants were not explicitly informed they were playing with an AI agent for that particular game. Cicero 's participation as an AI was revealed to all players at the conclusion of the research (SM, §A.4).
Ok, une communication avait été faite avant qu'il y avait une expérimentation et un opt-in pour autoriser un éventuel agent non-humain. Donc ils savaient que c'était possible. Ok.
Par contre :
Cicero participated anonymously in 40 games of Diplomacy in a “blitz” league on webDiplomacy.net from August 19 to October 13, 2022. This league played with five minute negotiation turns; these time controls allowed games to be completed within two hours. Cicero ranked in the top 10% of participants who played more than one game and 2 nd out of 19 participants in the league that played 5 or more games. Across all 40 games, Cicero 's mean score was 25.8%, more than double the average score of 12.4% of its 82 opponents.
Je vois mal en quoi ce peut être un bon benchmark. Dans ce cadre-là, un programme a un avantage considérable sur un joueur humain : dans un jeu centré sur la diplomatie, il faut communiquer. Dans un jeu "blitz" avec 5 minutes par tour, un humain ne peut négocier en simultané (au sens propre du terme) avec deux adversaires. Un programme peut en une seconde rédiger et envoyer 6 messages à 6 adversaires, et affiner sa stratégie en temps réel, il n'a pas besoin de lire une réponse qu'elle sert déjà dans une autre négociation. En début de tour, la lecture de ce qui s'est passé sur l'intégralité du plateau doit déjà bouffer 20-30 secondes au minimum à un joueur humain.
Le format particulier de 5 minutes par tour donne un avantage considérable à une AI, et je n'ai nulle part vu dans l'étude de mécanismes de mitigation (j'ai certes survolé).
Ah, et :
Funding: All funding was provided by Meta.
Je reprend ma parole : un truc financé par facebook ne peut qu'être contraire à l'éthique ! :D
Ça me rappelle un PbeM auquel j'avais joué 2 ou 3 parties (et qui étonnement fonctionne encore, j'ai été contacté sans répondre (bouuuh !) à un mec il y a quelques mois parce que j'étais dans les joueurs, même si ma dernière partie datait... ouais, bon, y'a des étudiants de guy qui devaient pas être nés à l'époque). C'était de la stratégie pure, chaque type de perso scorait d'une manière différente, le jeu demandait donc énormément de diplomatie et d'anonymat. J'avais adoré, mais ça te bouffait la vie plus que la meth tellement ça demandait de négo entre deux tours ! J'adorerai avoir le temps et le courage de refaire une partie !