PetitCalgonStatistiquement c'est correct, si tu ne tentes pas ta chance, tu ne peux pas gagner, par contre, on est bien d'accord que 100% des joueurs ne gagnent pas. La donnée est correcte, mais c'est la manière de la présenter qui est fausse.
Je ne pense pas qu'on puisse dire que "la manière de la présenter est fausse", étant donné que la phrase est tout à fait exact, et elle n'est, en soit, pas ambigue, même si elle tente de jouer sur la confusion que les gens se font dans l'interprétation d'une causalité.
Cela dit, ton exemple est vraiment bien choisi, parce que c'est une approche que l'on retrouve malheureusement dans beaucoup d'études. On établi tout d'abord une corrélation entre deux variables (le fait de jouer et le fait de gagner), et ensuite on regarde simplement dans quel sens la causalité est la plus importante (en gros, on détermine une règle A -> B, et B -> A et on calcule la confiance de chaque règle (grosso-modo, le rapport entre le nombre d'exemples où A et B sont vérifiés sur le nombre d'exemples où A seul est vérifié) sachant que la valeur de support est identique). On observe alors souvent des conclusions rapides (ou triviales, comme dans le cas présent) mais qui ne se basent sur rien : déterminer quelle implication fournit la meilleure confiance ne signifie pas que l'on détermine si cette confiance est élevée ou pas.
Avec la multiplication des outils informatiques et des techniques statistiques mal maitrisées, on se retrouve aussi souvent avec des personnes qui appliquent une technique, et ne font que lire la conclusion générée par le modèle statistique sous-jacent, sans regarder si cette conclusion est pertinente, représentative voire même fiable. La dimensionnalité des données considérées jouent aussi un rôle, et l'information absente est bien souvent ignorée. Il y a de nombreuses études dans lesquelles on peut lire des conneries du genre "Les accidents de voiture sont liés à l'usage de la lettre C dans les SMS". Le souci vient généralement d'un jeu de données trop faibles (a-t-on suffisamment d'informations de fréquence pour chaque lettre du SMS ?), de l'abstraction de certaines notions, des données absentes (et ceux qui n'ont pas de GSM ? Qui ne font pas de SMS ?) ou tout simplement d'éléments qui ne sont pas en leur possession (la lettre "C" est souvent utilisée dans le SMS "j'dois faire caca", et donc ce sont les gens qui doivent faire caca qui font des accidents de la route). Mais la presse relaie simplement ce qui se vend... (et d'ailleurs, la plupart de ces études sont en fait des travaux effectués dans le cadre d'un mémoire étudiant, ou c'est bien souvent davantage la démarche que le résultat qui importe, alors que les médias s'intéressent à l'inverse).
Il y a quelques exemples classiques dans la littérature. Notamment, de nombreuses techniques statistiques travaillent avec un intervale de confiance de 0.95 (donc 5% d'erreur). Quand on utilise ces techniques, on fixe l'intervale de confiance et on obtient une conclusion qui s'avère à priori vraie dans 95% des cas. Sauf que :
1. Rien ne dit que l'échantillon soit représentatif et non biaisé. Il y a des approches consistants à comparer l'analyse avec une même analyse mais effectuée sur un jeu de données aléatoires, et de voir la réponse que l'on obtient. C'est grosso-modo l'idée de la p-value associée à ces analyses : elle permet d'avoir une idée du résultat de la même analyse, mais dans un contexte (pratiquement) totalement aléatoire. Si cette p-value dépasse le complément de l'intervale de confiance (ex : si la p-value > 0.05), cela signifie que la même conclusion aurait pu être tirée avec des données aléatoires. Vous imaginez que si on oublie de tenir compte de cela, on obtient vite du grand n'importe quoi dans les analyses (et souvent, plus le jeu de données est petit ou ciblé, plus la p-value va monter rapidement !).
2. Même en ayant vérifié la p-value, la plupart des analyses font partie d'un "tout". C'est à dire qu'on va tirer une conclusion à 0.95 de confiance, puis sur base de cette conclusion, on fait une autre analyse avec une autre conclusion à 0.95 de confiance, et ainsi de suite. Le hic, c'est que tout ça, c'est mis bout à bout dans le raisonnement, mais sans tenir compte qu'on admet 5% d'erreur à chaque fois. Sauf que 0.95 * 0.95 * 0.95 (3 expériences) = ~0.85, soit 15% d'erreur. Et ça va vite, très très vite : les résultats sont publiés, quelqu'un d'autre repart de notre conclusion, puis refait encore un test à 0.95, et ainsi de suite. On se retrouve rapidement avec une étude dans laquelle chaque résultat n'a peut-être que 5% d'erreur, mais la probabilité que l'ensemble des analyses soient vraies (et donc fiables) est bien plus basse que l'intervale de confiance qu'on fixe initialement.
Il y a bien des approches pour résoudre ça (typiquement, une correction de Bonferroni) mais cette correction (et les variantes, parfois moins "aggressives") sont assez rudes et tendent tout simplement à invalider l'étude dans son ensemble (à juste titre, bien que ce n'est pas forcément "non-valide",mais juste "pas significatif"), et donc les gens font l'impasse là-dessus.