L’expérience « Alpha Arena Season 1 » de Nof1.ai met plusieurs grands modèles de langage en compétition de trading. Chaque IA est totalement autonome et a pour mission de trader des contrats perpétuels crypto. Chacune d’entre elle dispose d’un capital de départ de 10 000 $.
Le site affiche la performance de chaque LLM, comparée à une stratégie de pure « buy and hold » (pas de trading) de Bitcoin. Il est également possible de suivre en direct le raisonnement de chaque IA, pour expliquer son positionnement.
Les IA chinoises toujours en avance
Le projet vient de clore sa première saison, officiellement achevée le 3 novembre 2025. C’est donc le moment parfait pour faire un point d’étape sur les performances réalisées. Un premier compte-rendu avait été réalisé et est disponible ici.
Le graphique traduit deux enseignements clairs. D’abord, la marque ou la réputation du modèle ne garantit rien : DeepSeek mène au score, tandis GPT 5, pourtant attendu, est au plus bas. Ensuite, on distingue des profils de raisonnement radicalement différents selon les LLM.
Les modèles performants (DeepSeek, Qwen3 Max) adoptent des courbes de rendement relativement stables avec des montées progressives. Ils se distinguent des autres qui enregistrent des chutes brutales, illustrant un grand manque de constance dans leur approche du trading.
Ce n’est pas forcément les trades qui creusent l’écart, mais plutôt la gestion du risque entre chaque trades gagnants. La protection du capital est la donnée la plus importante pour performer sur le long terme en trading, crypto ou non. Et cette gestion du risque semble bien meilleure chez les leaders (sans surprise).
Finalement, le graphique ne montre pas seulement des chiffres abstraits. il révèle la logique derrière l’ensemble des trades pris, ou non. Ainsi on peut identifier des styles, des choix de timing, et une vraie (ou pas) capacité à gérer le risque.
Transactions, style et journaux d’échanges
Grâce aux synthèses publiques venant des LLM eux-mêmes, on peut décrypter les styles opérationnels de chaque modèle. DeepSeek Chat V3.1 est décrit comme un modèle de « conviction ». Il enregistre peu de trades, emploie un levier assez élevé (13x), et un maintient un focus sur des positions acheteuses bien maintenues.
Si l’opportunité n’est pas jugée assez profitable, DeepSeek s’abstient :
« J’attendrai la prochaine réinitialisation des financements. La patience est plus payante que la direction ».
Ce type de discours représente bien la discipline qu’il respecte pour entre ou sortir de position.
Qwen3 Max adopte lui un style encore plus stratégique et ultra sélectif. Peu de trades mais cette fois avec un levier plus élevé (17x) quand la conviction est forte. Le rapport note un taux de confiance moyen supérieur à 0,8. Exemple d’extrait :
« Position acheteuse sur BTC uniquement si la configuration réussit nos filtres multicouches. Taille maximale : 0,5 BTC ».
Visiblement cette stratégie semble payante. Après avoir squatté la deuxième place depuis le 22 octobre, Qwen vient de prendre la tête de la compétition, à la faveur d’un DeepSeek perdant sur ses derniers trades. En trading, perdre moins d’argent que ses homologues peut être le début de la rentabilité.
À l’inverse, les bonnets d’âne de la compétition Grok 4 et Gemini 2.5 Pro, présentent des approches plus risquées. Et leur PNL (pertes et profits) le montre clairement. ChatGPT est encore moins bon.
Grok tient ses positions longtemps, souvent au-delà du moment optimal. De son côté Gemini choisit fréquemment des shorts et déploie une forte activité de trading. Sûrement trop intensive pour ses capacités de lecture et de gestion du risque.
Les IA américaines à la traîne
Le journal des LLM présent sur le site souligne que Gemini accumulait des frais élevés (1 284 $ pour la période) couplée à une performance très négative. Enfin GPT 5, malgré d’excellents aptitudes linguistiques, se révèle absolument inefficace dans l’exécution.
Levier très élevé (17x), exposition large et simultanée, mais timing pauvre et gestion du stop loss trop tardive. Autant d’éléments qui viennent plomber logiquement sa performance après un mois de trading.
Ainsi, si notre premier rapport sur l’Alpha Arena concluait que “ce n’est pas le modèle mais la stratégie” qui fait la différence, les données à jour le confirment. Il y a également une tendance qui semble se dessiner, à savoir que les LLM chinois sont plus performants en trading.
Pour rappel Qwen est le modèle poussé par le géant Ali Baba, et DeepSeek a lui été créé par les analystes quantitatifs parmi les plus brillants de Chine. Les IA peuvent donc aider en trading, mais aussi en cyber sécurité.
Sur le même sujet :
- XRP : 500 M$ levés, Ripple grimpe à 40 Md$ de valorisation
- L’IA prédit un X100 sur ces 4 cryptos méconnues
- GENIUS Act Coinbase refuse l’interdiction totale du rendement stablecoin
Pourquoi vous pouvez faire confiance à 99Bitcoins
Fondée en 2013, les membres de l’équipe de 99Bitcoin sont des experts en cryptographie depuis les débuts de Bitcoin.
Recherche hebdomadaire
100k+Les lecteurs mensuels
Contributeurs experts
2000+Projets de crypto-monnaie examinés


