Tokenmaxxing : l’IA par abonnement touche à sa fin

Après Anthropic, Microsoft va faire passer les utilisateurs de GitHub Copilot à une facturation par jetons, rapporte Ed Zitron (le coût hebdomadaire d’exécution de GitHub Copilot ayant presque doublé depuis janvier). La tokenisation, c’est-à-dire le fait de payer l’IA selon sa consommation de token va devenir un peu partout la règle. Et c’est déjà le cas dans les entreprises.

Chez Uber, par exemple, les coûts de l’IA explosent. Un employé de Meta, lui, a créé de son propre chef un classement qui suivait le nombre de tokens utilisés par les plus de 85 000 employés de l’entreprise, rapporte Fortune. Baptisé « Claudeonomics », en référence au modèle d’IA d’Anthropic, ce classement affichait les 250 employés dépensant le plus de tokens.

Cette illustration parfaite du tokenmaxxing (qu’on pourrait traduire par optimisation à outrance des jetons), est un phénomène qui met l’accent sur l’utilisation des tokens comme mesure de productivité des développeurs. « Sur une période de 30 jours, l’utilisation totale des tokens par les employés sur le tableau de bord de Meta (fermé depuis) a dépassé les 60 000 milliards de tokens, et l’utilisateur individuel le plus gourmand a consommé en moyenne 281 milliards de tokens. Avec la version la moins chère de Claude Opus 4.6, facturée 5 $ par million de tokens, cet utilisateur à lui seul aurait pu coûter à Meta plus de 1,4 million de dollars. » Dans une interview récente, le premier promoteur de la tokenisation, Jensen Huang, PDG de Nvidia, proposait que le budget annuel en token de chaque ingénieur soit équivalent à la moitié de son salaire annuel.

Le tokenmaxxing n’est pas une stratégie d’IA, critique Thomas Claburn pour The Register. Qui estime que le coût du token, qui est le fruit d’un savant calcul, selon les GPU mobilisés et les systèmes d’IA. Reste que mesurer la performance d’un développeur au volume de ses dépenses, ne dit rien de la qualité ou de l’utilité de ce qu’il produit. L’indicateur se revèle aussi idiot que le nombre de ligne de codes produit. Le but pourtant n’est pas de dépenser des jetons mais de savoir pourquoi et à quoi vous les dépensez ! Même constat pour Kevin Rose dans le New York Times : « Ah, oui, la qualité du résultat. Les classements ne la mesurent pas ! »

Pour The Verge, la journaliste Hayden Field revient également sur les changements de modèles économiques en cours dans le monde de l’IA. Après des années d’accès à bas prix, voire gratuit, à des systèmes d’IA avancés, la facture commence à se faire sentir. L’ère de l’IA quasi gratuite touche à sa fin.

« Will Sommer, analyste chez Gartner, étudie les tendances économiques à long terme liées à l’IA générative, notamment en évaluant les enjeux financiers. Entre 2024 et 2029, Gartner estime que les investissements dans les centres de données d’IA atteindront environ 6 300 milliards de dollars, une somme colossale. Pour éviter une dépréciation de ces actifs, les principaux fournisseurs de modèles d’IA devraient idéalement générer un retour sur investissement d’environ 25 %, explique Sommer (c’est le rendement moyen d’Amazon, Microsoft et Google sur leurs investissements globaux).» Si les rendements tombent en dessous de 12 %, les investisseurs fuient. En dessous de 7 %, on entre dans une phase de dépréciation, ce qui représente « un désastre absolu pour tous les investisseurs dans cette technologie ». Pour atteindre ce seuil minimal de 7 %, Gartner prévoit que les grandes entreprises d’IA devront générer près de 7 000 milliards de dollars de revenus cumulés grâce à l’IA d’ici 2029, soit près de 2 000 milliards de dollars par. Afin d’obtenir des « rendements historiques », ces fournisseurs devraient générer près de 8 200 milliards de dollars sur la même période. »

« Mais pour atteindre les 2 000 milliards de dollars de dépenses annuelles calculés par Gartner, les fournisseurs devraient générer, selon des estimations prudentes, un total cumulé de 10 sextillions de tokens par an (un sextillion, c’est une suite 21 zéros). Même en supposant une marge bénéficiaire très généreuse de 10 % par jeton, la consommation de jetons d’ici 2030 devrait être multipliée par 50 000 à 100 000. »

« Actuellement, confrontées à une demande croissante de centres de données et à une pénurie de puissance de calcul, les entreprises ne sont pas en mesure de traiter un tel volume de jetons. Même si elles le pouvaient, elles rencontreraient un problème : elles seraient probablement déficitaires. Sommer estime que si l’on ne tient compte que des coûts directs d’infrastructure et d’électricité, « chaque entreprise dégage des marges très raisonnables sur chaque jeton ». Mais cette marge est probablement plus faible, voire inexistante, avec les nouveaux modèles, plus gourmands en jetons. Et ces ressources sont entièrement absorbées par les coûts d’exploitation indirects, comme le développement de la puissance de calcul et les dépenses exorbitantes liées à l’entraînement constant des nouveaux modèles. » Et dès qu’on ajoute toute l’infrastructure nécessaire à la prochaine génération de modèles et qu’on examine leur passage à l’échelle, la situation devient de plus en plus intenable, explique Sommer. Selon lui, nombre d’entreprises « ne pourront pas maintenir leur rythme de dépenses ». A terme, il ne devrait rester pas plus de deux grands fournisseurs de modèles de langage. Et l’époque où presque tous les services proposent une offre gratuite assez généreuse ne durera probablement pas.

Aux débuts de l’IA, la majeure partie des coûts de calcul était consacrée à l’entraînement des modèles initiaux, tandis que l’inférence (ou l’exécution des tâches) était moins onéreuse. Cependant, avec l’évolution des modèles et l’ajout de fonctionnalités aux systèmes, l’inférence est devenue beaucoup plus gourmande en ressources. Les agents d’IA, ou outils capables idéalement d’effectuer des tâches complexes à votre place sans intervention constante, consomment désormais beaucoup plus de ressources que les modèles de chatbot basiques d’il y a quelques années. Les principales entreprises d’IA ont récemment modifié leurs politiques d’utilisation des API et des outils tiers – comme Anthropic qui interdit de fait l’utilisation d’OpenClaw, sauf pour les abonnés payant un supplément – en raison de la surcharge qu’ils engendrent. En résumé, les grandes entreprises d’IA se trouvent à un tournant : elles ont attiré un grand nombre d’utilisateurs en offrant un accès gratuit, et doivent désormais les fidéliser tout en augmentant significativement leurs tarifs.

Face à l’augmentation des coûts, les entreprises pourraient avoir tendance à migrer leurs infrastructures IA totalement ou partiellement vers des modèles open source plutôt que de recourir aux services des géants de l’IA. Pour Will Sommer, un modèle économique durable « exigerait que l’IA générique soit intégrée à tous les aspects de notre vie, des panneaux publicitaires aux bornes de caisse » et que les fournisseurs d’IA prélèvent une commission sur toutes ces transactions. Ce qui est sûr, c’est que « l’ère du gratuit n’était qu’une course à l’accaparement du marché : une stratégie courante chez les startups ». « Ce n’est tout simplement pas un modèle économique viable. On ne peut pas continuer comme ça indéfiniment. »

Tokenmaxxing : l’IA par abonnement touche à sa fin

Ça (dys)fonctionne

Stream "Ça (dys)fonctionne"