Accueil Geek Claude AI passe à 1 million de tokens sans surcoût : ce que ça change zast Anthropic a annoncé le 13 mars 2026 que la fenêtre de contexte de 1 million de tokens pour Claude Opus 4.6 et Claude Sonnet 4.6 passait en disponibilité générale. Jusque-là cette fonctionnalité était en bêta avec un surcoût bien salé dès qu’on dépassait 200 000 tokens : x2 sur l’input et x1,5 sur l’output. C’est fini. Une requête de 900 000 tokens coûte maintenant le même prix au token qu’une requête de 9 000 tokens. Il n’y a plus de multiplicateur et le header bêta n’est plus nécessaire. Le code existant n’a pas besoin d’être modifié. Combien ça coûte maintenant Opus 4.6 reste à 5 $/25 $ par million de tokens et Sonnet 4.6 reste à 3 $/15 $. Le tarif est unique sur toute la fenêtre. Anthropic a aussi relevé la limite média à 600 images ou pages PDF par requête contre 100 avant. Les rate limits standards s’appliquent quelle que soit la taille du contexte. La fonctionnalité est disponible dès maintenant sur la Claude Platform. Claude Code passe au 1M par défaut Les utilisateurs de Claude Code sur les plans Max et Team et Enterprise récupèrent la fenêtre complète avec Opus 4.6 sans rien configurer. Ça se traduit par moins de compactions pendant les longues sessions. Le modèle garde tout en tête : les appels d’outils et le raisonnement intermédiaire et les observations. On n’a plus besoin de se battre avec des résumés lossy qui font perdre des infos critiques en plein debug. Cursor a déjà mis à jour ses tarifs pour coller à l’annonce. Face à Grok et GPT-5.4 et Gemini : où en est-on ? La course aux fenêtres de contexte géantes bat son plein en mars 2026. On fait le point. Grok 4.2 de xAI domine en taille brute avec 2 millions de tokens (2,5 M selon les configs). Le modèle est accessible sur grok.com et l’app X et l’API. Par contre les tokens de raisonnement des agents peuvent facilement multiplier la facture par 2 à 4 sur les tâches complexes. GPT-5.4 d’OpenAI propose 1 million de tokens via l’API et Codex depuis le 5 mars. Sauf qu’OpenAI applique toujours un surcoût (x2 input et x1,5 output) au-delà de 272 000 tokens d’input. Le contexte standard dans ChatGPT reste à 272 000 tokens. Gemini 3.1 Pro de Google tient aussi 1 million de tokens en entrée via l’API et Vertex AI. Google facture là aussi un surcoût au-delà de 200 000 tokens. Claude Opus 4.6 et Sonnet 4.6 arrivent donc à 1 million de tokens mais avec un truc que personne d’autre ne fait : zéro surcoût. C’est le seul modèle frontier où le prix au token reste le même que la requête fasse 10 000 ou 990 000 tokens. Dans le graphique ci-dessous officiel de Anthropic, il manque Grok 4.2 Les benchmarks à cette échelle La taille de la fenêtre ne fait pas tout. Ce qui compte c’est que le modèle arrive à réellement exploiter un contexte aussi large sans perdre le fil. Anthropic avance un score de 78,3 % sur le benchmark MRCR v2 (Multi-needle Retrieval) à 1 million de tokens pour Opus 4.6 et 68,4 % pour Sonnet 4.6 sur GraphWalks BFS. Ce sont les meilleurs scores parmi les modèles frontier à cette longueur de contexte selon Anthropic. Le MRCR v2 mesure la capacité d’un modèle à retrouver des infos précises disséminées dans un très long contexte. C’est typiquement ce dont un agent autonome a besoin quand il doit se rappeler d’un appel d’outil fait 500 000 tokens plus tôt. Ce que ça débloque 1 million de tokens ça représente environ 750 000 mots. Ça correspond à peu près à 1 500 pages de texte ou 30 000 lignes de code ou plus d’une heure de vidéo transcrite.Voir aussizastGeek 8 mars 2026 à 10h05GoPro GP3 : nouveau processeur 5 nm, HERO14 et caméras 2026 au programme Côté dev ça permet de balancer un codebase entier dans une seule requête pour du refactoring ou de la détection de bugs. On n’a plus besoin de découper et de bricoler du RAG pour faire tenir les choses dans 200 000 tokens. Les agents autonomes peuvent tourner sur des sessions longues sans perdre leur contexte. Et côté analyse documentaire on peut traiter des centaines de pages de contrats ou de papiers de recherche en un seul passage. Comment y accéder Sur claude.ai les plans Free et Pro restent limités à 200 000 tokens. La fenêtre 1M passe par l’API (tier 4 minimum donc 400 $ de cumul de recharge) ou par Claude Code sur les plans Max et Team et Enterprise. Les nouveaux comptes API reçoivent 5 $ de crédits gratuits pour tester mais il faudra monter en tier pour débloquer le 1M. Côté code il n’y a rien de spécial à configurer : il suffit d’envoyer une requête avec plus de 200 000 tokens et le modèle utilise la fenêtre étendue automatiquement. Ce qu’il faut garder en tête Le coût reste cher. Une requête Opus 4.6 à 1M tokens d’input revient à 5 $ rien qu’en entrée avant le moindre output. Un pipeline qui traite 1 000 documents longs par jour peut vite se retrouver à plusieurs milliers de dollars quotidiens. La latence pose aussi question. Remplir et traiter 1 million de tokens ça prend du temps et Anthropic n’a annoncé aucune amélioration de vitesse avec ce passage en GA. Et les benchmarks mesurent surtout le rappel d’information (retrouver une aiguille dans une botte de foin) mais pas la qualité de synthèse sur des tâches lourdes à travers toute la fenêtre. Des tests indépendants comme HELMET de Princeton NLP montrent que la plupart des modèles perdent en qualité au-delà de 32 000 tokens sur les tâches de résumé. La question reste ouverte pour les charges de travail réelles à 500 000+ tokens. Source : le post X de Anthropic et leur site officiel https://claude.com/blog/1m-context-ga