Logo
1
Tokenisation
2
Vectorisation
3
Attention
4
Génération

1. Tokenisation

Texte d'entrée: Le chat et le chaton jouent ensemble.

Le texte est divisé en tokens (sous-unités de texte) :

"Le"
" chat"
" et"
" le"
" chaton"
" jouent"
" ensemble"
"."

Chaque token est converti en ID numérique :

"Le"
267
" chat"
1542
" et"
389
" le"
267
" chaton"
8976
" jouent"
4523
" ensemble"
3218
"."
13

Caractéristiques importantes de la tokenisation

  • Un token peut être un mot entier, une partie de mot, ou un caractère unique
  • Les mots fréquents sont généralement un seul token
  • Les mots rares sont souvent divisés en plusieurs tokens
  • Les modèles comme GPT-4 utilisent environ 100 000 tokens différents
  • Les espaces sont généralement inclus dans les tokens qui suivent

Outil de visualisation de tokenisation

Pour explorer comment différents textes sont tokenisés par les modèles d'OpenAI, utilisez l'outil TikTokenizer :

Tokenizer Démo

Copiez cette URL dans votre navigateur pour voir comment les modèles convertissent le texte en tokens.

Accueil