1
Tokenisation
2
Vectorisation
3
Attention
4
Génération
1. Tokenisation
Texte d'entrée: Le chat et le chaton jouent ensemble.
Le texte est divisé en tokens (sous-unités de texte) :
"Le"
" chat"
" et"
" le"
" chaton"
" jouent"
" ensemble"
"."
Chaque token est converti en ID numérique :
"Le"
267
" chat"
1542
" et"
389
" le"
267
" chaton"
8976
" jouent"
4523
" ensemble"
3218
"."
13
Caractéristiques importantes de la tokenisation
- Un token peut être un mot entier, une partie de mot, ou un caractère unique
- Les mots fréquents sont généralement un seul token
- Les mots rares sont souvent divisés en plusieurs tokens
- Les modèles comme GPT-4 utilisent environ 100 000 tokens différents
- Les espaces sont généralement inclus dans les tokens qui suivent
Outil de visualisation de tokenisation
Pour explorer comment différents textes sont tokenisés par les modèles d'OpenAI, utilisez l'outil TikTokenizer :
Tokenizer DémoCopiez cette URL dans votre navigateur pour voir comment les modèles convertissent le texte en tokens.