Token

Mi az a token az AI-ban?

A token az AI és különösen a nagy nyelvi modellek (LLM-ek) működésében egy alapegység, amelyre a szöveget feldarabolják, mielőtt azt a modell feldolgozná. Egy token lehet egy teljes szó, szótöredék, vagy akár egy írásjel – attól függően, hogy milyen nyelvfeldolgozási algoritmust használ az adott modell.

Például a „mesterséges intelligencia” kifejezést egy modell akár három tokenre is bonthatja: „mester”, „séges” és „intelligencia”. Más modellek ezt két vagy akár egyetlen tokenként is kezelhetik.

Miért fontos?

A tokenek meghatározzák:

  • A bemenet hosszát (tokenlimit)
  • A válasz hosszát
  • Az AI-modell „költségét” tokenalapú szolgáltatásoknál (pl. ChatGPT, OpenAI API)

Minél több token van egy kérésben vagy válaszban, annál nagyobb az erőforrásigény.

Mire kell figyelni?

  • Az AI modellek nem karakterekben, hanem tokenekben mérik a szöveget
  • Az egyes modellek tokenizálása eltérő lehet (pl. GPT-3 vs. GPT-4)
  • Egy token nem feltétlenül egyezik meg egy szóval

Tokenlimit

A legtöbb LLM rendelkezik egy tokenlimittel, amely meghatározza, hogy a bemenet és a válasz együtt legfeljebb hány token hosszú lehet. Például ha egy modell tokenlimite 8.000, akkor egy 2.000 tokenes kérés esetén legfeljebb 6.000 tokenes válasz várható.

Összefoglalva

A token az a legkisebb szövegegység, amelyet a nyelvi modellek értelmeznek és feldolgoznak. A tokenek száma hatással van a válasz hosszára, a költségekre és a modell teljesítményére is.