Понятное объяснение сложных понятий о больших языковых моделях (LLM)

Представьте большую языковую модель (например, ChatGPT или Gemini) как человека с очень хорошей краткосрочной памятью, который общается с вами текстом. Чтобы общаться, модель должна «понимать» текст, разбивая его на мелкие кусочки и запоминая только ограниченный объем информации. Рассмотрим по шагам, как это происходит.

А так же помните, что чем больше информации мы даем, тем больше вероятность что модель “забудет” то что мы ей давали изначально. Поэтому очень важно понимать природу контекстного окна, а так же понимать как с ним эффективно работать.

🧩 1. Что такое токены?

Токен — это небольшой кусочек текста, с которым модель способна работать. Это могут быть:

Целые слова (например, «дом»).
Части слов (например, «бега» + «ющий» для слова «бегающий»).
Знаки препинания и символы (например, запятые, точки, «!»).

Модель не работает напрямую с буквами или словами. Вместо этого она преобразует текст в цифровые ID (числа), и уже с ними «думает». Этот процесс называется токенизацией.

Пример токенизации:

«ChatGPT крутой!» → [Chat][G][PT][ крутой][!]
«детокенизация» → [де][токен][изац][ия]

От количества токенов напрямую зависит стоимость работы с моделью: чем их больше, тем дороже запрос.

🧠 2. Что такое контекстное окно?

Контекстное окно — это как кратковременная память у человека. Это максимум токенов, который модель может учитывать при ответе.

Когда вы задаете вопрос, модель «видит»: