Представьте большую языковую модель (например, ChatGPT или Gemini) как человека с очень хорошей краткосрочной памятью, который общается с вами текстом. Чтобы общаться, модель должна «понимать» текст, разбивая его на мелкие кусочки и запоминая только ограниченный объем информации. Рассмотрим по шагам, как это происходит.
А так же помните, что чем больше информации мы даем, тем больше вероятность что модель “забудет” то что мы ей давали изначально. Поэтому очень важно понимать природу контекстного окна, а так же понимать как с ним эффективно работать.
Токен — это небольшой кусочек текста, с которым модель способна работать. Это могут быть:
Модель не работает напрямую с буквами или словами. Вместо этого она преобразует текст в цифровые ID (числа), и уже с ними «думает». Этот процесс называется токенизацией.
Пример токенизации:
[Chat][G][PT][ крутой][!][де][токен][изац][ия]От количества токенов напрямую зависит стоимость работы с моделью: чем их больше, тем дороже запрос.
Контекстное окно — это как кратковременная память у человека. Это максимум токенов, который модель может учитывать при ответе.
Когда вы задаете вопрос, модель «видит»: