Токенизация – это процесс преобразования текста в токены, и разные модели ИИ могут использовать разные токенизаторы. Исследование в этой области показывает, что токены, созданные разными системами, могут значительно варьироваться. Например, в сравнении моделей OpenAI и Anthropic, было установлено, что токенизатор Claude генерирует на 20-30% больше токенов, чем GPT-4o для одинаковых текстов.
Хотя стоимость токенов у Claude ниже, избыточная токенизация может привести к более высоким общим расходам. Это связано с особенностями кодирования информации в токенизаторе Anthropic, который часто разбивает текст на большее количество токенов, чем его соперник.
Интересно, что Claude более неэффективен с техническими текстами: токенизация для математических формул может увеличивать количество токенов на 21%, а для кода Python – на 30%. Эти различия влияют не только на стоимость, но и на использование контекстного окна, что может снижать его эффективность.
Таким образом, производительность и цена моделей AI не всегда предсказуемы, и важно учитывать токенизацию при выборе технологии. *компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
