Недавно мир ИИ стал свидетелем захватывающей битвы между языковыми моделями на тесте Fiction.Live, где Google Gemini 2.5 Pro показал отличные результаты в понимании и воспроизведении сложных текстов. Главная задача этого теста — обработка длинных историй, находящихся вне рамок обычного поиска.
По данным теста, модель o3 от OpenAI демонстрирует схожую производительность, до 128 000 токенов (около 96 000 слов). Однако при увеличении до 192 000 токенов ее эффективность резко снижается. В свою очередь, Gemini 2.5 Pro сохраняет стабильность даже при 192 000 токенах. Но стоит отметить, что реальные контексты, использованные в тестах, значительно меньше рекламируемых Google одного миллиона токенов.
При этом, по словам Николая Савинова из Google DeepMind, языковые модели сталкиваются с проблемами распределения внимания при увеличении числа токенов, что может снижать общую производительность. Исследователи советуют избегать ненужной информации в контексте, чтобы повысить эффективность работы моделей.
Подобные исследования актуальны, поскольку OpenAI работает над новыми ИИ-агентами, способными обрабатывать большие объемы информации. Их тесты показывают, что сложности с многогранным анализом и координацией задач остаются городской проблемой для ИИ. Вдобавок пользователям рекомендуется заранее удалять ненужные страницы при работе с длинными документами.
Интересно, что платформа BotHub предоставляет возможность протестировать все популярные модели без ограничений на доступ и предлагает 100 000 бесплатных токенов для стартовых задач.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
