Компания Databricks представила OfficeQA, новый эталон, предназначенный для оценки способности AI-агентов справляться с комплексными задачами, связанными с документами, которые часто возникают в реальной бизнес-среде.
В отличие от существующих тестов, таких как GDPval или ARC-AGI-2, OfficeQA оценит, насколько эффективно AI-системы извлекают информацию, анализируют сложные данные и принимают обоснованные решения на их основе. Бенчмарк основан на материалах, полученных из бюллетеней Министерства финансов США за более чем восемьдесят лет, содержащих около 89,000 страниц информации.
Тест включает 246 вопросов различной сложности, например, нахождение общих расходов на национальную оборону США в 1940 году и анализ данных для прогнозирования расходов Министерства сельского хозяйства. Исследование показало, что многие современные AI-модели, в том числе GPT-5.1 и Claude Opus 4.5, имеют проблемы в понимании и интерпретации PDF-документов, что подтверждает необходимость предварительной обработки данных для повышения точности ответов.
Таким образом, OfficeQA подчеркивает важность документально обоснованного подхода и указывает на сложности, с которыми сталкиваются AI-системы, когда речь идет о сложных и критически важных экономических задачах.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
