Anthropic раскрывает тайны больших языковых моделей с помощью нового метода

Компания Anthropic совершила прорыв в понимании работы больших языковых моделей (LLMs), представив метод, позволяющий исследователям заглянуть внутрь технологий и наблюдать за процессами принятия решений. Используя технику, названную «трассировкой цепи», команда следила за тем, как LLM Claude 3.5 выполняет задачи, включая решение простых математических задач и создание текстов.

Согласно исследованию, модели используют неожиданные обходные пути для завершения предложений и решения задач. Это открытие может помочь выявить их слабые стороны и определить, почему они иногда выдают заведомо ложную информацию.

Одним из наиболее интересных результатов стало обнаружение, что Claude может выбирать ответ на вопрос, не привязываясь к конкретному языку, что свидетельствует о его способности обрабатывать информацию из различных языков. Также исследование показало, что модель планирует свои поэтические ответы заранее, что противоречит распространенному мнению о том, что она работает только поэтапно.

Эти результаты открывают новые горизонты для дальнейшего изучения LLM и подчеркивают важность понимания их внутренней структуры. Исследования Anthropic — это шаг к более глубокому пониманию того, как работают эти сложные модели, и могут сделать их более надежными в будущем.