Запуск Gemma Scope: новые инструменты для интерпретации языковых моделей

Команда интерпретируемости языковых моделей анонсировала Gemma Scope — новый набор инструментов для изучения внутренней работы языковых моделей Gemma 2, включающий сотни открытых разреженных автоэнкодеров (SAEs). Эти инструменты позволяют исследователям глубже понять, как работают языковые модели, что критически важно в области механистической интерпретации.

Разреженные автоэнкодеры действуют как «микроскопы», позволяя анализировать активации модели, которые представляют собой серию взаимосвязанных концепций. Это становится особенно важным в условиях, когда активации смешивают множество признаков и в выявлении которых помогает именно разреженный подход.

Gemma Scope предлагает более 400 автоэнкодеров с более чем 30 миллионами изученных признаков, что открывает путь к более масштабным исследованиям. Устраняя неопределенности в активациях, исследователи смогут лучше изучать сложные алгоритмы и находить пути решения проблем, таких как галлюцинации и манипуляции со стороны автономных ИИ.

Эта инициатива была поддержана множеством специалистов, которые работали над новым архитектурным решением JumpReLU, что значительно повысило точность и снизило ошибки. Теперь команда надеется, что Gemma Scope станет ключевым инструментом для будущих исследований в области открытой механистической интерпретации.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена