Команда интерпретируемости языковых моделей анонсировала Gemma Scope — новый набор инструментов для изучения внутренней работы языковых моделей Gemma 2, включающий сотни открытых разреженных автоэнкодеров (SAEs). Эти инструменты позволяют исследователям глубже понять, как работают языковые модели, что критически важно в области механистической интерпретации.
Разреженные автоэнкодеры действуют как «микроскопы», позволяя анализировать активации модели, которые представляют собой серию взаимосвязанных концепций. Это становится особенно важным в условиях, когда активации смешивают множество признаков и в выявлении которых помогает именно разреженный подход.
Gemma Scope предлагает более 400 автоэнкодеров с более чем 30 миллионами изученных признаков, что открывает путь к более масштабным исследованиям. Устраняя неопределенности в активациях, исследователи смогут лучше изучать сложные алгоритмы и находить пути решения проблем, таких как галлюцинации и манипуляции со стороны автономных ИИ.
Эта инициатива была поддержана множеством специалистов, которые работали над новым архитектурным решением JumpReLU, что значительно повысило точность и снизило ошибки. Теперь команда надеется, что Gemma Scope станет ключевым инструментом для будущих исследований в области открытой механистической интерпретации.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
