Команда по интерпретируемости языковых моделей анонсировала Gemma Scope, набор открытых разреженных автоэнкодеров (SAE) для модели Gemma 2. Эти инструменты помогут исследователям взглянуть внутрь языковых моделей и понять, как они работают. В процессе обучения языковой модели используются активации, которые отображают связи между словами, что позволяет формировать ответы на вопросы. Однако эти активации содержат множество фрагментов информации, сложность которых затрудняет анализ.
Разреженные автоэнкодеры предоставляют предельно упрощённое представление активаций, выделяя лишь несколько доминантных характеристик. Это открывает новые горизонты для исследований, позволяя более точно выявлять причины галлюцинаций и других проблем, связанных с ИИ. В Gemma Scope были созданы более 400 автоэнкодеров, что сделало его мощным инструментом для анализа сложных моделей.
Теперь исследователи могут в значительной мере углубить понимание работы современных языковых моделей. Над созданием Gemma Scope работали команды, включая Tom Lieberum и других. Попробуйте интерактивную демонстрацию, доступную благодаря Neuronpedia.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
