Gemma Scope: Новые инструменты для интерпретации языковых моделей

Исследовательская команда по интерпретации языковых моделей анонсировала Gemma Scope — набор инструментов для глубокого понимания работы языковых моделей Gemma 2. С помощью разреженных автоэнкодеров ученые могут заглянуть внутрь модели, выявляя, как она обрабатывает и генерирует текст.

Основная идея заключается в том, что активации, возникающие в модели при обработке вопросов, представляют собой сложный набор концепций или фич. Например, ранние слои могут запоминать факты, в то время как более глубокие слои обучаются распознавать сложные концепты. Однако разобраться, какие именно фичи задействуются в каждом конкретном активационном процессе, крайне сложно.

Для решения этой задачи и были разработаны разреженные автоэнкодеры, которые помогают выделять ключевые фичи из активаций, не указывая заранее, что искать. Эта методика позволяет исследователям выявлять неожиданные структуры и шаблоны в данных.

Gemma Scope представила более 400 автоэнкодеров с более чем 30 миллионами изученных фич, что облегчает использование этих инструментов для анализа более сложных моделей и разработки практических решений для устранения проблем, таких как галлюцинации и манипуляции.

Мы надеемся, что этот набор инструментов станет важным шагом в развитии активных исследований в области механистической интерпретации. Пробуйте нашу интерактивную демонстрацию Gemma Scope, любезно предоставленную Neuronpedia.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена