Презентация Gemma Scope: новый инструмент для интерпретации языковых моделей

Исследователи представили новый набор инструментов под названием Gemma Scope, который облегчит понимание внутренних механизмов языковых моделей Gemma 2. Эта система включает в себя сотни открытых разреженных автоэнкодеров (SAE), которые действуют как ‘микроскопы’, позволяя изучать активности нейронной сети и выявлять, что именно она ‘узнаёт’ из текста.

Gemma Scope помогает исследователям анализировать, как появляются и взаимодействуют различные концепты или ‘особенности’ в модели. Например, ранние слои могут запоминать простые факты, такие как кто играет в баскетбол, в то время как более глубокие слои справляются с более сложными отношениями, как фактическая достоверность текста.

Разработка таких инструментов требует значительных вычислительных ресурсов, в частности, для обработки миллионов предметов данных. Ожидается, что Gemma Scope будет способствовать более надёжным системам ИИ и предотвращению ошибок, таких как галлюцинации и манипуляции. Эксперименты, проведённые с SauvT, могут улучшить безопасность автономных ИИ-агентов.

Попробуйте интерактивную демо-версию Gemma Scope на Neuronpedia.

Компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.