Европейский стартап Pruna AI разрабатывает новый фреймворк оптимизации для моделей искусственного интеллекта, который применяет различные методы, такие как кэширование, прунинг, квантизация и дистилляция, для повышения их эффективности. Как рассказал TechCrunch соучредитель Pruna AI, Джон Рачван, цель фреймворка — стандартизировать процесс сохранения и загрузки сжатых моделей и оценивать их качество после оптимизации.
Рачван отмечает: «Если использовать метафору, мы похожи на Hugging Face, который стандартизировал трансформаторы. Мы делаем то же самое для методов повышения эффективности моделей».
Крупные лаборатории уже используют методы сжатия для создания более быстрых версий своих моделей, таких как GPT-4 Turbo. Pruna AI предлагает уникальную ценность, соединяя различные методы сжатия в одном фреймворке, что делает их легче в использовании. Поддерживая широкий спектр моделей, от языковых до генерации изображений, компания фокусируется на высоком качестве и производительности.
Новая возможность, называемая компрессорным агентом, будет выпускаться скоро и позволит пользователю задавать требования к скорости и точности, автоматизируя процесс оптимизации. Благодаря подходу Pruna AI пользователи смогут достигать значительных экономий, уменьшая размер модели без потери качества.
