Недавнее исследование предложило новую рамку для оценки общих моделей искусственного интеллекта (ИИ) перед лицом новых угроз. В условиях быстрого прогресса в области ИИ важно заранее выявлять не только полезные, но и потенциально опасные способности, такие как манипуляции и кибератаки.
Исследователи из Университетов Кембриджа, Оксфорда, Торонто и других организаций, включая OpenAI и Anthropic, совместно разработали методику, которая позволит проверять наличие опасных возможностей у новых моделей ИИ. Значительная часть этого подхода сосредоточена на оценках, которые помогут избежать риска, связанного с потенциальными злоупотреблениями.
Общая идея заключается в том, что разработчики должны заранее проводить оценку на наличие опасных характеристик и соответствия. Чем эффективнее будут эти оценки, тем надежнее смогут компании управлять рисками, связанными с внедрением новых технологий.
Несмотря на уже проведенные усилия, таких как исследования Google DeepMind, необходимо добиться еще большего прогресса в создании механизмов оценки, чтобы не упустить возможные риски, особенно с учетом сложных социальных и экономических факторов.
Важно помнить, что оценка моделей не должна рассматриваться как единственное решение. Необходима комплексная стратегия по обеспечению безопасности, включая политику, стандарты и практики на уровне всей индустрии. В будущем взаимодействие между исследователями, разработчиками и органами власти будет играть ключевую роль в создании безопасного и этичного ИИ.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
