Карта системы технического зрения GPT-4. 19-страничный отчет об использовании и безопасности GPT-4 Vision

GPT-4 с зрением (GPT-4V) позволяет пользователям поручить GPT-4 анализировать входные изображения, предоставленные пользователем, и это новейшая возможность, которую мы делаем широко доступной. Включение дополнительных модальностей (таких как ввод изображений) в большие языковые модели (LLM) рассматривается некоторыми как ключевой рубеж в исследованиях и разработках искусственного интеллекта. Мультимодальные LLM предлагают возможность расширить влияние языковых систем с новыми интерфейсами и возможностями, позволяя им решать новые задачи и предоставлять новый опыт своим пользователям.
На этой системной карте анализируются защитные свойства GPT-4V. Наша работа над безопасностью GPT-4V основана на работе, проделанной для GPT-4, и здесь мы углубимся в оценку, подготовку и работу по снижению риска, выполненную специально для входных изображений.