Искусственный интеллект

Нейросетевой коллапс: почему вскоре может остановиться развитие алгоритмов ИИ

По оценке ряда ученых, уже скоро качество нейросетей может стремительно деградировать. Причиной этого станет обилие в сети контента, ранее сгенерированного ИИ-моделями. О том, станут ли нейросети в будущем бесполезными, рассуждают руководитель направления фундаментальных исследований MTS AI Сергей Загоруйко и технический лидер группы NLP Platform Алексей Малафеев

Вниз по спирали

В последнее время в ИИ-сообществе только и разговоров, что о судьбе нейросетей. В недавно опубликованной научной статье группа британских и канадских исследователей пришла к резонансному выводу: если обучить нейросеть на материалах, сгенерированных другой ИИ-моделью, то это приведет к техническому коллапсу, который заключается в неизбежном падении качества работы нейросети.

Ключевое опасение игроков рынка заключается в том, что генеративные модели могут как бы заглушить своим контентом «оригинальный» контент, сгенерированный людьми. В результате интернет может заполниться искусственно сгенерированными текстами или изображениями, а в будущем даже видеороликами, которые не только не несут в себе ценности, но и каким-то образом искажают реальность, содержат фактические ошибки. В них может не поверить человек, но нейросеть примет за чистую монету.

Это, в свою очередь, может привести к тому, что следующие модели искусственного интеллекта, которые будут обучаться на этих синтезированных данных, будут предоставлять еще более искаженный результат. И тот контент, который сгенерируют уже они, окажется еще более испорченным и далеким от реальности.

Пока оценить степень серьезности проблемы сложно, так как нет достоверных сведений о количестве опубликованных в сети данных, сгенерированных моделями. Однако сама по себе проблема загрязнения данных стоит очень остро: инфополе будет засоряться, мусорные данные попадут в обучающие выборки, и сервисы, работающие на таких моделях, начнут функционировать все хуже и хуже.

Увидеть результат такого засорения можно уже сегодня. Языковые модели позволяют создавать контент, который выводит из строя системы мониторинга публикаций в сети. Из-за него ломаются алгоритмы контроля общественного мнения, а это приводит к ситуациям, когда думали, что будет Клинтон, а получился Трамп.

Вечное сияние генеративного разума

На самом деле подобные проблемы свойственны и людям. Если человек с детства воспитывается на какой-то определенной литературе, например на философских экзистенциальных произведениях, это наверняка очень сильно повлияет на его взгляды и на мысли, которые он будет генерировать в течение жизни. В некотором роде модели искусственного интеллекта похожи на детей: они учатся и узнают что-то о мире из самых разных текстов, звуков или изображений, и результат сильно зависит от того, какие материалы использовались для обучения. Зачастую родители следят за тем, чтобы ребенок не читал неподходящую литературу, которую он может случайно найти в интернете. Чем-то похожим предстоит заниматься и ИИ-разработчикам.

К тому же современные алгоритмы машинного обучения все еще очень несовершенны. Чтобы обучить языковую модель генерировать текст на приемлемом уровне, ее приходится обучать на огромном количестве текстов — гораздо большем, чем потребовалось бы человеку. Несмотря на то что современные ИИ-модели гораздо более мощные, чем человеческий мозг, они все еще уступают людям в качестве написания текстов, восприятии мира и логических суждениях.

Поэтому разработчикам предстоит пройти большой путь: необходимо сделать обучение ИИ-моделей более эффективным, то есть сократить количество материалов, которое необходимо нейросетям для качественной работы. И тогда, может быть, и не понадобится обучать их на всем интернете.

У проблемы загрязнения данных есть интересный нюанс: она в большей степени свойственна для нейросетей, обучающихся на материалах на английском языке,  ведь на нем написано гораздо большее количество текстов. Поэтому для языков, которые не столь популярны, эта проблема будет менее выражена, и в какой-то момент локальные ИИ-модели могут стать даже качественнее, чем англоязычные.

Потребность в синтезированных данных

Несмотря на все недостатки, синтетические материалы могут быть полезны в ситуациях, когда данных очень мало или их нет вовсе. Очень многое здесь зависит от количества сгенерированных данных, которые использовались для обучения, и их качества, соответствия решаемой задаче и нормам этики, безопасности и т. п.

Рано или поздно экономическая дубинка ударит по компаниям, которые делают сервисы на ИИ-моделях, обученных с помощью сгенерированных нейросетями данных. Корпоративные клиенты и обычные пользователи начнут предъявлять претензии к разработчикам из-за некачественной работы таких сервисов, а затем и вовсе начнут отказываться от них. Поэтому разработчики таких нейросетей сами начнут искать способы поддерживать качество своих моделей на должном уровне.

Таким образом, механизмы рынка создают некий баланс. И еще одним перспективным направлением для исследований станет разработка подходов, которые позволят пользоваться синтетическими данными без какого-либо ущерба.

Что с этим делать

Уже сейчас стоит задуматься о том, как избежать возможных последствий нейроколлапса. Прежде всего для этого нужно стараться не смешивать человеческий и сгенерированный контент: стоит тщательно подходить к выбору данных, которые участвуют в обучении модели.

Помимо этого, помочь в решении проблемы может сам искусственный интеллект, а точнее — ИИ-детекторы сгенерированного контента. На них можно будет проверять датасеты до обучения нейросетей, будто просеивать данные через сито, и, таким образом, отсекать все то, что было сгенерировано ИИ. Правда, этот метод тоже полагается на обучаемые модели, которые будут ошибаться. Значит, решить проблему полностью они не могут.

Также ИИ-компаниям стоит развивать методы очистки датасетов от шума, которые используются для выявления среди данных спамерских текстов, рекламы, повторяющихся текстов и т. д. Интуитивно кажется, что если искусственно сгенерированный контент более низкого качества, чем контент, сгенерированный человеком, то можно научиться автоматически это определять и таким образом очищать обучающие данные от неполезного содержимого.

Есть и наиболее очевидный и радикальный вариант решения проблемы — остановить развитие языковых моделей на текущим уровне и следовать принципу «работает — не трогай». В таком случае нейросети застрянут в 2023 году и не будут знать ничего, что произошло позже, из-за этого с течением времени они попросту потеряют применение. Далее наступит разочарование инвесторов и новая зима ИИ. Это потенциально возможный сценарий, но вряд ли он сейчас рассматривается всерьез.

Источник

admin
Author: admin