Искусственный интеллект

ИИ разрушает грандиозную сделку в сердце Интернета. “Мы в другом мире”.

  • Владельцы контента осознают, что их работа свободно используется крупными технологами для создания новых инструментов ИИ.
  • Боты, такие как Common Crawl, очищают и сохраняют миллиарды страниц контента для обучения ИИ.
  • Без меньшего стимула к свободному обмену информацией в Интернете Интернет может превратиться в серию садов с платными сетями.

ИИ подрывает великую сделку Интернета, и соглашение о рукопожатии десятилетней давности – единственное, что стоит на пути.

Один бит кода, robots.txt был предложен в конце 1990-х как способ для веб-сайтов сообщить роботам-поисковикам, что они не хотят, чтобы их данные обрабатывались и собирались. Это было широко принято как одно из неофициальных правил, поддерживающих Интернет.

В то время основной целью этих поисковых систем было индексирование информации, чтобы улучшить результаты в поисковых системах. У Google, Bing от Microsoft и других поисковых систем есть сканеры. Они индексируют контент, чтобы его можно было позже предоставить в виде ссылок миллиардам потенциальных потребителей. Это важнейшая сделка, которая создала процветающий веб, который мы знаем сегодня: создатели свободно делятся обильной информацией и обмениваются идеями онлайн, потому что они знают, что потребители посетят сайт и либо увидят рекламу, подпишутся, либо что-то купят.

Однако сейчас генеративный ИИ и большие языковые модели радикально и быстро меняют миссию веб-сканеров. Вместо того, чтобы работать над поддержкой создателей контента, эти инструменты были обращены против них.

Боты, питающие большие технологии

Веб-сканеры теперь собирают онлайн-информацию для загрузки в гигантские наборы данных, которые бесплатно используются богатыми технологическими компаниями для разработки моделей искусственного интеллекта. CCBot загружает Common Crawl, один из крупнейших наборов данных искусственного интеллекта. GPTbot передает данные в OpenAI, компанию, создавшую ChatGPT и GPT-4, на данный момент самую мощную модель искусственного интеллекта. Google просто называет свои данные для обучения LLM “Infiniset“, не упоминая, откуда поступает подавляющее большинство данных. Хотя 12,5% приходится на C4, очищенную версию Common Crawl.

Модели используют всю эту бесплатную информацию, чтобы научиться немедленно отвечать на вопросы пользователей. Это долгий путь от индексации веб-сайта, чтобы пользователи могли перейти к оригинальной работе.

Без привлечения потенциальных потребителей у создателей контента мало стимулов позволять веб-сканерам продолжать поглощать бесплатные данные в Интернете. GPTbot уже блокируется Amazon, Airbnb, Quora и сотнями других веб-сайтов. CCBot от Common Crawl также начинает блокироваться чаще.

“Грубый инструмент”

Что не изменилось, так это то, как блокировать эти поисковые системы. Внедрение robots.txt на веб-сайте и исключение конкретных поисковых систем – единственный вариант. И это не очень хорошо.

“Это немного примитивный инструмент”, – сказал Йост де Валк, бывший исполнительный директор WordPress, технический инвестор и основатель фирмы по цифровому маркетингу Yoast. “Она не имеет юридической основы и в основном поддерживается Google, хотя они говорят, что делают это совместно с другими поисковыми системами”.

Он также открыт для манипуляций, особенно учитывая ненасытный аппетит к качественным данным искусственного интеллекта. Единственное, что должна изменить такая компания, как OpenAI, – это название своего робота-сканера, чтобы обойти все правила запрета, которые люди вводят в действие, используя robots.txt, объяснил де Валк.

Поскольку robots.txt он является добровольным, веб-сканеры также могут просто игнорировать инструкции по блокировке и в любом случае перекачивать информацию с сайта. Некоторые поисковые системы, такие как Brave, новая поисковая система, не утруждают себя раскрытием названия своего сканера, что делает невозможным блокировку.

“Все онлайн всасывается в вакуум для моделей”, – сказал Ник Винсент, профессор компьютерных наук, который изучает взаимосвязь между данными, созданными человеком, и ИИ. “Под капотом так много всего происходит. В ближайшие шесть месяцев мы оглянемся назад и захотим оценить эти модели по-другому “.

Обратная реакция ИИ-ботов

Де Валк предупреждает, что владельцы и создатели онлайн-контента, возможно, уже слишком поздно осознают риски, связанные с тем, что эти боты могут бесплатно собирать их данные и без разбора использовать их для разработки моделей искусственного интеллекта.

“Прямо сейчас бездействие означает: “Я согласен с тем, что мой контент есть во всех AI и LLM в мире”, – сказал де Валк. “Это просто неправильно. Можно было бы создать лучшую версию robots.txt, но было бы очень странно, если бы это делали поисковые системы и сами крупные разработчики ИИ “.

Несколько крупных компаний и веб-сайтов недавно отреагировали, а некоторые начали внедрять robots.txt впервые.

По состоянию на 22 августа, 70 из 1000 самых популярных веб-сайтов использовали robots.txt для блокировки GPTBot с тех пор, как OpenAI около трех недель назад раскрыл поисковик, согласно Originality.ai компания, которая проверяет контент на предмет того, сгенерирован ли он искусственным интеллектом или является плагиатом.

Компания также обнаружила, что 62 из 1000 самых популярных веб-сайтов блокируют CCBot Common Crawl, причем все большее число делает это только в этом году, поскольку растет осведомленность о сканировании данных для ИИ.

Тем не менее, она не подлежит принудительному исполнению. Любой поисковый робот может проигнорировать файл robots.txt и собрать все до последнего бита данных, найденных на веб-странице, при этом владелец страницы, скорее всего, даже не подозревает, что это произошло. Даже если бы robots.txt имел какое-либо юридическое основание, его первоначальное назначение имеет мало общего с информацией в Интернете, используемой для создания моделей ИИ.

“Robots.txt вряд ли это будет рассматриваться как юридический запрет на использование данных”, – говорит Джейсон Шульц, директор клиники технологического права и политики Нью-Йоркского университета. “В первую очередь это означало, что кто-то не хочет, чтобы его веб-сайт индексировался поисковыми системами, а не как сигнал о том, что кто-то не хочет, чтобы его контент использовался для машинного обучения и ИИ-тренинга”.

“Это минное поле”

Эта деятельность продолжается уже много лет. OpenAI представила свою первую модель GPT в 2018 году, обучив ее на BookCorpus, наборе данных из тысяч независимых или самостоятельно опубликованных книг. Общий обход начался в 2008 году, а его набор данных стал общедоступным в 2011 году через облачное хранилище, предоставленное AWS.

Хотя GPTBot теперь блокируется более широко, обычный обход представляет большую угрозу для любого бизнеса, который обеспокоен тем, что его данные используются для обучения модели ИИ другой компании. То, что Google сделал для поиска в Интернете, Common Crawl делает для ИИ.

“Это минное поле”, – сказала Кэтрин Стих, генеральный директор Creative Commons. “Мы обновили нашу стратегию всего несколько лет назад, и теперь мы находимся в другом мире”.

Creative Commons была основана в 2001 году как способ для создателей и владельцев лицензировать произведения для использования в Интернете с помощью альтернативы строгим рамкам авторского права, известным как “авторское лево”. Создатели и владельцы сохраняют свои права, в то время как лицензия Commons позволяет людям получать доступ к контенту и создавать производные произведения. Википедия работает по лицензии Creative Commons, как и Flickr, Stack Overflow и ProPublica, наряду со многими другими известными веб-сайтами.

В соответствии с новой пятилетней стратегией Creative Commons, в которой отмечается “проблематичное использование открытого контента” для обучения технологиям искусственного интеллекта, стремится сделать обмен результатами работы в Интернете более “справедливым” с помощью “многофронтового, скоординированного, широкого подхода, выходящего за рамки авторского права”.

Горилла объемом 160 миллиардов страниц

Обычный обход с помощью CCBot содержит, возможно, самое большое хранилище данных, когда-либо собранных в Интернете. С 2011 года он обшарил и сохранил информацию со 160 миллиардов веб-страниц и подсчитал их количество. Обычно он сканирует и сохраняет около 3 миллиардов веб-страниц каждый месяц.

В заявлении о миссии компании говорится, что это начинание является проектом “открытых данных”, направленным на то, чтобы позволить любому человеку “удовлетворять свое любопытство, анализировать мир и реализовывать блестящие идеи”.

Сегодня реальность стала совсем иной. Огромное количество данных, которые он хранит и продолжает собирать, используется некоторыми крупнейшими мировыми корпорациями для создания в основном проприетарных моделей. Если крупная технологическая компания еще не зарабатывает деньги на своей продукции ИИ (у OpenAI есть много платных сервисов), то есть план сделать это в будущем.

Некоторые крупные технологические компании перестали раскрывать, откуда они получают эти данные. Однако общий обход использовался и продолжает использоваться для разработки многих мощных моделей искусственного интеллекта. Он помог Google создать Bard. Он помог Meta обучить Llama. Он помог OpenAI создать ChatGPT.

Общий обход также подпитывает The Pile, в котором хранятся более тщательно отобранные наборы данных, извлеченные из работы других бот-сканеров. Он широко использовался в проектах искусственного интеллекта, включая Llama и LLM от Microsoft и Nvidia под названием MT-NLG.

Не смешно

Одна из последних загрузок The Pile в июне – это огромная коллекция комиксов, включая все произведения Арчи, Бэтмена, Людей Икс, “Звездных войн” и Супермена. Созданные DC Comics, ныне принадлежащими Warner Brothers, и Marvel, ныне принадлежащими Disney, все работы остаются под авторским правом. В The Pile также находится большой набор книг, защищенных авторским правом, как недавно сообщила The Atlantic.

“Существует разница между целями поисковых систем и тем, как они используются”, – сказал Шульц из Нью-Йоркского университета. “Очень трудно контролировать или настаивать на том, чтобы данные использовались определенным образом”.

Что касается The Pile, то, хотя она признает, что ее данные содержат материалы, защищенные авторским правом, в своем основополагающем техническом документе она заявила, что “практически не признается тот факт, что обработка и распространение данных, принадлежащих другим лицам, также может быть нарушением закона об авторском праве”.

Помимо этого, группа, входящая в EleutherAI, утверждала, что ее использование материала считается “преобразующим” в соответствии с доктриной добросовестного использования, несмотря на то, что наборы данных содержат относительно неизмененную работу. Он также признал, что ему необходимо использовать полноформатный контент, защищенный авторским правом, “чтобы добиться наилучших результатов” при обучении магистров права.

Подобные аргументы в пользу добросовестного использования поисковыми роботами и проектами ИИ уже подвергаются испытанию. Авторыхудожники-оформители и даже разработчики исходного кода подают в суд на такие компании, как OpenAI, Microsoft и Meta, потому что их оригинальная работа была использована без их согласия для обучения чему-то, от чего они не получают никакой пользы.

“Нет такой вселенной, где размещение чего-либо в Интернете предоставляло бы бесплатное, неограниченное коммерческое использование чьего-либо труда без согласия”, – Стивен Синофски, бывший исполнительный директор Microsoft, который является партнером венчурной компании Andreessen Horowitz, недавно написал на X.

Решения не предвидится

На данный момент четкого решения не предвидится.

“Сейчас мы сталкиваемся со всем этим”, – сказал Стих, генеральный директор Creative Commons. “Постоянно возникает так много вопросов: компенсация, согласие, кредит. Как все это выглядит с помощью искусственного интеллекта? У меня нет ответа “.

Де Валк сказал, что Creative Commons с ее методом содействия более широким лицензиям на авторское право, которые позволяют использовать принадлежащие произведения в Интернете, была предложена в качестве возможной модели согласия, когда дело доходит до разработки модели ИИ.

Стилер не так уверен. Когда дело доходит до ИИ, возможно, нет единого решения. Лицензирование и авторское право, даже более гибкое соглашение в стиле Commons, скорее всего, не сработают. Как вы лицензируете весь Интернет?

“Каждый юрист, с которым я разговариваю, говорит, что лицензия не решит проблему”, – сказал Стих-Лер.

Она регулярно говорит об этом заинтересованным сторонам, от авторов до руководителей компаний, занимающихся искусственным интеллектом. Стих-Лер встречалась с представителями OpenAI ранее в этом году и сказала, что компания обсуждает, как “вознаградить создателей”.

Тем не менее, неясно, “как на самом деле выглядит общее достояние в эпоху ИИ”, добавила она.

“Если мы не будем осторожны, мы в конечном итоге закроем общий доступ”

Учитывая, сколько данных веб-сканеры уже собрали и передали крупным технологическим компаниям, и как мало власти находится в руках создателей этого контента, интернет, каким мы его знаем, может кардинально измениться.

Если размещение информации онлайн означает бесплатную передачу данных модели искусственного интеллекта, которая будет конкурировать с вами за пользователей, то эта деятельность может просто прекратиться.

Признаки этого уже есть: все меньше программистов-людей посещают веб-сайт Q & A Stack Overflow, чтобы ответить на вопросы. Почему? Потому что их предыдущая работа использовалась для обучения моделей ИИ, которые теперь отвечают на многие из этих вопросов автоматически.

Штилер сказал, что будущее всех созданных онлайн работ вскоре может выглядеть так же, как нынешнее состояние потокового вещания, когда контент будет заблокирован за вотчинами подписки “Плюс”, которые становятся все более дорогостоящими.

“Если мы не будем осторожны, мы в конечном итоге закроем общий доступ”, – сказал Стилер. “Будет больше огороженных садов, больше вещей, к которым люди не смогут получить доступ. Это не является успешной моделью для будущего человечества в области знаний и творчества “.

admin
Author: admin