Отчеты

Ландшафт 2023 года машинное обучение, искусственный интеллект и данные

ЛАНДШАФТ 2023 ГОД, ЧАСТЬ I:

После долгих исследований и усилий мы с гордостью представляем версию БЕЗУМНОГО ландшафта 2023 года. Когда я говорю “мы”, я имею в виду небольшую группу, чьи ночи будут месяцами преследовать воспоминания о том, как они переносили крошечные логотипы в переполненные коробочки в формате PDF: Кэти МиллсКевин Чжан и Паоло Кампос. Огромное спасибо им. И да, я имел в виду это, когда сказал им в самом начале: “О, это легкий проект, может быть, на день или два, это будет весело, пожалуйста, подпишитесь здесь”.

Итак, вот он (реплика в барабанной дроби, smoke machine). БЕЗУМНЫЙ ландшафт в этом году представлен в двух вариантах потребления:

PDF (статическая) версия:

<<<<<<<< НАЖМИТЕ ЗДЕСЬ, чтобы получить ВЕРСИЮ В формате PDF >>>>>>>>

(да, все это в очень высоком разрешении, и вы можете легко увеличивать изображение как на настольном компьютере, так и на мобильном устройстве)

 

<Новинка!> Интерактивная версия:

Кроме того, в этом году мы впервые с головой погружаемся в то, что молодежь называет “Всемирной паутиной”, с полностью интерактивной версией безумного ландшафта, которая должна сделать увлекательным изучение различных категорий.

<<<<<<<< НАЖМИТЕ ЗДЕСЬ для ИНТЕРАКТИВНОЙ ВЕРСИИ >>>>>>>>>

Заметки об интерактивной версии:

  • Каждый логотип доступен для просмотра – при нажатии на него в правом нижнем углу появляется всплывающее окно
  • Есть вид “ландшафта” и “карты” (см. верхний правый угол).… а также ночной режим!
  • Это первая версия, и мы как можно скорее добавим дополнительные функции (поиск, фильтрация и т.д.)
  • Для создания этой интерактивной версии мы сотрудничали с Gotta Go Fast для сборки приложения и с CB Insights для обработки данных, отображаемых на карточках. Большое спасибо обоим за партнерство.

По всем вопросам и комментариям, пожалуйста, пишите по электронной почте MAD2023@firstmarkcap.com

Общий подход

Во-первых, в этом году мы снова приняли решение сохранить инфраструктуру данных и ML / AI в одном ландшафте. Можно утверждать, что эти два мира становятся все более разными. Тем не менее, мы продолжаем верить, что между этими областями существует существенная симбиотическая взаимосвязь. Данные питают модели ML / AI. Различие между инженером по обработке данных и инженером по машинному обучению часто довольно размыто. Предприятиям необходимо создать надежную инфраструктуру данных, чтобы должным образом использовать ML / AI.

Ландшафт построен более или менее по той же структуре, что и любой годовой ландшафт, начиная с нашей первой версии в 2012 году. Общая логика заключается в том, чтобы следить за потоком данных слева направо – от хранения и обработки до анализа, подачи моделей ML / AI и создания приложений, ориентированных на пользователя, управляемых AI или данными.

В этом году мы снова сохранили отдельный раздел “С открытым исходным кодом”. Это всегда была немного неудобная организация, поскольку мы эффективно отделяем коммерческие компании от проектов с открытым исходным кодом, главным спонсором которых они часто являются. Но в равной степени мы хотим отразить реальность того, что для одного проекта с открытым исходным кодом (например, Kafka) у вас есть много коммерческих компаний и / или дистрибутивов (для Kafka – Confluent, Amazon, Aiven и т.д.). Кроме того, некоторые проекты с открытым исходным кодом, появляющиеся в коробке, еще не являются полностью коммерческими компаниями.

Подавляющее большинство организаций, появляющихся в ландшафте MAD, являются уникальными компаниями с очень большим количеством стартапов, поддерживаемых венчурным капиталом. Ряд других – это продукты (например, продукты, предлагаемые поставщиками облачных технологий) или проекты с открытым исходным кодом.

Выбор компании

В этом году на ландшафте появится в общей сложности 1416 логотипов. Для сравнения, в нашей первой версии в 2012 году их было 139.

Каждый год мы говорим, что не можем разместить больше компаний в этом ландшафте, и каждый год, так или иначе, нам это нужно. Речь идет о территории, охватывающей одну из самых взрывоопасных областей технологий.

Однако, в частности, в этом году нам пришлось применить более редакционный, самоуверенный подход к решению, какие компании попадают в этот ландшафт. Несмотря на растущее число компаний в этой категории, мы давно прошли тот этап, когда могли подойти практически всем, поэтому нам пришлось делать выбор.

В предыдущие годы мы, как правило, непропорционально выделяли компании на стадии роста, исходя из стадии финансирования (обычно серии B-C или более поздние) и ARR (при наличии), в дополнение ко всем крупным действующим компаниям. Однако в этом году, особенно учитывая бурное развитие совершенно новых областей, таких как генеративный ИИ, где большинству компаний 1 или 2 года, мы приняли редакционное решение включить в ландшафт еще много очень молодых стартапов .

Пара оговорок:

  • Мы венчурные капиталисты, поэтому у нас есть предубеждение к стартапам, хотя, надеюсь, мы проделали хорошую работу, охватывая более крупные компании, предложения поставщиков облачных технологий, open source и случайные компании с начальной загрузкой
  • Мы базируемся в США, поэтому, вероятно, переоцениваем американские стартапы. У нас действительно сильное представительство европейских и израильских стартапов в ландшафте MAD. Однако, хотя у нас есть несколько китайских компаний, мы, вероятно, недооцениваем азиатский рынок, а также Латинскую Америку и Африку (которые только что добились впечатляющего успеха в сфере данных / искусственного интеллекта, приобретя BioNTech Instadeep из Туниса за 650 миллионов долларов)

Классификация

Одной из самых сложных частей процесса является категоризация – в частности, что делать, когда предложение продукта компании охватывает две или более областей. С каждым годом это становится все более актуальной проблемой, поскольку многие стартапы постепенно расширяют свои предложения – тенденция, которую мы обсуждаем в “Части III – Инфраструктура данных”.

В равной степени было бы просто неприемлемо распределять каждый стартап по нескольким блокам в этом и без того переполненном ландшафте.

Таким образом, наш общий подход заключался в классификации компаний на основе их основного предложения или того, чем они в основном известны. В результате стартапы обычно фигурируют только в одном поле, даже если они делают больше, чем что-то одно.

Мы делаем исключения для облачных гиперскейлеров (многие продукты AWS, Azure и GCP в различных блоках), а также для некоторых публичных компаний (например, Datadog) или очень крупных частных компаний (например, Databricks).

Что нового в этом году

Основные изменения в “инфраструктуре”:

  • Мы (наконец-то) уничтожили блок Hadoop, чтобы отразить постепенное исчезновение технологии OG Big Data – конец эпохи! Мы решили в последний раз сохранить его в ландшафте MAD 2021, чтобы отразить существующее влияние. Hadoop на самом деле не мертв, и части экосистемы Hadoop все еще активно используются (например, Hive) – смотрите, Разговор в Hadoop теперь о том, что будет дальше . Но он настолько сократился, что мы решили объединить различных поставщиков и продукты, поддерживающие Hadoop, в озера данных (и сохранили Hadoop и другие связанные проекты в нашей категории с открытым исходным кодом).
  • Говоря об озерах данных, мы переименовали это поле в “Озера данных / Lakehouses”, чтобы отразить тенденцию озерных домов (которую мы обсуждали в БЕЗУМНОМ ландшафте 2021 года)
  • В постоянно развивающемся мире баз данных мы создали три новые подкатегории:
    • “Базы данных с графическим ускорением” (используются для потоковой передачи данных и машинного обучения в реальном времени)
    • “Векторные базы данных” (используются для неструктурированных данных для работы приложений искусственного интеллекта, см. Что такое векторная база данных?)
    • “Абстракция базы данных”, несколько аморфный термин, предназначенный для обозначения появления новой группы бессерверных баз данных, которые абстрагируют значительную часть сложности, связанной с управлением и настройкой базы данных. Для получения дополнительной информации вот хороший обзор: Состояние баз данных в 2023 году для бессерверных и Edge (упоминается ряд поставщиков, больше, чем мы могли бы вместить в коробку)
  • Мы рассматривали возможность добавления категории Встроенная база данных” с DuckDB для OLAP, KuzuDB для Graph, SQLite для RDBMS и Chroma для поиска, но пришлось сделать трудный выбор, учитывая ограниченность недвижимости – возможно, в следующем году.
  • Мы добавили поле “Упорядочивание данных”, чтобы отразить рост числа коммерческих поставщиков в этой области (у нас уже было поле “Упорядочение данных” в “Open Source” в MAD 2021).
  • Мы объединили две подкатегории “Наблюдаемость данных“ и ”Качество данных” в одну рамку, чтобы отразить тот факт, что компании в этой области, хотя иногда и выступают с разных точек зрения, все чаще пересекаются – сигнал о том, что категория, возможно, созрела для консолидации.
  • Мы создали новую подкатегорию “Полностью управляемой” инфраструктуры данных. Это отражает появление стартапов, которые абстрагируются от сложности объединения цепочки продуктов с данными (см. Наши размышления о современном стеке данных в части III), экономя время своих клиентов не только на техническом фронте, но и на переговорах по контракту, платежах и т.д.

Основные изменения в “Аналитике”:

  • На данный момент мы уничтожили подкатегорию “Хранилище показателей”, созданную нами в БЕЗУМНОМ ландшафте 2021 года. Идея заключалась в том, что в современном стеке данныхчего-то не хватало. Потребность в функциональности, безусловно, сохраняется, но неясно, достаточно ли ее для отдельной подкатегории. Первые участники рынка быстро развивались: Supergrain развернулась, Trace * построила целый слой аналитики поверх своего хранилища показателей, а Transform недавно была приобретена dbt Labs.
  • Мы создали блок “Платформа клиентских данных” , поскольку эта подкатегория, которая долгое время разрабатывалась, набирала обороты.
  • Рискуя быть “очень похожим на 2022”, мы создали блок “Крипто / веб3 аналитика” — мы продолжаем верить, что в космосе есть возможности для создания важных компаний.

Основные изменения в “машинном обучении / искусственном интеллекте”:

  • В нашем БЕЗУМНОМ ландшафте 2021 года мы разбили “MLOps” на несколько подкатегорий – “Построение моделей”, “Хранилища функций” и “Развертывание и производство”. В MAD этого года мы объединили все обратно в одну большую коробку MLOps. Это отражает реальность того’ что предложения многих поставщиков в этой области в настоящее время значительно перекрываются – еще одна категория, которая созрела для консолидации.
  • Мы почти создали новую категорию “LLMOps” рядом с MLOps, чтобы отразить появление новой группы стартапов, ориентированных на конкретные потребности инфраструктуры для больших языковых моделей. Но количество компаний там (по крайней мере, насколько нам известно) все еще слишком мало, и эти компании буквально только начали свою деятельность.
  • Мы переименовали “Горизонтальный ИИ” в “Горизонтальный ИИ / AGI”, чтобы отразить появление совершенно новой группы исследовательских организаций, многие из которых открыто заявляют об общем искусственном интеллекте как о своей конечной цели.
  • Мы создали блок “Модели с закрытым исходным кодом”, чтобы отразить безошибочный всплеск новых моделей за последний год, особенно в области генеративного ИИ. Мы также добавили новое поле в разделе “Открытый исходный код” для описания моделей с открытым исходным кодом.
  • Мы добавили категорию “Edge AI” – тема не новая, но, похоже, в пространстве наблюдается ускорение

Основные изменения в “Приложениях”:

  • Мы создали новую категорию “Приложения / по горизонтали” с такими подкатегориями, как код, текст, изображение, видео и т.д. В новой вставке отражен взрыв новых стартапов в области искусственного интеллекта за последние несколько месяцев. Конечно, многие из этих компаний находятся на тонком уровне GPT и могут появиться, а могут и не появиться в ближайшие несколько лет, но мы считаем, что это принципиально новая важная категория, и хотели отразить ее в ландшафте MAD 2023. Обратите внимание, что в разделе “Приложения / предприятия” также упоминается несколько стартапов с генеративным ИИ.
  • Чтобы освободить место для этой новой категории:
    • Мы удалили поле “Безопасность” в разделе “Приложения / предприятие”. Мы приняли это редакционное решение, потому что на данный момент почти каждый из тысяч стартапов в области безопасности использует ML / AI, и мы могли бы посвятить им целый ландшафт.
    • Мы сократили графу “Приложения / отрасль”. В частности, поскольку многие крупные компании в таких сферах, как финансы, здравоохранение или промышленность, встроили в свои продукты некоторый уровень ML / AI, мы приняли редакционное решение сосредоточиться в основном на компаниях, ориентированных на искусственный интеллект в этих областях.

Другие заслуживающие внимания изменения:

  • Мы добавили новую подкатегорию ESG data в раздел “Источники данных и API” внизу, чтобы отразить ее растущую (хотя иногда и противоречивую) важность.

Мы значительно расширили нашу категорию “Услуги по обработке данных” и переименовали ее в “Консалтинг по обработке данных и ИИ”, чтобы отразить растущую важность консалтинговых услуг для оказания помощи клиентам, сталкивающимся со сложной экосистемой, а также тот факт, что некоторые консалтинговые центры pure-play начинают быстро расширяться.

admin
Author: admin

Hi, I’m admin