Один из наиболее частых вопросов, которые мне задают, это «Какая база данных лучше всего подходит для машинного обучения?» На самом деле я почти всегда отвечаю: «Это зависит от того, что происходит», прежде чем засыпать спрашивающего серией дополнительных вопросов. . Но поскольку «это зависит» никогда не бывает забавным в форме блога, я составил этот список.

Машинное обучение проникло во все аспекты нашей жизни, осознаете вы это или нет. От видеорекомендаций, которые вы видите на YouTube, систем, обеспечивающих вашу безопасность во время банковских операций или покупок в Интернете, до обработки изображений на вашем смартфоне. И тем не менее, относительно небольшому количеству компаний, не считая крупных гигантов, таких как Google, Chase и Apple, еще только предстоит внедрить машинное обучение в какой-либо значительной степени.

Это вот-вот изменится. Благодаря множеству новых способов машинного обучения и значительному снижению стоимости внедрения и обслуживания за последние несколько лет малые предприятия скоро будут внедрять машинное обучение на основе данных, которые они уже собирали (во многих случаях в течение многих лет).

Ключевым компонентом машинного обучения номер один являются, конечно же, данные, и подавляющее большинство используемых данных хранится в базах данных. Хотя первая база данных была изобретена в 1960-х годах, базы данных прошли долгий путь с момента своего зачаточного прошлого, однако они никогда не задумывались и не создавались с учетом машинного обучения.

Таким образом, не все базы данных были созданы равными.

Хотите ли вы сразу заняться машинным обучением или просто хотите проверить себя в будущем: приведенные ниже базы данных отлично подходят для целей машинного обучения.

QuestDB:

Временные ряды поглощают мир (данных). Вы можете слышать статистические данные о том, что в этом году будет создано больше данных, чем за все предыдущие годы, но вы можете не знать, что все большая доля этих данных представляет собой временные ряды. На самом деле, бизнес-вариант машинного обучения номер один — это, как вы уже догадались, временные ряды. Это одна из причин, по которой Николя и Влад в QuestDB создали новую базу данных.

Единый магазин:

Давайте будем честными, для машинного обучения требуется много данных, и в зависимости от проблемы это могут быть сумасшедшие объемы данных. Например, знаменитая языковая модель OpenAI GPT-3 имеет около 175 млрд параметров, обученных на 45 ТБ текстовых данных. Для такого рода данных вам нужна очень быстрая и масштабируемая база данных. Введите Singlestore, который, по словам их маркетинговой команды, является базой данных для эпохи интенсивного использования данных. Некоторые из компаний, интенсивно использующих данные, используют Singlestore; включая Uber, Cisco и Hulu.

Clickhouse:

Clickhouse от знаменитой российской поисковой системы Яндекс покоряет мир. Ответвление совсем недавно привлекло 250 миллионов долларов от прославленных венчурных капиталистов Index и lightspeed. Он также породил удивительные компании, такие как Altinity.

Хотите верьте, хотите нет, но Spotify является одним из ведущих работодателей инженеров по машинному обучению в Европе. Даже задавались вопросом, почему их рекомендации песен так хороши? Это благодаря трудолюбивым людям из команды машинного обучения Spotify. И вы уже догадались: Spotify использует Clickhouse!

MindsDB:

Хотя технически это не база данных (хотя она выглядит и действует как таковая), MindsDB позволяет добавлять возможности машинного обучения к любой базе данных. MindsDB работает со всеми базами данных в этом списке, в дополнение ко всем известным, таким как MySQL, Postgres и т. д. Он также работает с такими базами данных, как Snowflake и Redis, и у него открытый исходный код! Их поддерживают YCombinator и основатели MySQL и MariaDB.

Датастакс и Кассандра

Datastax на основе Apache Cassandra идет лицом к лицу с Kafka в потоковой передаче и делает это довольно хорошо. Выполнение машинного обучения в потоках — достаточно новая вещь, но потенциал изменить то, как предприятия используют данные, феноменален. Ребята из Datastax пристально следят за машинным обучением, и многие из их крупнейших клиентов внедряют машинное обучение с нуля.

МарияДБ

От команды, которая принесла вам MySQL, выходит MariaDB. На недавнем фестивале серверов MariaDB все большее число докладчиков уделяли большое внимание машинному обучению, и это является большим приоритетом как для фонда MariaDB, так и для тех, кто создает SkySQL; их облачное предложение.

Малоизвестный факт — и MySQL, и MariaDB названы в честь детей основателя (Мой и Мария), есть также MaxDB, названный в честь, как вы уже догадались, его ребенка Макса. Люблю свою работу, Монти.

MongoDB:

MongoDB является фаворитом среди разработчиков и стартапов, и он вырос из нишевого игрока в гиганта, которым он является сегодня. Хотя сейчас они в значительной степени сосредоточены на своем облачном предложении MongoDB Atlas, они не забыли о своих корнях с открытым исходным кодом, создав одну из лучших баз данных NoSQL. Вероятно, вы не связываете NoSQL с машинным обучением, но команда MongoDB знает о важности этого, тесно сотрудничая со своими клиентами во многих случаях использования машинного обучения.

Этот список ни в коем случае не является исчерпывающим, и я уверен, что в комментариях будет много споров. Не стесняйтесь подписываться на меня в twitter.