Знакомство с Web3 в качестве специалиста по данным и инженера по машинному обучению

После многих недель слухов о Web3, т. е. случайным образом пролистываю свою ленту в Твиттере и везде нахожу этот термин. Я ненавижу модные словечки и модные термины, но это то, что кажется, что оно здесь, чтобы остаться. Итак, я неохотно сделал глубокое погружение в него на выходных. Что привлекло мое внимание, так это идея децентрализации контроля и владения, которая в настоящее время есть только у нескольких компаний.

Я бы не стал утомлять вас длинным определением Web3, если бы я что-то узнал из своих исследований, так это то, что определение Web3 постоянно развивается. Тем не менее, важно знать, что такое Web3, чтобы знать, как вы подходите.

Технология Web 3.0 — это просто честная и прозрачная сеть, в которой люди будут взаимодействовать, не опасаясь потери безопасности или конфиденциальности.

Итак, представьте себе сеть, в которой пользователи контролируют свою собственную информацию и предоставляют токены доступа компаниям, которые хотят использовать эти данные. Это должно быть основано на искусственном интеллекте и одноранговых приложениях, таких как блокчейн. Криптографическая и распределенная технология блокчейна обеспечивает как безопасность, так и конфиденциальность данных. Но чтобы быть Web 3.0, он должен присутствовать для всех пользовательских данных.

Блокчейн заново изобретает способ хранения данных и управления ими. Он предоставляет уникальный набор данных (уровень универсального состояния), которым коллективно управляют. Этот уникальный уровень состояния впервые включает уровень расчета стоимости для Интернета. Это позволяет нам отправлять файлы защищенным от копирования способом, обеспечивая настоящие P2P-транзакции без посредников.

Что это значит для специалистов по данным и инженеров по машинному обучению?

Поскольку Web 3 полностью сосредоточен на автономии пользователя, это достигается за счет распределения пользовательских данных по технологиям хранения с поддержкой блокчейна. Веб-приложения также распространяются на этих же блокчейн-платформах, поэтому пользователи могут разрешить этим приложениям (или, как их называют, dApps) доступ к своим данным, создавая более богатый и актуальный опыт. В отличие от традиционных источников данных (например, корпоративных баз данных с централизованным управлением), пользователям больше не нужно запрашивать данные у предприятий, поскольку они уже контролируют их и хранят в блокчейне.

Поскольку данные теперь хранятся распределенным образом по всему Интернету, ИИ можно развернуть для более полного понимания потребностей пользователей путем разработки языковых моделей, обеспечивающих семантическое понимание, поскольку запросы привязаны к взаимодействиям с пользователем. По своей конструкции блокчейны обеспечивают несколько преимуществ, которые важны для приложений науки о данных:

Отслеживаемость: протокол консенсуса разработан таким образом, что сеть может коллективно запоминать предшествующие события или взаимодействия с пользователем. Таким образом, Биткойн решил проблему двойных расходов, предоставив единый источник информации о том, кто, что и когда получил. Более того, у большинства публичных блокчейнов есть обозреватели — веб-сайты, на которых каждый может просмотреть любую запись, когда-либо созданную в соответствующем блокчейне (см., например, обозреватели Bitcoin, Ethereum и Ripple).
Встроенная анонимность: Блокчейны не требуют от своих пользователей предоставления какой-либо личной информации, что важно в мире, где сохранение конфиденциальности стало реальной проблемой. С точки зрения Data Scientist, это помогает преодолеть головную боль, связанную с некоторыми нормативными актами (например, GDPR в Европе), которые требуют анонимизации персональных данных перед их обработкой.
Высокое качество данных: данные в блокчейне обычно хорошо структурированы, а их схемы хорошо документированы. Все новые записи также проходят строгий процесс проверки, специфичный для блокчейна, на основе одного из многих протоколов консенсуса. После проверки и утверждения эти записи становятся неизменяемыми — никто не может изменить их ни для каких целей, хороших или злонамеренных. Это делает жизнь Data Scientist, работающего с такими данными, намного проще и предсказуемее.
Большие объемы данных. Многие алгоритмы машинного обучения требуют больших объемов данных для обучения моделей. Это не проблема в зрелых блокчейнах, которые предлагают тонны данных.

Как мы затем собираем данные из блокчейнов для Web3?

Сбор данных — это первое препятствие, с которым большинство специалистов по данным, таких как я, вероятно, столкнутся в своих проектах, связанных с блокчейном или Web3. Несмотря на то, что отдельные записи блокчейна легко проверить с помощью вышеупомянутых веб-сайтов-проводников. Однако автоматизация сбора больших наборов данных, подходящих для целей науки о данных, может оказаться непростой задачей, для решения которой могут потребоваться специальные навыки, программное обеспечение и финансовые ресурсы. Тем не менее, вот четыре основных варианта, которые можно было бы рассмотреть.

Рынки данных Web3

С появлением Web3 появились компании, предоставляющие торговые площадки для агрегаторов данных, таких как компании и специалисты по данным, чтобы они могли собираться вместе, чтобы покупать и продавать активы данных в децентрализованной структуре. Одна компания, за которой я слежу и которая делает значительные шаги в этом направлении, — Ocean Protocol.

Ocean Protocol позволяет частным компаниям продавать свои активы данных на рынке без необходимости делиться данными за пределами своих брандмауэров. Ocean Protocol использует оркестровку «Compute-to-Data», которая позволяет моделям ИИ обучаться на частных данных.

Вы знаете, как это захватывающе? Представьте себе возможность обучения модели заболевания с использованием данных из нескольких крупных больничных сетей без доступа к самим данным, а только к метаданным.

Еще одна интересная возможность для специалистов по данным и инженеров по машинному обучению с этим новым протоколом данных – возможность покупать данные, объединять их с другими данными, улучшать их с помощью моделей машинного обучения и продавать обратно в усиленном виде.

2. Общедоступные наборы данных BigQuery и другое

В рамках своей программы BigQuery Public Datasets Google Cloud предоставляет полные истории транзакций для Bitcoin, Dash, Dogecoin, Ethereum, Ethereum Classic, Litecoin, Zcash и т. д. , Эти наборы данных можно легко запрашивать с помощью SQL, а результаты можно экспортировать для дальнейшего анализа и моделирования. Удобно, что в большинстве этих наборов данных используется одна и та же схема, что упрощает повторное использование запросов SQL.

Я нашел отличный аккаунт Евгений Медведев, где можно получить туториалы о том, как использовать и форматировать эти данные. Также существуют статические наборы данных блокчейна, которые можно использовать для целей исследований и разработок. Вот лишь несколько примеров, вы можете поискать больше:

Эллиптический набор данных, подграф биткойн-графа, состоящий из 203 769 узлов (транзакций) и 234 355 ребер (направленных потоков платежей). Узлы помечены как законные, незаконные или неизвестные. Этот набор данных был выпущен компанией Elliptic с целью вызвать интерес академического и криптосообщества к созданию более безопасной финансовой системы на основе криптовалюты (Bellei 2019; Weber et al. 2019).
Набор данных Medalla в BigQuery выложен в открытый доступ компанией Nansen.ai в рамках Medalla Data Challenge, проводимого в 2020 году Ethereum Foundation. Этот набор данных включает в себя переменные, которые описывают блоки и валидаторы блоков в Beacon Chain Ethereum.
Набор данных CryptoKitties, который содержит атрибуты тысяч цифровых котов из знаменитой игры на основе Ethereum.
Наборы данных, используемые Ридом и Харриганом (2012) и Фамом и Ли (2017a, 2017b) для обнаружения аномальных транзакций в блокчейне Биткойн.

3. Используйте специфичный для блокчейна API или инструмент ETL.

Понятно, что общедоступные наборы данных BigQuery содержат крупные блокчейн-проекты, но что, если интересующий блокчейн не входит в их число? Один из хороших способов сбора данных — использовать инструмент API или ETL. По сути, у большинства блокчейнов есть способ автоматизировать взаимодействие со своими сетями через соответствующие API REST и/или Websocket. См., например, API для запроса Биткойн, Эфириум, EOS, NEM, NEO, Nxt, Ripple, Stellar, Tezos.

Для специалистов по данным вы даже найдете существующие и удобные клиентские библиотеки, которые избавляют от тонкостей разных языков конкретных API и позволяют специалистам по данным работать с предпочитаемыми ими языками — Python или R. Примеры таких библиотек для Python включают биткойн (Bitcoin ), trinity и web3.py (Ethereum), blockcypher (Bitcoin, Litecoin, Dogecoin, Dash), tronpy (TRON), litecoin-utils (Litecoin) и т. д. Примеры пакетов R их меньше, но они есть: Rbitcoin (Биткоин), ether (Эфириум), tronr (ТРОН).

В дополнение к API можно также рассмотреть возможность использования специальных инструментов ETL для сбора данных из блокчейнов. Одним из известных проектов с открытым исходным кодом в этой области является Blockchain ETL, набор скриптов Python, разработанный Nansen.ai. По сути, это те самые скрипты, которые загружают данные в вышеупомянутые общедоступные наборы данных BigQuery.

Хотя нативные API-интерфейсы блокчейна и приложения ETL с открытым исходным кодом предоставляют специалистам по данным большую гибкость, их использование на практике может потребовать дополнительных усилий и навыков обработки данных: настройка и поддержка локального или облачного узла блокчейна, среды выполнения для выполнения скриптов. , база данных для хранения извлеченных данных и т. д. Связанные с этим инфраструктурные требования также могут повлечь за собой значительные затраты.

4. Коммерческие решения

Чтобы сэкономить время, усилия и расходы, связанные с инфраструктурой, можно также выбрать коммерческие решения для сбора данных в блокчейне. Такие инструменты обычно предоставляют данные через API или интерфейс с поддержкой SQL, используя схему, унифицированную для нескольких блокчейнов (см., например, Anyblock Analytics, Bitquery, BlockCypher, Coin Metrics, Crypto APIs). », Dune Analytics, Flipside Crypto). Это облегчает различные сравнительные анализы и, по крайней мере в теории, позволяет разрабатывать приложения Data Science, совместимые между блокчейнами.

Вывод: если вы хотите стать Web3 Data Scientist, сейчас самое подходящее время

Я все еще учусь, и я уверен, что что-то упустил или даже неправильно истолковал. Web 3.0 все еще относительно нов, и наверняка произойдет много изменений. Я буду продолжать следить и участвовать в этой новой структуре. Он может трансформировать многие отрасли и бизнес-процессы (дальше я, вероятно, напишу о вариантах использования и реальных реализациях).

Но важно отметить, что разработки в Web3 потребуют армии экспертов, способных сделать данные полезными, то есть специалистов по данным. Спектр интересных и нерешенных проблем науки о данных блокчейна огромен. Кроме того, многие из этих проблем еще даже не сформулированы. Таким образом, если вы думаете о том, чтобы войти в захватывающий мир Web3 в качестве Data Scientist, самое подходящее время. Многие из компаний, скопированных и упомянутых в этой статье, уже имеют открытые вакансии для специалистов по данным — загляните в раздел Карьера на их веб-сайтах или проверьте это!

Знакомство с Web3 в качестве специалиста по данным и инженера по машинному обучению

Что это значит для специалистов по данным и инженеров по машинному обучению?

Как мы затем собираем данные из блокчейнов для Web3?

Вывод: если вы хотите стать Web3 Data Scientist, сейчас самое подходящее время

Вопросы по теме