SDK (v3.7) Stererolabs помогает роботам и другим умным приложениям эффективно лучше понимать окружающий мир и быть когнитивно разумными существами, понимая основные сложности и механизмы мозга.

НАУЧНАЯ фантастика изобилует примерами интеллектуальных компьютеров, от HAL 9000 в Космической одиссее 2001 до Эдди в Автостопом по Галактике. Вдохновившись этими роботами, Stereolabs запускает новую функцию в своем SDK 3.7 под названием Глубина нейронов, созданную по образцу сетей нейронов в нашем мозгу. Умная нейронная сеть состоит из нескольких слоев искусственных нейронов или узлов, и каждый слой способен получать входные данные от предыдущего слоя и отправлять выходные данные следующему.

Для непосвященных наборы данных передаются в нейронную сеть для изучения ее среды и экосистемы, а также для укрепления ее синапсов (связей между узлами), то есть в сеть могут передаваться изображения чисел в оттенках серого от нуля до 9 вместе со строкой двоичных значений. цифры — нули и единицы — которые указывают, какое число отображается в каждом изображении в оттенках серого.

Что такое Neural Depth и как Stereolabs использует его в своих стереоскопических камерах?

Нейронные сети состоят из взаимосвязанных слоев алгоритмов, которые передают данные друг другу. Их можно научить выполнять определенные задачи, изменяя важность, приписываемую данным при их передаче между этими слоями.

Когда нейронные сети обучены, к набору данных прикрепляются различные веса и смещения, и он распространяется между слоями. Этот процесс продолжается, и веса и смещения меняются на каждой итерации до тех пор, пока выход нейронной сети не станет очень близким к желаемому.

Когда результат очень близок к тому, что требуется от нейронной сети, сеть «узнала» о том, как выполнять конкретную задачу. Желаемый результат может быть любым: от правильной идентификации объекта, такого как транспортное средство/человек, до отображения его собственной трехмерной среды для автономной навигации.

Как Neural Depth может улучшить качество вашей карты глубины? Какие преимущества она дает?

ZED SDK с помощью ИИ и нейронных сетей определяет, какие объекты присутствуют как на левом, так и на правом изображениях с помощью своих стереоскопических датчиков ZED. Затем SDK вычисляет трехмерное положение каждого объекта, а также его ограничительную рамку, используя данные из модуля глубины. Объекты также можно отслеживать в окружающей среде с течением времени, даже если положение и окружающая среда меняются для камеры.

Этого можно добиться путем анализа видеопотока, а также с помощью ZED SDK.

Сначала нейронная сеть учится разбивать видеоклип на покадровое представление объектов. Это передается другой нейронной сети, которая учится анализировать движения этих объектов и то, как они взаимодействуют друг с другом, и может предсказывать движение объектов и столкновения, если таковые имеются. Вместе эти два модуля создают базу знаний. Два других модуля обрабатывают вопрос и применяют его к созданной базе знаний.

CNN работает, извлекая признаки из изображений. Любая CNN состоит из следующего:

  • Входной слой, представляющий собой изображение в градациях серого.
  • Выходной слой, который представляет собой двоичные или многоклассовые метки.
  • Скрытые слои, состоящие из слоев свертки, слоев ReLU (выпрямленных линейных единиц), слоев объединения и полностью подключенной нейронной сети.

Элементы изображения, такие как края и точки интереса, предоставляют обширную информацию о содержании изображения.

Они соответствуют локальным областям изображения и являются основополагающими во многих приложениях анализа изображений: распознавании, сопоставлении, реконструкции и т. д.

Улучшена производительность карты глубины с новой версией SDK 3.7:

Нейронная оценка глубины, используемая в SDK 3.7, — это процесс поиска пикселей в нескольких представлениях, соответствующих одной и той же трехмерной точке в сцене или изображении, видимом датчиком ZED.

Оценка глубины с использованием стереозрения по двум изображениям (снятым с двух камер, разделенных базовым расстоянием) включает три этапа: во-первых, установить соответствия между двумя изображениями.

  1. В нашей модели используется сеть глубокого обучения для извлечения признаков из левого и правого изображений.
  2. Затем вычислите относительные смещения (называемые «несоответствием») между функциями на каждом изображении.

Расхождение – это расстояние d между пикселем и его горизонтальным совпадением на другом изображении

Первая оценка несоответствия вычисляется в стоимостном объеме с очень низким разрешением, затем иерархически модель повторно вводит высокочастотные детали с помощью обученной функции повышения дискретизации, которая использует компактные сети уточнения пикселей.

3. Наконец, определите трехмерную глубину объекта относительно камер, используя знания о геометрии камеры и положении камеры в пространстве.

Наша стереосистема находит хорошее соответствие признаков между двумя изображениями, отбрасывая пиксели с небольшой текстурой или в тех случаях, когда соответствие неоднозначно.

Новый SDK 3.7 позволяет пользователям достигать производительности в режиме реального времени, используя стоимостной объем с очень низким разрешением, который кодирует всю информацию, необходимую для достижения высокой точности несоответствия, и, следовательно, точность сопоставления глубины выше, чем у других традиционных алгоритмов сопоставления глубины. .

Примеры улучшенного восприятия глубины с помощью SDK 3.7:

Как вы можете видеть на изображении, карта глубины, созданная SDK 3.7, более плавная и дает более точную и точную информацию о глубине блоков.

Пример выбора корзины

Возьмем, к примеру, робота, которому поручено поднимать различные предметы разных форм и размеров из промышленного ящика для инструментов. Различные изображения инструментов — или, точнее, значения каждого пикселя изображения — подаются на первый слой узлов, а последний слой узлов выдает на выходе метку в виде имени объекта «Молоток», «Отвертка», «Киянка» и т. д.

Сеть должна быть обучена с использованием предварительно помеченных изображений инструментов, которые должны быть распознаны и отслежены. Во время обучения сеть регулирует силу связей между своими узлами, чтобы делать все меньше и меньше ошибок при классификации изображений. После обучения глубокую сеть можно использовать для классификации нового изображения.

Оценка позы для интерактивного опыта

Оценка и отслеживание позы человека — это задача компьютерного зрения, которая включает обнаружение, сопоставление и отслеживание семантических ключевых точек. Примерами семантических ключевых точек являются «правые плечи», «левые колени» или «левые стоп-сигналы транспортных средств».

ZED SDK позволяет точно отслеживать 34 ключевые точки в организме человека.

Как осуществляется оценка позы и отслеживание тела в SDK 3.7?

  1. 2D/3D ОБНАРУЖЕНИЕ ТЕЛА
  • ZED SDK сначала использует изображение с камеры ZED для вывода всех 2D-костей и ключевых точек с использованием недавно улучшенных нейронных сетей, разработанных командой Stereolabs.
  • Затем модуль глубины SDK и модуль отслеживания положения используются вместе для извлечения правильного трехмерного положения каждой кости и ключевых точек.

2.3D ОТСЛЕЖИВАНИЕ ТЕЛА

  • Если отслеживание включено, ZED SDK со временем будет назначать идентификатор каждому обнаруженному телу. В то же время, фильтруя необработанное обнаружение тела, он будет выводить более стабильную оценку 3D-тела.

3.3D ПОДТЯЖКА ТЕЛА

  • Вы также можете включить подгонку, чтобы извлечь более расширенные точки данных о каждой ключевой точке и идентичности на изображении. В процессе подбора используется история каждого отслеживаемого человека, чтобы вывести все недостающие ключевые точки благодаря ограничению кинематики человека, используемому модулем отслеживания тела.
  • Он также может извлекать локальное вращение между парой соседних костей путем решения обратной кинематической задачи. Генерируемые данные будут совместимы с некоторыми известными программами, присутствующими на рынке, для создания аватаров различных персонажей.

Во всех отраслях технология распознавания изображений с помощью ИИ становится все более необходимой. Его приложения обеспечивают экономическую ценность в таких отраслях, как здравоохранение, розничная торговля, безопасность, сельское хозяйство и многих других.

Мы предоставляем множество различных образцов и плагинов для внешнего программного обеспечения/библиотек. Все они с открытым исходным кодом и доступны здесь: https://github.com/stereolabs/

Ищете комплексное решение для компьютерного зрения с полным стеком? Свяжитесь с нами в Stereolabs.

Напишите [email protected] с вашим вариантом использования, и мы будем рады поговорить с вами.