Что такое синтетическое компьютерное зрение и как оно работает?

Ритейлеры уже давно ищут способ автоматизировать свой персонал. От быстрого распространения касс самообслуживания в местных супермаркетах до более высокотехнологичных решений на основе распознавания изображений, таких как Amazon Fresh, автоматизация в значительной степени является частью конечной цели розничной торговли.

Однако, несмотря на то, что индустрия розничной торговли постепенно продвигается к полностью автоматизированному будущему, на этом пути все еще остаются серьезные препятствия, которые необходимо преодолеть. Скорость развертывания и точность современной технологии распознавания изображений — это лишь две из самых больших проблем, с которыми приходится сталкиваться.

В сфере розничной торговли в целом распознавание изображений (IR) имеет множество применений и преимуществ, таких как мониторинг и аудит запасов на полках. В настоящее время предприятия, которые не используют какую-либо форму распознавания изображений, с большей вероятностью будут иметь ряд несоответствий в своем ассортименте.

Между тем, компании, использующие распознавание изображений, как правило, разочаровываются в том, что их технология ненадежна и им трудно различать товары на переполненных полках.

Часто решения для распознавания изображений не могут идентифицировать продукты в условиях плохого освещения или когда продукт деформирован. Общая ненадежность существующих IR-решений вызвала большое разочарование у агентств по выездному маркетингу (FMA), автоматизации продаж (SFA) и компаний, производящих потребительские товары (CPG), которые полагаются на IR, чтобы они могли проводить аудит на полке, проверять соответствие планограммы и проводить различные анализы данных о своей продукции.

Как работает распознавание изображений?

Как следует из названия, распознавание изображений относится к «распознаванию» продукта, человека или любого другого физического объекта на изображении или видео с помощью компьютерного программного обеспечения.

Технология ZIA (Zero Image Annotations) от Neurolabs для идентификации реальных продуктов/артикулов.

В розничной торговле программное обеспечение для распознавания используется для нескольких целей, таких как проверка уровня запасов и проведение аудитов. Его также можно применять в кассах самообслуживания (с ИК-подсветкой для предотвращения убытков) или для создания автономных магазинов (с ИК-отслеживанием взаимодействия покупателя с полкой). В некоторых случаях программное обеспечение для распознавания лиц можно использовать даже для проверки идентификаторов покупателя на товары с возрастными ограничениями, что помогает покупателям совершать покупки более плавно. Однако в этой статье мы сосредоточимся на распознавании изображений для розничной торговли, а не на распознавании лиц.

Итак, теперь, когда вы знакомы с тем, что такое распознавание изображений, неплохо было бы разобраться, как все это работает.

Все начинается с компьютерного зрения

Все решения для распознавания изображений основаны на искусственном интеллекте (ИИ) под названием Computer Vision.

Подобно человеческому зрению, компьютерное зрение позволяет компьютеру «видеть» и контекстуализировать изображения и видео так же, как работают наш мозг и глаза. Однако, в отличие от людей, компьютерное зрение обучает машины (машинное обучение) обрабатывать и идентифицировать изображения намного быстрее, чем человек.

Чтобы компьютерное зрение могло эффективно и точно обнаруживать объекты, требуется анализ больших объемов данных, прежде чем оно сможет начать расшифровывать любые изображения реального мира. В розничном сценарии эти «данные» обычно представляют собой изображения конкретного продукта, сделанные под разными углами, в разных условиях и при разных условиях освещения. После завершения этого процесса человек должен просмотреть все изображения и предоставить аннотации о положении и классе каждого продукта.

Естественно, CPG сталкиваются с рядом проблем, связанных со сбором и аннотированием данных SKU для обучения программ IR. Например, бренды могут производить большое количество товаров. Скорость изменения каталога SKU также может быть проблемой, плюс один продукт может иметь разный дизайн упаковки. Все эти данные необходимо учитывать, но сбор всей этой информации вручную может занять исключительно много времени и подвержен человеческим ошибкам в процессе аннотации.

К счастью, есть еще один способ обучения модели компьютерного зрения, который не требует недель/месяцев ручной аннотации SKU или тысяч реальных фотографий. Этот процесс известен как синтетическое компьютерное зрение.

Что такое синтетическое компьютерное зрение?

Синтетическое компьютерное зрение — это альтернативный подход к компьютерному зрению, который заменяет реальные данные синтетическими на этапе обучения построения моделей/алгоритмов торговых точек.

Связь между искусственным интеллектом, компьютерным зрением и синтетическим компьютерным зрением.

В отличие от компьютерного зрения, которое требует кропотливого процесса сбора реальных фотографий продукта с разных ракурсов и условий освещения, синтетическое компьютерное зрение вместо этого может генерировать необходимую информацию, которую модель компьютерного зрения требует полностью из синтетических данных.

Как синтетические данные влияют на синтетическое компьютерное зрение?

Как следует из названия, синтетические данные — это информация, созданная синтетическим путем с использованием виртуальной реальности (обычно в виде искусственных изображений или видео), а не данных реального мира.

Как работает технология распознавания изображений на основе синтетических данных от Neurolabs всего за 4 шага.

Синтетические данные позволяют синтетической модели компьютерного зрения «обучаться» с большей точностью, разнообразием и в масштабе, который просто невозможен при использовании реальных данных.

Одним из многих преимуществ синтетических данных по сравнению с реальными данными является тот факт, что синтетические данные могут согласовываться с вашими планами расширения, а не просто использоваться в качестве реакционной процедуры. Другими словами, масштабируемость синтетических данных позволяет производителям потребительских товаров быстро проводить распознавание изображений по всей линейке продуктов и с легкостью в нескольких торговых точках.

Кроме того, поскольку синтетическое компьютерное зрение использует синтетические данные, CPG может проводить обучение распознаванию изображений своих последних продуктов до того, как они появятся на полках магазинов.

По сравнению с традиционной методологией реактивного распознавания изображений эти упреждающие возможности знаменуют собой революцию. Раньше розничные продавцы, FMA, SFA компании или CPG могли обучать свои соответствующие алгоритмы распознавания изображений только после того, как продукт был физически доступен.

Как подчеркивалось выше, повышенная точность синтетических моделей компьютерного зрения также является одним из значительных преимуществ этого метода по сравнению с традиционным компьютерным зрением. Синтетические данные могут генерировать изображения с определенными критериями и свойствами, которые заранее моделируют многие возможные сценарии, в которых продукт будет встречаться в реальном мире (например, артикулы на полке). Это ключевое отличие, возможно, является самым ярким примером того, почему будущее аудита розничных полок является синтетическим.

Нейролабс ЗИА внедряет синтетические данные и компьютерное зрение, позволяя компаниям перейти от реакционных решений в области IR-технологий к проактивным.

Кроме того, камера или мобильное устройство в магазине, используемые полевым агентом, могут испытывать трудности с распознаванием продуктов, если они находятся под прямым светом или в условиях освещения, которые резко отличаются от реальных изображений, используемых для обучения программного обеспечения распознавания изображений.

Эти условия практически невозможно воссоздать при фотосъемке в контролируемой среде, потому что это займет довольно много времени. Кроме того, набор данных будет ограничен тем уровнем разнообразия, который он приобрел к этому моменту. Однако, используя синтетическое решение для распознавания изображений на основе компьютерного зрения, такое как наша технология ZIA (Zero Image Annotations), можно воспроизвести такие сценарии за короткий промежуток времени, используя виртуальные сцены, которые имитируют характеристики реальных полок магазинов. Кроме того, его можно использовать для моделирования таких сценариев, как повреждение или перемещение товаров на полке.

Neurolabs ZIA имеет возможность создавать виртуальные сцены, которые можно использовать в учебных целях. Эти сцены генерируются автоматически, что позволяет эффективно и действенно подготовиться к реальным сценариям.

Виртуальные сцены, созданные нашим решением ZIA, служат специальной «тренировочной площадкой» для ИИ, чтобы при столкновении с аналогичными сценариями в реальном мире технология могла обнаруживать продукты на полках с постоянным и высоким уровнем точности, предлагая потребительские товары. , FMA и SFA впервые получают доступ к надежной технологии распознавания изображений. Потенциально вы можете использовать синтетические данные для создания неограниченного количества изображений с желаемым уровнем разнообразия.

Будущее аудита розничных полок уже здесь

Синтетическое компьютерное зрение — это будущее и естественная эволюция розничной торговли и распознавания изображений.

Поскольку ИИ и машинное обучение продолжают развиваться, CPG, SFA и FMA, которые не интегрировали синтетическую платформу в свои решения для распознавания изображений, окажутся в значительном невыгодном положении.

Загрузите нашу электронную книгу сегодня и начните свой путь к усовершенствованному розничному исполнению.

В Нейролабс мы совершаем революцию в розничной торговле с помощью нашей передовой технологии распознавания изображений ZIA. Наша передовая технология позволяет ритейлерам, агентствам выездного маркетинга и брендам товаров народного потребления оптимизировать работу магазинов, повышать качество обслуживания клиентов и увеличивать доходы, поскольку мы создаем самую полную библиотеку 3D-ресурсов для распознавания продуктов в индустрии товаров народного потребления.

материалы по теме:

Новые материалы

[Архив поста] Предварительная обработка данных МРТ для PROSTATex Challenge

Обратите внимание, что этот пост предназначен для моих собственных образовательных целей. https://github.com/saifengliu/PROSTATex/blob/master/prostatex-data-preprocessing-20180425.pdf Как..

Я обязательно пройду курс.

Я обязательно пройду курс. Я взял версию Python несколько лет назад на EDX (Введение в вычислительное мышление в Python), который преподавал великий профессор Эрик Гримсон из Массачусетского..

Регрессивный анализ

Регрессивный анализ RASeries#3 — Регрессия Регресс? Как только мы определим, что между X и Y существует значительная линейная зависимость, для представления этой линейной зависимости..

Что делать, когда травят?

Расскажите об этом своим родителям. Если это произойдет даже в школе, немедленно сообщите об этом администрации школы. Чтобы сообщить о: Facebook, нажмите здесь:..

Шаблон проектирования посредника — 3-минутная серия

Это супер коммуникатор и центральный контроллер. _00 / Концепция Инкапсулируйте всю бизнес-логику внутри посредника. Участник будет общаться только с Медиатором. Он не будет знать, есть..

Первые принципы программирования: секрет раскрытия вашего потенциала и создания прорыва…

Раскройте свой творческий потенциал и выделитесь среди остальных: руководство для начинающих по основам программирования Когда дело доходит до решения проблем и создания инновационных..

Наш взгляд на IJCAI 2022

Международная объединенная конференция по искусственному интеллекту (IJCAI) — главное событие для исследователей, работающих во всех областях ИИ. Среди специализированных треков по глубокому..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Deep Learning Coding React AI Software Engineering Tech Front End Development Nodejs Development HTML Algorithms Computer Science Angular Typescript Data CSS Education DevOps Java Data Analysis Javascript Tips Javascript Development Learning Interview Productivity Neural Networks Startup ES6 Data Visualization NLP Computer Vision