Разработчики научили Google-переводчик распознавать жесты

Множество людей вынуждены общаться, благодаря языку жестов. Ранее создавались проекты, направленные на захват жестов и интерпретации смысла в речевой форме, но они оказались не особо удачными.

Но теперь за дело взялись сотрудники корпорации Google из отдела лаборатории изучения искусственного интеллекта. Они использовали фреймворк MediaPipe, и теперь ожидается серьезный прорыв в этом направлении.

На чем базируется метод от корпорации Google?

На машинном обучении с целью формирования карты поверхности руки с выделением пальцев на основе высокой точности. Для работы используют смартфон и его видеокамеру.

Как авторы объяснили суть проекта?

Фан Чжан и Валентин Лазаревский сообщили, что прошлые версии ориентировались на десктопную среду. Их модификация основана на реальном времени и работает на мобильном устройстве.

Авторы пояснили проблему прошлых моделей

Машине очень сложно разделить все жесты, поскольку руки способны закрывать обзор и искусственный интеллект не видит все жесты. Движения часто передаются с большой скоростью, камера не может уловить все изменения для выявления смысла переданной информации. Не хватает быстродействия вычислительной мощи, потому предыдущие проекты оказались неудачными попытками реализации полезной идеи.

Разработчики научили Google-переводчик распознавать жесты

В своей версии сотрудники Google избавили ИИ от обработки лишней информации, что повлияло на скорость и точность работы.

Что изменено в новой версии программы?

Системе больше не нужно выявлять расположение и протяженность всей руки. Теперь анализируется расположение ладони. После этого проще распознавать изменение положения пальцев, что осуществляется в отдельном процессе.

Алгоритм выявляет необходимую информацию и переносит ее на координаты для облегчения работы. Для этого разработчики добавили около 30 000 возможных вариаций положения руки на основе множества условий освещения.

Теперь система может воспринимать и учится воспроизводить смысл в речевом виде.

Как это работает?

ИИ выявляет точки положения руки, сравнивает с добавленной информацией и выдает речевую информацию. Эта технология работает благодаря стандартному смартфону. Не нужно использовать десктоп либо облако. Однако используется кроссплатформенная мощь MediaPipe.

Когда можно воспользоваться переводчиком жестов?

Проект представлен на основе открытого доступа, однако, реального продукта ещё нет, поскольку машина находится в стадии обучения. Ещё существуют проблемы, не позволяющие ИИ полностью распознать все сигналы обеих рук, мимики лица.

Проект однозначно перспективный, поскольку Google продолжает ним заниматься.

Но хватит ли энтузиазма для логического завершения и представления рабочей системы для перевода жестов в речевую форму передачи информации?