Google continúa trabajando para hacer más accesibles las videollamadas

EmailFacebookTwitterLinkedinPinterest
07/11/2020 - 11:00
Google detecta la Lengua de Signos en las videollamadas / Google Research

Lectura fácil

Las personas con discapacidad auditiva y del lenguaje se encuentran con dificultades a la hora de utilizar una app de videollamadas, ya no solo al tratar de escuchar lo que los otros participantes dicen, sino incluso si emplean Lengua de Signos, dado que el sistema posiblemente no de prioridad a esa persona que emite sonidos.

Por este motivo, Google ha desarrollado un novedoso sistema que utiliza un modelo de estimación de poses de brazos y manos, conocido como PoseNet. Este se encarga de reducir los datos de la imagen a una serie de marcadores en los ojos, nariz, manos y hombros de los usuarios, por lo que también detecta el movimiento.

Para desarrollar esta nueva tecnología, sus diseñadores se han centrado en dos cosas: la primera en la detección instantánea de la Lengua de Signos y que el sistema de prioridad al hablante como a cualquier otro usuario haciendo más accesibles las videollamadas. En segundo lugar, en crear un diseño ligero, rápido, simple y fácil tanto de usar como de conectar, que no genere complicaciones o bajo rendimiento al sistema y que permita visualizar al usuario e interprete adecuadamente lo quiere decir.

PoseNet, un nuevo sistema de Google que detecta la Lengua de Signos en las videollamadas haciéndolas más accesibles

Este nuevo sistema desarrollado por Google permite detectar en tiempo real cuándo uno de los participantes utiliza la Lengua de Signos, con el objetivo de destacarlos en videollamadas en grupo.

Los servicios de videollamadas utilizan sistemas para destacar a las personas que hablan en voz alta. Algo que es un problema para las personas con problemas auditivos cuando se comunican mediante lengua de signos.

Para poder solucionar este problema, un equipo de investigadores de Google Research ha desarrollado un modelo de detección de la lengua de signos en tiempo real. Este sistema está basado en la estimación de las poses que puede identificar a las personas como hablantes mientras se comunican en esta lengua.

PoseNet tiene un 80% de efectividad, detectando a las personas que hablan Lengua de Signos cuando emplea tan solo 0,000003 segundos de datos, mientras que si se usan los 50 fotogramas anteriores la efectividad asciende hasta el 83,4%.

Este sistema emite ondas de sonido ultrasónicas

Como decíamos nada más comenzar esta nota, la mayor parte de los servicios de videollamadas utilizan sistemas para destacar a las personas que hablan en voz alta en las reuniones grupales, algo que supone inconvenientes para las personas con problemas de audición cuando se comunican mediante lengua de signos. Sin embargo, para mejorar la accesibilidad de las plataformas de videollamadas, los investigadores han hecho su herramienta compatible con ellas, para que pueda usarse para señalar como 'hablantes' a quienes utilicen Lengua de Signos.

Este sistema emite ondas de sonido ultrasónicas cuando advierte a una persona que emplea esta lengua, de forma que las personas no las pueden percibir pero sí sus tecnologías de detección del habla, que destacan así al usuario en las videollamadas.

Los investigadores han publicado en código abierto en la plataforma GitHub su modelo de detección y esperan que su tecnología pueda "aprovecharse para permitir que los hablantes de Lengua de Signos utilicen las videoconferencias de manera más conveniente".

Añadir nuevo comentario