Saltar al contenido principal

Virtual Stage. ¿Cómo es posible? | Microsoft Build 2020

Como uno de los dos grandes eventos que Microsoft celebra cada año, el Microsoft Build es la conferencia de desarrolladores en la que la compañía anuncia las últimas actualizaciones de sus herramientas y servicios. Aunque suele ser un evento presencial, debido a la crisis mundial de COVID-19, Microsoft decidió que este año consistiría en 48 horas de sesiones online disponibles para cualquiera que se registre.

Inmediatamente empezaron a surgir algunas preguntas: Debido a que los speakers no pueden viajar, Microsoft necesitaba grabarlos, pero ¿cómo asegurar la calidad de la imagen y el audio? ¿Dónde se van a grabar los speakers, en su casa? ¿Cómo se verá el entorno del speaker cuando se publique, y qué sensación proyectarán en los asistentes?

Estas y muchas otras cuestiones relacionadas se suelen resolver mediante la grabación en un estudio o plató profesional de televisión, con un asistente de cámara profesional y de iluminación… Algo inviable dentro del contexto de una pandemia. Afortunadamente, encontramos una solución a la que llamamos Virtual Stage.

Virtual Stage

Se trata de una aplicación que aprovecha la potencia del Azure Kinect y los últimos avances de la IA para grabar a los ponentes en sus casas como si estuvieran en un estudio de grabación profesional hablando frente a un croma. Las grabaciones se envían posteriormente a posproducción donde se pueden realizar fácilmente escenarios virtuales, animaciones y composiciones. ¡La imaginación manda!

Virtual Stage. ¿Cómo funciona?

Esta tecnología desarrollada en colaboración con Microsoft Corp. consiste en dos partes separadas:

El Speaker Recorder App, que permite grabar una conferencia usando uno o dos dispositivos Azure Kinect, y el Background Matting, el fondo que elimina el fondo con gran calidad usando un sofisticado modelo de IA y la información de los sensores Azure Kinect.

La aplicación Speaker Recorder captura la información de color y profundidad de una o dos cámaras Azure Kinect (se pueden usar dos cámaras para grabar dos ángulos de la misma conferencia). Además, el speaker puede utilizar un presentador para desplazarse por las diapositivas de PowerPoint y un micrófono inalámbrico. Cuando terminan, los videos se suben a Azure donde son procesados.

 

 

En Azure, el servicio Background Matting utiliza la información de profundidad para generar una segmentación imprecisa del speaker. Luego el «backend» separa el fondo del speaker, con alta precisión, generando un video transparente.

El Background Matting se basa en una nueva técnica de la Universidad de Washington. Debido a la falta de datos de entrenamiento etiquetados que retraten a los humanos de pie, la IA original fue entrenada con imágenes/vídeos cuadrados de 512×512 hasta la cadera o la rodilla.

Con el fin de obtener un primer plano de alta calidad en zonas como el pelo, las manos o los pies hemos hecho dos contribuciones importantes al método original. Primero, hemos reemplazado el paso de segmentación original por los modelos de IA del Azure Body Tracking SDK, consiguiendo una segmentación más tolerante con las similitudes de color y las zonas ambiguas de la imagen.

Segundo, estamos dividiendo el cuerpo en dos imágenes cuadradas con una pequeña superposición y procesándolas por separado. Esto permite al modelo «ver» mejor en zonas difíciles como la sombra entre los pies, sin perder precisión en el cabello o las manos.

Para descargar el código, probarlo, u obtener más detalles técnicos, por favor, consulta Github.

Si quieres saber más sobre la tecnología que hemos desarrollado en colaboración con Microsoft Corp, ¡Contáctanos!

 

logo plain concepts
Autor
Plain Concepts
Rediscover the meaning of technology