Videoconferencia 3D
From Wikipedia, the free encyclopedia
Videoconferencia 3D se trata de un sistema de teleconferencia que proyecta la imagen sobre un sistema basado en espejos y ofrece una apariencia de tres dimensiones.
Gracias a las TIC (tecnologías de la información y la comunicación) se puede transmitir un rostro, así como cualquier imagen en tiempo real. Las imágenes pregrabadas se pueden girar y manipular, y ser vistas en un arco de 360 grados.
Actualmente, un gran abanico de contenido gráfico es modelado y renderizado en 3D, aunque la gran mayoría siguen representándose en planos 2D. Ya desde el año 1908, de la mano de Walter Lippman, se habían contemplado varias formas de reproducción en planos 3D, pero solamente recientes avances tecnológicos en captura digital, computación y pantallas han conseguido que la utilización de pantallas 3D sea funcional y práctica. Durante una conversación cara a cara, el contacto visual y la dirección de la mirada proporcionan importantes pistas visuales para expresar la emoción, la atención y el interés, cosa que la videoconferencia en 2D no es capaz de hacer. Cuando un participante remoto mira directamente a la cámara, todo el mundo visualiza la secuencia de vídeo de la misma manera sea cual sea su posición en el espacio. La videoconferencia 3D de punto a multipunto consigue una reproducción exacta de la dirección de la mirada y el contacto visual.
Para poder llevar a cabo esta comunicación, el sistema debe contar con una serie de requisitos fundamentales:
- Display que emita rayos de luz en los 360° con un correcto paralaje horizontal.
- Sistema de detección de caras para producir un correcto paralaje vertical.
- Software y hardware capaces de procesar los datos en tiempo real.
- Algoritmo capaz de renderizar distintos centros de proyección de gráficos OpenGL en una superficie anisotrópica con una correcta perspectiva vertical para cualquier usuario en cualquier punto.
(b,c) El participante aparece en tamaño natural y en perspectiva para un correcto contacto visual.
(d) El participante mira a la audiencia a través de un video 2D mientras está siendo escaneando, transmitido y renderizado a gran velocidad.
.]]
Tecnología
El sistema se basa en una pantalla compuesta por varios elementos:
- Un proyector DLP de alta velocidad
- Dos espejos giratorios recubiertos con un difusor holográfico.
- Un motor de sincronización.
- Un PC estándar.
La imagen de la sala se refleja en dichos espejos, que girándolos con la suficiente rapidez, se consigue proyectar una imagen de 360°. Con la sincronización adecuada, se pueden mostrar imágenes para el ojo izquierdo y el ojo derecho ligeramente diferentes, y hacer que una imagen aparezca en 3D.
Proyector de alta velocidad
Para lograr una tasa elevada de frames por segundo, el sistema reproduce cada uno de los 24 bits que conforman una imagen en color en frames separados secuencialmente en frames separados. Así, si la señal digital de entrada de video es de 60Hz, el proyector reproduce 60 x 24 = 1,440 frames por segundo. Para lograr la tasa óptima para el sistema, se fija una frecuencia de hasta 200Hz, utilizando dos proyectores DLP, pudiendo consiguiendo así hasta 8640 frames por segundo utilizando una señal de vídeo DVI especialmente codificada.
Espejos giratorios
La pantalla trabaja mediante la proyección de video de alta velocidad que proviene del proyector, en un sistema de espejos giratorios. Como el espejo gira, refleja una imagen diferente y precisa a cada espectador. El tamaño, la geometría y el material de la superficie de rotación se han optimizado para la visualización de una figura del tamaño del rostro humano. Su forma de dos caras proporciona dos pases de la superficie de pantalla para cada espectador en una rotación completa, consiguiendo una actualización visual de 30 Hz a 900 rpm. Efectivamente, el espejo refleja 144 vistas únicas de la escena a través de un campo de visión de 180 grados con una separación angular de 1,25 grados.
Motor de sincronización
La superficie del espejo gira sincronizadamente con las imágenes que van siendo reproducidas por el proyector, utilizándose como máster la tasa de información que proviene de la señal de PC. La FPGA del proyector decodifica cada uno de los frames y lo comunica directamente al motor de sincronismo. Ya que la frecuencia con la que gira el espejo es de 30 veces por segundo, el sistema visual humano capta la luz recreando una imagen de un objeto o persona flotando en el centro del espejo.
Escaneo 3D en tiempo real
El sistema utiliza una cámara monocromatica que captura la cara del participante remoto a una frecuencia mínima de 120Hz y el proyector de alta velocidad calibrado a dicha frecuencia (a la misma que utilice la cámara).
Otra posibilidad que tiene el sistema es la de calcular los mapas de profundidad de la cara de la persona. Para ello, se adquieren dos imágenes por cada frame, y se iluminan de manera opuesta.
A continuación, se restan las dos imágenes para detectar los cruces por cero y obtener la posición absoluta 3D de los píxeles del centro de la cara. Convenientemente, el máximo de esas dos imágenes medio iluminadas proporciona un mapa de texturas completamente iluminado para la cara, mientras que el valor mínimo nos aproxima la cantidad de luz ambiente en la escena.
El resultado es un mapa de profundidad para la cara, que transmitimos junto con los mapas de textura faciales.
Detección de caras para el paralaje vertical
Para proporcionar información precisa de la distancia y contacto visual, la imagen renderizada del participante remoto debe parecer totalmente coherente a las coordenadas del espacio vistas por cualquier persona de la audiencia. Renderizar la cara a la misma altura y distancia para todo el público puede hacer que parezca que la imagen esté mirando con un ángulo poco preciso para algunas personas, aunque el paralaje horizontal que proporciona la pantalla sea generalmente preciso en la dirección horizontal. Aunque la sensibilidad vertical la detectemos con menos sensibilidad que la horizontal, una verdadera sensación de contacto visual requiere de ambas. Para corregir la perspectiva vertical, se utilizan marcadores de detección de caras de OpenCV, basado en detector Viola-Jones , y un filtro de Kalman para reducir el ruido blanco aditivo, para realizar un seguimiento de enfoques basado en el suministro de vídeo 2D. De esta manera, el paralelismo horizontal de la pantalla ofrece una imagen estéreo binocular sin ningún retraso, mientras que el paralelismo vertical se logra a través de seguimiento.