Videoconferencia 3D

Videoconferencia 3D se trata de un sistema de teleconferencia que proyecta la imagen sobre un sistema basado en espejos y ofrece una apariencia de tres dimensiones.

Gracias a las TIC (tecnologías de la información y la comunicación) se puede transmitir un rostro, así como cualquier imagen en tiempo real. Las imágenes pregrabadas se pueden girar y manipular, y ser vistas en un arco de 360 grados.

Actualmente, un gran abanico de contenido gráfico es modelado y renderizado en 3D, aunque la gran mayoría siguen representándose en planos 2D. Ya desde el año 1908, de la mano de Walter Lippman, se habían contemplado varias formas de reproducción en planos 3D, pero solamente recientes avances tecnológicos en captura digital, computación y pantallas han conseguido que la utilización de pantallas 3D sea funcional y práctica. Durante una conversación cara a cara, el contacto visual y la dirección de la mirada proporcionan importantes pistas visuales para expresar la emoción, la atención y el interés, cosa que la videoconferencia en 2D no es capaz de hacer. Cuando un participante remoto mira directamente a la cámara, todo el mundo visualiza la secuencia de vídeo de la misma manera sea cual sea su posición en el espacio. La videoconferencia 3D de punto a multipunto consigue una reproducción exacta de la dirección de la mirada y el contacto visual.

Para poder llevar a cabo esta comunicación, el sistema debe contar con una serie de requisitos fundamentales:

Display que emita rayos de luz en los 360° con un correcto paralaje horizontal.
Sistema de detección de caras para producir un correcto paralaje vertical.
Software y hardware capaces de procesar los datos en tiempo real.

Algoritmo capaz de renderizar distintos centros de proyección de gráficos OpenGL en una superficie anisotrópica con una correcta perspectiva vertical para cualquier usuario en cualquier punto.

(b,c) El participante aparece en tamaño natural y en perspectiva para un correcto contacto visual. (d) El participante mira a la audiencia a través de un video 2D mientras está siendo escaneando, transmitido y renderizado a gran velocidad. .]]

Tecnología

El sistema se basa en una pantalla compuesta por varios elementos:

Un proyector DLP de alta velocidad

Dos espejos giratorios recubiertos con un difusor holográfico.
Un motor de sincronización.
Un PC estándar.

La imagen de la sala se refleja en dichos espejos, que girándolos con la suficiente rapidez, se consigue proyectar una imagen de 360°. Con la sincronización adecuada, se pueden mostrar imágenes para el ojo izquierdo y el ojo derecho ligeramente diferentes, y hacer que una imagen aparezca en 3D.

Proyector de alta velocidad

Para lograr una tasa elevada de frames por segundo, el sistema reproduce cada uno de los 24 bits que conforman una imagen en color en frames separados secuencialmente en frames separados. Así, si la señal digital de entrada de video es de 60Hz, el proyector reproduce 60 x 24 = 1,440 frames por segundo. Para lograr la tasa óptima para el sistema, se fija una frecuencia de hasta 200Hz, utilizando dos proyectores DLP, pudiendo consiguiendo así hasta 8640 frames por segundo utilizando una señal de vídeo DVI especialmente codificada.

Espejos giratorios

La pantalla trabaja mediante la proyección de video de alta velocidad que proviene del proyector, en un sistema de espejos giratorios. Como el espejo gira, refleja una imagen diferente y precisa a cada espectador. El tamaño, la geometría y el material de la superficie de rotación se han optimizado para la visualización de una figura del tamaño del rostro humano. Su forma de dos caras proporciona dos pases de la superficie de pantalla para cada espectador en una rotación completa, consiguiendo una actualización visual de 30 Hz a 900 rpm. Efectivamente, el espejo refleja 144 vistas únicas de la escena a través de un campo de visión de 180 grados con una separación angular de 1,25 grados.

Motor de sincronización

La superficie del espejo gira sincronizadamente con las imágenes que van siendo reproducidas por el proyector, utilizándose como máster la tasa de información que proviene de la señal de PC. La FPGA del proyector decodifica cada uno de los frames y lo comunica directamente al motor de sincronismo. Ya que la frecuencia con la que gira el espejo es de 30 veces por segundo, el sistema visual humano capta la luz recreando una imagen de un objeto o persona flotando en el centro del espejo.

Escaneo 3D en tiempo real

El sistema utiliza una cámara monocromatica que captura la cara del participante remoto a una frecuencia mínima de 120Hz y el proyector de alta velocidad calibrado a dicha frecuencia (a la misma que utilice la cámara).

Otra posibilidad que tiene el sistema es la de calcular los mapas de profundidad de la cara de la persona. Para ello, se adquieren dos imágenes por cada frame, y se iluminan de manera opuesta.

A continuación, se restan las dos imágenes para detectar los cruces por cero y obtener la posición absoluta 3D de los píxeles del centro de la cara. Convenientemente, el máximo de esas dos imágenes medio iluminadas proporciona un mapa de texturas completamente iluminado para la cara, mientras que el valor mínimo nos aproxima la cantidad de luz ambiente en la escena.

El resultado es un mapa de profundidad para la cara, que transmitimos junto con los mapas de textura faciales.

Detección de caras para el paralaje vertical

Para proporcionar información precisa de la distancia y contacto visual, la imagen renderizada del participante remoto debe parecer totalmente coherente a las coordenadas del espacio vistas por cualquier persona de la audiencia. Renderizar la cara a la misma altura y distancia para todo el público puede hacer que parezca que la imagen esté mirando con un ángulo poco preciso para algunas personas, aunque el paralaje horizontal que proporciona la pantalla sea generalmente preciso en la dirección horizontal. Aunque la sensibilidad vertical la detectemos con menos sensibilidad que la horizontal, una verdadera sensación de contacto visual requiere de ambas. Para corregir la perspectiva vertical, se utilizan marcadores de detección de caras de OpenCV, basado en detector Viola-Jones , y un filtro de Kalman para reducir el ruido blanco aditivo, para realizar un seguimiento de enfoques basado en el suministro de vídeo 2D. De esta manera, el paralelismo horizontal de la pantalla ofrece una imagen estéreo binocular sin ningún retraso, mientras que el paralelismo vertical se logra a través de seguimiento.

Tipos de superficies del display

La superficie de una pantalla nos da información de cómo van a comportarse la luz emitida hacia los espectadores. Superficies planas y cóncavas/convexas pueden ser empleadas. Estas superficies de distinta forma ofrecen diferentes ventajas y desventajas, lo que denota la utilidad de poder proyectar las imágenes en superficies arbitrarias.

Superficie Plana: Tiene un ángulo pronunciado para adaptarse mejor a la forma de un rostro y dos lados para duplicar la velocidad de los fotogramas de la pantalla.

El haz de divergencia del proyector diverge horizontalmente después de la reflexión por la superficie de la pantalla plana, de modo que aproximadamente un área de unos 20º de audiencia, observa algunos píxeles reflejados del proyector en cualquier posición del espejo. Por otro lado, es el más simple de construir y calibrar aunque otras formas pueden proporcionar propiedades ópticas más útiles.

Superficie cóncava: La utilidad de esta superficie es que, en todo momento, cualquier miembro de la audiencia, puede ver la luz reflejada por el proyector. Este tipo de superficie es útil en el caso de la detección de los espectadores. La pantalla puede renderizar la perspectiva vertical adecuada para cada espectador de una manera directa con una sola variación de altura y distancia por cuadro. Diferentes formas también afectan a la focal del display. La superficie focal para un espectador se compone por las distintas capas del espejo que se iluminan cuando el espejo gira. Para un espejo plano, la superficie focal es un cono centrado en torno al eje del espejo. Las suèrficies cóncavas y convexas tienen focales asimétricas que pueden cambiar según el ángulo de visión.

Los espejos convexos producen un conjunto de planos focales cóncavos, y los espejos cóncavos producen un conjunto de planos focales convexos. Esto representa otra ventaja en los espejos cóncavos, ya que la cara humana se asemeja más a un cilindro convexo que a uno cóncavo. Cuando la superficie focal se aproxima el objeto que se está reproduciando, la acomodación visual es más precisa y el aliasing se minimiza.

Más allá de las superficies reflectantes, se espera que las pantallas con capacidades auto-estereoscópicas tendrán un impacto decisivo en las aplicaciones de comunicaciones 3D. Estas pantallas, basadas en tecnología LCD junto con el uso de elementos ópticos de difracción o barrera, han demostrado que permiten mostrar diferentes imágenes en función del ángulo en que se mira la pantalla. Esto además de permitir ver 3D sin necesidad de gafas, también permite el enseñar diferentes perspectivas de una escena en función del ángulo en que se mira la pantalla. El proyecto Europeo FP7 3DPresence ha construido lo que es el primer prototipo funcional con esta tecnología.