기존 제작 방식의 한계를 넘어서기 위해 모팩에서 개발하고 있는 버추얼 프로덕션에 대한 기사를 소개합니다. 기사에는 최근 영화 프로덕션과 VFX 현장에서 활발히 논의되고 있는 기술과 트랜드를 담고 있습니다.  자세한 내용은 하단 기사를 참조하시기 바랍니다.

 

————

[관련기사]

 

버추얼 프로덕션, 비주얼스토리텔링의 새로운 시대를 열다

출처 : 영화진흥위원회, “한국영화 117호 p29-p34”, 글 • 문형욱 MOFAC 부장

기사원문 보러가기

 

 

디지털 시대로 접어들면서 영화에서 VFX(시각효과, Visual Effects)와 CG 사용은 점점 늘어났다. 하지만 감독과 배우 그리고 촬영장의 모든 이들은 펼쳐놓은 그린스크린 앞에서 정확히 무엇을 찍는지도 모른 채 촬영을 진행해왔다. 그로 인해 많은 결정을 후반작업으로 미뤄야 했고, 불완전한 그림을 보면서 판단해야 했다. 수정을 요청하면 짧게는 하루에서 길게는 며칠을 기다려야 결과를 확인할 수 있었다. 기존 제작 방식의 한계를 넘어서기 위해 최근 영화 프로덕션과 VFX 현장에서는 ‘버추얼 프로덕션(Virtual Production, 이하 VP)’에 대한 논의가 활발히 일어나고 있다.

 

실제와 디지털이 만나는 세계

영화 제작에서 VP의 개념이 널리 알려지게 된 계기는 2009년 개봉한 제임스 카메론 감독의 <아바타>였다. 배우들은 모션캡처 스테이지에서 나비족으로 빙의하였고, 카메론 감독은 사이멀캠(Simulcam)이라고 불렸던 버추얼 카메라 장치를 통해 디지털로 구현된 판도라 행성을 들여다볼 수 있었다.

미국 버추얼 프로덕션 협회(Virtual Production Committee)의 회장인 데이비드 모린은 VP를 두 가지 방식으로 정의한다. 좁은 의미로는 ‘현장에서의 실시간 컴퓨터그래픽(Real-time computer graphic on-set)’이다. 촬영현장에서 유의미한 리얼타임 CG를 얻기 위해서는 프리 프로덕션과 그 단계에서 VFX로 구현되어야 하는 요소, 이를테면 배경, 효과, 크리처(Creature) 등이 사전에 제작되어야 한다. 그리하여 데이비드 모린은 VP를 넓은 의미로는 ‘프로덕션에서의 실시간 상호작용(Real- Time Interaction)을 중심으로 영화의 시작부터 최종 VFX에 이르기까지 디지털 세계를 창조해가는 프로세스를 아우르는 것’이라 정의했다. 이처럼 VP는 다양한 기술의 조합과 프로세스의 결합으로 구축된 개념이다. 가장 중요한 핵심 가치는 ‘실시간’과 ‘상호작용’이다. 기존의 CG 기술에 VR/AR 기술이 접목되고, 리얼타임 렌더링(Real-Time Rendering) 플랫폼으로서 게임엔진(Game Engine)이 활약하면서 감독과 스태프들은 그들이 담아내고자 하는 장면을 같이 바라보고 만들 수 있게 되었다. 보다 창조적인 협업이 가능해지면서 짧은 일정과 절약된 비용으로 더 좋은 결과물을 만들어낼 수 있게 된 것이다.

주로 후반작업에서 기여했던 VFX와 CG가 리얼타임을 만나 프리 프로덕션과과 프로덕션에서의 비중이 높아진다. VP 환경에서는 ‘후반작업에서 고치면 되겠지’라는 안일함은 통하지 않는다. 사전시각화(Pre-Visualization) 단계에서 이미 최종 결과물에 근접한 퀄리티로 확인할 수 있다. 포스트 프로덕션의 영역에서 CG뿐만 아니라 편집과 사운드디자인, 컬러 작업이 프리 프로덕션과과 프로덕션 단계에서 동시 진행이 가능해진 것이다. 프리 단계가 길어지는 대신 촬영과 포스트가 훨씬 짧아졌다. 심지어 이후에는 프리-프로덕션-포스트가 병렬로 진행될 수도 있다.

현재는 CG가 많이 필요한 블록버스터 영화에서 VP를 활용하고 있다. 하지만 기술과 장비는 발전을 거듭하면서 저렴해진다. 시간이 지날수록 VP는 창작자들에게 제공하는 무한한 가능성과 기능뿐만 아니라 제작자와 자본에 제공하는 장점으로 인해 점차 영상 제작현장에 보편화될 것이다.

 

버추얼 프로덕션 기반의 기술들

게임엔진과 리얼타임 렌더링

게임엔진은 리얼타임 렌더링을 제공하면서 다양한 주변 장치들의 허브로써 사용자의 입력을 처리한다. 게임과 마찬가지로 실시간 상호작용을 가능하게 하여 VP의 엔진으로 기능하는 것이다. 게임엔진은 비디오 게임을 만들기 위한 소프트웨어 도구로 발전해왔다. 이후 컴퓨터의 퍼포먼스 향상에 따른 고품질의 3D 그래픽 발달, 네트워크 환경 확대, 모바일과 AR/VR 플랫폼에 이르기까지 게임산업은 변화에 빠르게 적응하며 진화를 거듭해왔다.

게임엔진은 게임을 구성하는 필수 요소들을 필요에 따라 수정하고 조합할 수 있는 프레임워크(Framework, 개발 도구와 구조 그리고 라이브러리)를 제공한다.

게임엔진이 VP에서 수행하는 역할 중 특히 중요한 것이 실시간 렌더링이다. 컴퓨터그래픽에서 렌더링이란 디스플레이 각각의 화소(Pixel)의 색상(RGB, Red/Green/Blue) 값을 결정하기 위하여 필요한 연산을 수행하고 출력하는 것이다. 여기서 필요한 연산이란 3D 공간상에서의 움직임과 빛에 대한 반응이 포함된다. 대량의 시뮬레이션이나 세밀한 굴절과 반사가 포함된 장면은 한 프레임을 렌더링하는 데 수 시간에서 수십 시간까지 걸리기도 한다.

기존 VFX에서는 작업의 단계별로 나눠서 렌더링을 하고, 수십에서 수백 대의 렌더팜(Render Farm)을 통해 해오던 일이 게임엔진에서는 어떻게 실시간으로 가능할까? 영화나 애니메이션에서는 CPU(컴퓨터의 메인연산장치, Central Processing Unit)를 통해 렌더링을 하는 반면, 게임은 GPU(그래픽카드, Graphic Processing Unit)로 렌더링을 한다. CPU는 복잡하고 순차적인 연산에 적합하고 GPU는 단순한 연산을 병렬로 하는 데 적합하다. 단순한 연산이란 결국 퀄리티를 낮춰야 한다는 뜻이다. 그러나 오늘날 GPU 연산 능력의 비약적인 발전으로, 실시간 렌더링에서는 불가능할 것이라고 여겼던 래이트래이싱(Ray Tracing, 픽셀별로 빛의 반사를 역추적하여 물리적인 빛의 속성을 세세하게 표현하는 렌더링 기법)도 도입되기 시작했다.

현재 범용적으로 쓰이고 있는 상용 게임엔진의 시장 지배자는 언리얼엔진(Unreal Engine)과 유니티(Unity)이다. 언리얼엔진은 최고 사양 콘솔 게임에서, 유니티는 모바일 게임 시장에서 우위에 있었는데, 최근 VP를 비롯한 다른 여러 산업에서 시각화 플랫폼으로 경쟁하면서 빠른 속도로 발전을 이어가고 있다.

 

리얼타임 트래킹, 버추얼 카메라, 사이멀캠 시스템

VP를 ‘실제 세계와 디지털 세계가 만나는 곳’이라고 표현할 수 있다. 두 개의 세계를 결합하기 위해 우리는 먼저 주변 세계를 인식하고 이를 가상공간의 3차원 좌표계로 재구성해야 한다. 그리고 자신의 위치를 좌표 공간 내에서 끊임없이 파악해야 한다. 이러한 과정을 트래킹(Tracking)이라고 한다. 트래킹의 종류는 대상과 목적에 따라 다양하며 기저에 사용되는 기술(감지 장치, 특성 검출 방식, 정합 알고리즘 등)은 더욱 다양하다.

VP에서 카메라는 두 세계를 이어주는 통로 역할을 하기에 실시간 카메라 트래킹은 필수불가결한 요소이다. 카메라의 위치와 방향 정보를 실시간으로 추적하여 가상공간의 카메라인 버추얼 카메라에 동조시켜 실제 카메라와 버추얼 카메라가 같은 곳을 바라보고 함께 움직일 수 있게 하는 것이다. 카메라 트래킹에 더해 실제 카메라가 가지는 모든 속성(렌즈의 초점 거리, 이미지 센서의 크기, 조리개 수치, 타임코드 등)까지 정확하게 일치시키면 버추얼 카메라는 실제 세계의 카메라와 똑같이 디지털 세계를 볼 수 있게 된다.

버추얼 카메라 시스템은 사전시각화 작업 같은 Full CG 환경에서 단독으로 활용할 수도 있고, 프로덕션현장에서 실사 영상과 CG를 결합하기 위해 실제 카메라와 결합되기도 한다. 여기서 시스템이란 표현을 쓴 이유는 버추얼 카메라 자체는 말 그대로 가상공간에서 존재하는 가상의 카메라일 뿐이며, 하드웨어와 소프트웨어 시스템을 통해 카메라를 조작하고 촬영하는 장면을 렌더링할 수 있기 때문이다.

Full CG 환경에서 단독으로 활용하는 경우는 실제 카메라와 비슷한 형태의 장비를 만들고, 게임 패드와 같은 컨트롤러를 추가하여 실제 카메라의 기능과 사용경험을 모사한다. 또한 버추얼 환경 내에서 보다 자유롭게 카메라를 조작하고 움직일 수 있도록 다양한 기능을 프로그래밍한다. 예를 들어 다양한 카메라의 위치를 저장하여 필요할 때마다 버튼으로 이동을 한다거나 핸드핼드(Hand-Held) 모드로 촬영하다가 설정을 바꾸고 앉은 채로 드론숏(Drone Shot)을 찍을 수도 있다.

촬영장에서의 현장시각화(On-Set Visualization)를 위해서는 실사 카메라가 촬영하는 장면과 버추얼 카메라가 렌더링하는 장면이 자연스럽게 융합되는 것이 중요하다. <아바타>에서 사용된 가상 카메라 장치를 지칭했던 ‘사이멀캠’은 현재 실사 카메라를 트래킹하여 CG를 실시간으로 합성하는 장비와 시스템을 지칭하는 명사로 사용되고 있다. 성공적인 실시간 합성을 위해서는 카메라 트래킹 외에도 피사체의 뎁스(Depth) 정보와 주변의 조명 정보(HDRI, High Dynamic Range Imaging)를 감지할 수 있어야 하고, 버추얼 카메라를 결합하여 CG 요소를 실시간 렌더링할 수 있어야 하며, 그린스크린과 실사를 분리해 줄 수 있는 리얼타임 키어(Keyer)와 색보정 등의 기능을 갖춘 합성(Composite) 도구가 함께 필요하다.

현재 영화 촬영현장이나 방송현장에서 대표적으로 쓰이는 사이멀캠 시스템으로는 NCam이 있다. 카메라 아래에 부착된 센서바가 실시간 카메라 트래킹을 담당하고 이를 통해 수집된 데이터는 실사 카메라가 기록한 영상과 함께 게임엔진을 통해 실시간 렌더링된다. 그린스크린 환경에서는 카메라에 담기는 공간의 깊이 정보를 활용하여 피사체의 전경과 후경을 분리하여 CG를 적절히 배치할 수 있다.

 

퍼포먼스 캡처

퍼포먼스 캡처(Performance Capture)는 인간 동작 분석을 위하여 비교적 이른 시기부터 발달했던 모션 캡처(Motion Capture, 이후 줄여서 모캡으로 표기)에 더하여 페이셜 캡처(Facial Capture), 핸드 캡처(Hand Capture) 등의 영역을 통칭하는 말이다. 퍼포먼스 캡처 프로세스를 간단하게 요약하면 트래킹과 리타기팅(Retargeting)으로 나누어진다. 트래킹은 센서를 통해 인체나 얼굴에서 식별 지점을 인식하여 추적하는 것이고, 리타기팅은 수집된 식별 지점의 움직임에 대한 데이터를 CG 캐릭터에 덧입히는 과정이다.

모캡은 1970년대부터 학문적 필요로 시작되었고, 오래된 만큼 다양한 방식이 존재한다. 현재 영화와 애니메이션, 게임 제작에 가장 많이 활용하는 방식은 광학식(Optical)과 관성식(Inertial) 두 종류이다. 광학식 모캡은 두 대 이상의 카메라가 동일한 마커(Marker)를 트래킹하여 3차원 좌표를 추출하는 방식이다. 관절을 비롯한 신체 각 부위에 마커를 부착한 모캡 수트를 입히고, 마커를 트래킹하는 카메라들로 둘러싸인 공간인 모캡 볼륨(Volume) 내에서 움직임을 기록한다. 광학식에서도 마커의 종류에 따라 패시브(Passive) 방식과 액티브(Active) 방식으로 구분된다.

패시브 방식은 카메라 렌즈 주위에서 적외선을 쏘고 적외선을 잘 반사하는 특별한 재질의 마커를 카메라가 트래킹한다. 다수의 카메라가 위치의 절대값을 추적하므로 정확도가 높은 장점이 있다. 모캡의 대상/피사체(보통 모캡 수트를 입은 Performer)가 카메라 시야를 벗어나거나 가려지면 트래킹이 불가능해지기 때문에 캡처 볼륨이 커질수록, 그리고 볼륨 내 캡처 대상의 숫자가 늘어날 수록 카메라의 숫자도 함께 늘어나야 한다. 실내에서만 사용해야 하고 볼륨 내에 반사 재질이 있어서는 안 된다. 소프트웨어의 알고리즘으로 자동 보정을 하지만, 원천적으로는 마커들 간의 구분이 불가능하므로 캡처 중에 손바닥이 뒤집어지는 등의 마커 스와핑(Marker Swapping) 현상이 발생하기도 한다.

액티브 방식은 자체적으로 발광하는 LED 마커를 사용한다. 마커의 반사에 의존하는 패시브 방식에 비하여 발광형은 카메라의 인식 거리가 더 길고, 색상 또는 고유의 깜빡임으로 마커 간의 구분도 가능하다. 말이나 코끼리 같은 큰 동물을 캡처할 수도 있고, <혹성탈출> 시리즈에서는 해당 방식을 사용하여 야외 촬영도 할 수 있었다. 액티브 방식은 패시브 방식의 많은 약점을 보완하면서도 패시브 방식보다 더욱 정교하고 에러도 적다. 그러나 LED 마커의 전원공급 문제로 인해 모캡 수트가 불편해지는 단점이 있고, 장비의 가격이 이미 고가인 패시브 방식에 비해서도 훨씬 고가이다.

관성식은 비광학식 모캡 방식 중에 가장 많이 활용하는 방식이다. 마커를 대신하여 관성 센서를 부착하고 센서의 상대적 움직임을 분석하여 모션 데이터를 생성한다. 관성 센서는 휴대폰에서 사용하는 것과 같은 가속도 센서(Accelerometer), 회전각 센서(Gyroscope), 지자기 센서(Magnetometer)의 조합으로 구성된다. 환경이나 볼륨의 제약이 거의 없고 광학식에 비해 상대적으로 다루기 편하며 저렴하다는 장점이 있으나 상대적으로 정확도가 떨어지고 절대 위치의 오차가 누적되기 때문에 지속적으로 위치 보정을 해줘야 하는 단점이 있다.

페이셜 캡처는 광학식 모캡과 비슷한 방식으로 데이터가 캡처되고 리타기팅된다. 다만 인간의 다양한 표정과 미묘한 근육의 움직임을 담아내야 하므로 모션 캡처에 비해 기술적으로도 예술적으로도 복잡하고 난이도가 높다. 컴퓨터비전(Computer Vision) 기술의 발전으로 인해 마커 없이(Markerless) 트래킹이 가능해졌으며, 최근 <아이리시맨> 촬영 시에는 ILM(Industrial Light&Magic)에서 개발한 Flux라는 시스템을 통해 카메라가 달린 헬멧을 쓰지 않고도, 실제 촬영과 동시에 페이셜 캡처를 진행했다고 한다.

 

제작현장의 창의성을 높이는 혁신

VP는 다시금 제작현장의 필름메이커들에게 창의적인 통제권을 돌려주고, 보다 이른 단계에서 확신을 가지고 중요한 결정을 할 수 있게 한다. 할리우드 현장에서 주목할 버추얼 프로덕션 사례를 소개한다.

 

The Third Floor, <왕좌의 게임>의 인터랙티브 프리비즈

마블 등 할리우드 블록버스터 영화에 참여한 사전 시각화 전문 스튜디오 The Third Floor는 다섯 시즌 동안 미국 드라마 <왕좌의 게임> 작업에 참여해왔다.

그리고 마지막 에피소드에서 여주인공을 잃은 드래곤이 철왕좌를 화염으로 녹이는 신(Scene)을 드라마틱하게 시각화하기 위해 새로운 도전을 했다. The Third Floor는 ‘드라마는 무드, 무드는 라이팅’이라는 접근으로 디지털 아티스트를 미술팀에 투입했다.

<왕좌의 게임> 세트는 프로덕션 후반부까지 온전한 상태로 유지해야 했기 때문에 촬영 감독과 프로덕션 디자이너에게 미리 파괴된 세트를 디자인해볼 수 있는 VR 공간을 만들어 주었고, 뷰파인더(Viewfinder)나 스케일(Scale) 같은 현장 도구의 버추얼 버전을 제공했다. 실시간으로 디지털 아티스트가 VR 공간 내에서 물건을 옮기고 라이팅을 바꾸며 신을 설계할 수 있게 했고, 논의 과정에서의 모든 카메라의 위치와 렌즈 선택 등을 기록하였다. VR 공간에서의 로케이션 스카우팅(Location Scouting, 촬영지 방문 및 점검 과정)을 통해 보다 이른 시기에 장면을 디자인하고 인물과 카메라의 동선을 확정할 수 있었다. The Third Floor 팀은 제약 없고 실제와 유사한 VR 환경 덕분에 창작 과정에서 발생하는 행운의 우연(Happy Accident)의 순간이 찾아오기도 했다고 전했다.

촬영현장에서는 사이멀캠 시스템인 Ncam을 활용하여 사전에 애니메이션이 된 드래곤의 움직임과 실사 주인공의 움직임, 특히 서로의 시선을 정교하게 맞출 수 있었다. 사전시각화 작업을 충분히 하였지만, 사이멀캠을 활용하여 실제 완성될 화면을 합성해가며 현장에서의 미묘한 조정을 수행하였다.

 

존 파브로 감독과 <더 만달로리안>의 버추얼 세트

주인공인 모글리만 데리고 <정글북>을 촬영했던 존 파브로 감독은 현장에서 장면에 따라 그린스크린을 옮기고 조명을 설치하는 시간이 너무 길어져서 절망스러웠다고 한다. 그래서 이후에는 잘 아시다시피 아예 <라이온킹>을 VR로 만들어버렸다. 그의 표현을 빌리자면 ‘멀티플레이어 필름메이킹 VR 게임(Multiplayer Filmmaking Game In VR)’이었다.

파브로 감독은 <라이온킹> 작업을 마무리하는 동안 디즈니의 새로운 스타워즈 TV 시리즈인 <더 만달로리안>을 제작했다. <더 만달로리안>의 현장에서는 VR 대신 대형 LED 비디오월(Video Wall)이 있었다. 배경의 거대한 LED 비디오월과 천장을 빼곡히 채운 LED 조명은 배경의 실루엣이나 하늘의 무드를 실시간으로 바꿀 수 있게 해주었고 화면 속의 물체에 자연스러운 반사를 제공했다. 뿐만 아니라 카메라의 움직임에 맞춰서 가까운 물체와 먼 물체 사이의 시차를 계산하여 정확하게 카메라의 위치에서 바라보는 배경을 렌더링해주었다. 배우들의 몰입감이 극대화 된 것은 또 다른 장점이었다. 수많은 장면이 촬영과 동시에 카메라 내에서 CG 배경의 합성(In-Camera Composite)을 끝냈고, 최종 퀄리티에 못 미치는 장면에서는 빠르게 그린스크린 모드로 전환되어 활용하였다.

 

디지털 혁명과 다음 변혁의 주역

지난 20여 년간 디지털은 모든 것을 바꿔놓았다. 1895년에 뤼미에르 형제가 50초짜리 <열차의 도착>으로 최초의 영화를 세상에 선보였던 순간과 비교하면, 지금은 누구나 영화를 만들고 언제 어디서든 영화를 보는 것이 가능한 시대가 도래했다.

그리고 이제 비주얼스토리텔링의 새로운 시대가 열리고 있다. 버추얼 프로덕션은 AI, 클라우드컴퓨팅 등과 같은 최신 기술들과 계속 결합하여 그 범위를 확장해가면서 영화 및 미디어 제작에 있어 아날로그에서 디지털로의 이행에 버금가는 변화를 가져올 것이다. 10년 후면 누구나 자신의 이야기를 쉽게 시각화하고 애니메이션으로 만들 수 있을 것이다. 한편으로는 영향력 있는 감독이나 배우의 고집스러운 요구가 아니라면, 실제 장소에서 배우들과 소품과 도구들을 채워 넣고 촬영하는 것이 허락되지 않는 시대가 올지도 모르는 일이다.

기술과 주변환경이 무르익으면 어느 순간 자본의 요구로 인해 순식간에 패러다임의 전환이 이루어진다. 기술이 기술자들의 신비로움을 앗아가고 아티스트의 낭만을 공장화 시키기도 하지만, 비주얼스토리텔링의 본질은 변하지 않았다. 디지털 기술이 영상콘텐츠와 미디어 제작의 문턱을 낮췄듯이 다가오는 기술들이 CG와 애니메이션 제작을 쉽게 만들어, 모든 스토리텔러들에게 더욱 무한한 가능성과 도구를 제공할 것이다.

 

끝.

2205, Nambusunhwan-ro, Seocho-gu, Seoul, Korea 06702
+82 2 3444 6459 / contact@mofac.com
© 2018 Mofac Studio, Inc. All Rights Reserved.