【教學新知】數媒系邱子杭老師：「虛擬製作發展的過去、現在、未來」（上）

【教學新知分享：虛擬製作發展的過去、現在、未來（上）】（撰文：邱子杭）

世新大學LVS智能攝製基地

壹、2000年以前虛擬場景的發展

虛擬製作virtual production或前身虛擬攝影棚virtual stage不是一個很新的東西。1940年的《月宮寶盒，The Thief of Bagdad》是第一個綠幕去背的電影，畫面上一個小偷乘著飛毯在天空中飛行，基本上就是第一個特效電影的應用。這部電影是英國柯達兄弟，和美國的柯達底片公司無關的英國導演兄弟檔在二次大戰時期所拍的片子。實際上應用的暗房技術與現在真正我們在電影用的去背概念，雖然技巧上有所不同，但概念卻已相當接近。問題在電影可以在拍攝後無論暗房或數位，可以慢慢地仔細處理去背的問題。但電視攝影棚需要即時的把綠背挖成透明層，並且即時與背景合成，達成這種技術則到了1990年代才有所突破。

電視界的虛擬攝影棚第一個主要的應用，便是在新聞直播上。第一個先驅是1992年NHK，在漢城奧運第一次使用前景拍攝運動賽事的影像，在後面再疊上一個即時合成2D的背景。但是那時候NHK其實就已經在1988年開始進行名叫「Synthvision」的合成研發計畫，在1991年，Virtual Set虛擬攝影棚成立。在這個「Synthvision」的基礎上NHK其實在1991年也意識到了除了合成，該怎麼樣做攝影機追蹤。漢城奧運的2D背景影像可以想成是一張紙片，所以今天實際拍攝的影片若有攝影機運動，那要合成的背景就應該是影片或序列圖檔，跟著攝影機運動同部播出與合成。

其實當時除了日本歐洲很多國家機構與公司都在研究類似的技術。有另外一個Ultimatte公司便在同時研發背景已預先算好的序列圖片同步播出。其實這家公司成立非常早，自八零年代就在研究單色抽相去背chroma key的技術，即時在電視台運用。因為對比先前提到的1940年就有的去背技術，是在暗房的階段把這個綠色抽掉，變成透明，但是電視台應用是需要即時影像就去背處理，可以變成那個直接on檔送出去的情況，這在技術上有完全不一樣的考量。譬如說如何讓這個預先算圖好的影像可以跟前景的影像完全同步，包含同步播出與預先計算攝影機運動資訊並應用等等。

90年代的電視台其實都是一個國家級的資源進行研究，法國的INA，即法國國家聲音影像研究院開啟了名為「Synthetic」的虛擬場景研究計畫，而英德兩國的電視台與相當多公司也不甘示弱，合作進行了「MonaLisa」計畫，觸發了後面研究團隊將成果獨立成商業產品，1994年9月IBC大展公開展示的ELSET就是當時以BBC結合包括德國西門子、賓士、法國湯姆笙等大公司與眾多大學一同研究的成果。附圖即是當時的宣傳單張，應用場域就是BBC的電視節目。
這裡先列舉90年代關於虛擬場景技術的里程碑；

●1990s 先驅：NHK, Ultimatte, INA, Mona Lisa
●NHK: Synthvision(1988), Virtual Set(1991)
●Ultimatte: Prerendered Virtual Set(1992)
●INA(Institut national de l’audiovisuel): Synthetic(1993)
●Mona Lisa計畫：英德兩國大學與企業合作的研究 VAP的商業化軟體ELSET
●ORAD開發CyberSet、Larus 與 Otus，以圖樣辨識追蹤定位
●SGI轉到Windows NT：真正的里程碑

在1996以前的研究成果幾乎都內部專屬的系統，並運算在一種名叫SGI的工作站系統，這種電腦就是價格高昂，每年要付相當昂貴的維護費，因此購置成本都是天文數字。在1997年隨著SGI的生成公司結束營運，這些軟體就進入了Windows NT平台，可在商業PC上如當時HP的高階工作站運行，也就是這些軟體實際上有機會成為商業軟體銷售，可運行的電腦也是買得到的，因此1997年左右電視與後製業界的工作系統才開始真正的商業化與普及化。

Popkin (1997)這篇論文就是說明BBC作為了MonaLisa的領頭，其實建置並測試了很多計畫中的初期系統，並實際應用的心得總結。因此論文概括性的列舉數年來BBC的虛擬場景實作心得，影響操作最重要的幾個重點有：

●良好計畫：搭景/燈光/攝影要能預先溝通。
●精準去背：即時去背技術需要足夠時間設定，配合燈光提亮，系統要能即時去背。
●攝影機追蹤：2D需準確定位，3D目前無論是光學動作捕捉（MoCap）或機械式動作控制（Moco）都無法完全滿足大範圍複合式攝影棚的拍攝需求，各有缺點。
●高階電腦運算力：3D的成像品質取決於算力，雖然電腦突飛猛進，但拍攝端必然會提出更難滿足的需求。
●人機介面：現有影視人才要了解電腦動畫的操作。
●景深：即時合成的前後景的合理深度，要能利用3D影像的深度資訊。
●失焦：3D的失焦模糊難以匹配鏡頭的光學失焦，而且計算量很重。
●花費：3D虛擬場景系統的建置成本高昂，人員或後期的花費亦必須考量。

Popkin (1997) 的論文第一個提到的就是良好計畫，因為虛擬攝影棚並不是一個非常有彈性，隨開即拍的技術。其中包含了像BBC自己研發的攝影機定位系統，這套系統台灣也有一套，目前安裝在文化大學建國校區的頂樓攝影棚。它是利用類似QR code的大型圖案，放置在天花板上排放成陣列，再將電影攝影機旁安裝一個向上看的小攝影機，以影像辨識推算電影攝影機所在位置。

BBC開發的圖案辨識追蹤方案，需要拍攝前精密的校正與推算；追蹤系統可推估位移量，但它這不是一個完整的六個自由度，比方說它的旋轉值解算可能不是那麼好。目前類似的攝影機追蹤系統的旋轉值是利用陀螺儀 (IMU)幫助算出旋轉值，但複合系統要把旋轉跟位移量同步在一起其實是有點困難的。

另一方面去背要能去得好一樣需要縝密的安排。比方說演員的頭髮如果蓬鬆飄逸，在去背算出的alpha層其實是半透的狀態，尤其在Live的情況一點髮絲的影像訊號基本上都像髒掉一樣，其實根本不可能去得乾淨。所以從圖片可以看到BBC若是拍攝即時合成背景，前景人物的頭髮都要包起，從燈光到妝髮都盡量避免碰到困難的去背情況，因此凡事都需要去計畫。

另一個大的技術挑戰是同步，這裡包含實拍攝影機的影像訊號，影像訊號處理去背的帶alpha影像，追蹤實拍攝影機運動的動作捕捉的位移訊號，電腦動畫即時成像，以及現場收音的聲音。這裡每一個因素都有可能延遲，但所有延遲又都不一樣。要把上述因素完美重合在一起其實從論文的1997年到現在都是很困難的事情，更進一步包含了實拍與3D影像的景深要如何匹配與同步，或是攝影機鏡頭自己的鏡緣變形，這些都是現場技術人員需要校正，才能讓實拍與算出來的圖達成時間同步與空間合理，才能完美的合成。但眾多環節的同步難以用科學方法校正，完全靠眼睛耳朵來調整聲音要延遲多少，實拍與動畫又要延遲多少彼此才對得起來。

90年代日本NHK率先做虛擬攝影棚這樣的技術研發，實際上也是SD標準畫質準備轉HD高畫質的年代。其實當時所有的後製廣播規格都是日本的天下，因為它就是Sony跟Panasonic 所有的規格制定這，就是這兩家設定了數位化播放的技術與器材，其他的廠牌如JVC都必須要跟著這些規格開發，所以HD與數位化事實上是一個最大的洗牌。二十一世紀到底法國領導的歐盟能不能在新時代成為一個規格制定者，那以後的東西可不可以是法國廠牌或是美國的廠牌來做，或是未來Sony還有沒有辦法做這個王位，都有很大的變數。所以其實日本是以國家力量非常的積極地在做SD轉HD。

對於後製而言，當時SD流程碰到的困難算是小的，因為技術團隊就只有720X486這樣大小的要追蹤、處理，以及傳送。當FHD時代來臨時，要處理的像素直接多6倍因此上述90年代百家齊放的研究單位與公司當時的技術不見得能在處理效能上跟得上時代，有許多也就像Aurora都退出市場，特別像以色列的團隊至今還存在的廠牌就是Viz RT，透過專營電視台等級的虛擬場景方案，至今在市場上仍有影響力。可是這種從國家級的投入已是過往雲煙，從1997年到今日任何人都可以自己建置，甚至軟體可以開源或不用錢不過二十年，隨著科技的進步虛擬場景方案也從廣播級市場望其他領域拓展。

參考資料
● Hough, Gregory (2015) Towards achieving convincing live interaction in a mixed reality environment for television studios. Doctoral thesis, Birmingham City University.

● Popkin, Danny. (1997) VIRTUAL STUDIOS – THE BBC’S EXPERIENCE,EBU REVIEW- TECHNICAL, no. 272, 21 June 1997 (1997-06-21), pages 19 – 23