「動態舞台視覺設計」這門課程在原有 Resolume Arena 教學基礎上,嘗試導入 TouchDesigner 作為輔助工具,並進一步結合 AI 即時生成圖像方案,拓展互動與視覺表現的可能性。此做法讓學生能快速取得所需素材,降低過往因動態影像或影視軟體技術不足而造成的學習門檻,特別有助於跨系學生修課。
教學發展中心與您分享【教學新知】圖傳系劉乃瑋老師:TouchDesigner節點式視覺程式設計工具結合AI即時生成的可能性。此文將介紹兩種關於StreamDiffusion外掛元件之間的差異,與TouchDesigner 結合後的使用方式。
歡迎各位教師參閱!
撰文: 圖傳系劉乃瑋老師
在圖文傳播系開設的「動態舞台視覺設計」課程原始內容是教授Resolume Arena,後因時勢所趨和想探索更多的互動和表現的可能性,於這學期嘗試導入TouchDesigner作為輔助教學工具,在搜集及研究此軟體的用途與使用場景時習得了結合AI工具的方案資訊,此方案可仰賴AI既時生成圖像的優勢,後導入至TouchDesigner作為互動表現的素材來源。此方案可輔助學生便利及快速生成所需素材於表演視覺中應用,解決和降低以往動態或影視軟體技能較弱或外系學生修習這堂課的門檻。
此文將介紹兩種關於StreamDiffusion外掛元件之間的差異,與TouchDesigner 結合後的使用方式。
一:何為Stable Diffusion?
Stable Diffusion:一種流行的人工智能繪畫技術,屬於擴散模型,能將使用者輸入的文字描述轉化為逼真且富有細節的圖片。為Stability AI人工智能技術的公司所開源。
Stable Diffusion系列有多個大模型,包括:
- Stable Diffusion v1:這系列常用的是SD1.5,也是最早開源、使用最廣泛的模型。
- Stable Diffusion v2:常用的是SD2.1。由於SD2.1推出之後不久Stability AI也推出了SDXL, SD2.1也成了短命的一代模型。
- Stable Diffusion v3:最新的V3系列的模型是SD3.5。但Stability AI 它並沒有把它完全開源,因為它新增了用戶使用的協議,要求SD3.5只能適用於研究、非商業和年收入不超過 100 萬美元的個人或者組織才能免費使用。如要商用,需要額外的授權。
- SDXL:Stable Diffusion XL是用得非常多的一款模型,這一款模型相較於SD1.5,它的圖像訓練集成了1024×1024,可以去運算更大分辨率的圖像。
- Stable Diffusion Turbo:一般性會提及兩種,分別是SD Turbo和SDXL Turbo。相較於原始的SD2.1和SDXL而言,Turbo 模型它只需要1~4步驟既可以完成生成一張圖片。無論是SD2.1還是SDXL,基本上都要20 到30步驟之間才能夠生成出一張精細圖片。
- Flux:Flux並不是Stability AI公司所開源,而是由Black Forest Labs所開發和開源,也是非常優秀的系列模型。
*於此方案使用流程中,採用 SD Turbo模型。
二:ComfyUI與Stable Diffusion之間關係?
ComfyUI作為Stable Diffusion的可視化工具和圖形用戶界面(GUI),讓不熟悉代碼的使用者也能方便地操作和組合Stable Diffusion模型進行AI出圖。它不僅是Stable Diffusion的圖形用戶界面,還集成了多種AI API,形成了強大的社區生態,極大地降低了AI繪畫的門檻。
三:StreamDiffusion與Stable Diffusion之間關係?
StreamDiffusion並非新的生成模型,而是專為擴散模型設計的推理加速與優化框架,旨在實現Stable Diffusion更快、更流暢、持續的圖像輸出。StreamDiffusion與Stable Diffusion一樣沒有GUI操作界面。需要寫代碼並運行Python腳本才能夠使用。但借助導入TouchDesigner後,可創建個人化GUI操作界面,讓使用者更便利地去調整參數。
四:如何在TouchDesigner中使用StreamDiffusion。需下載安裝以下兩種外掛元件:
(1)「StreamDiffusion TD」
為紐約TouchDesigner創作者Lyell Hintz, aka Dot simulate所開發 (可於該作者Patreon: https://www.patreon.com/dotsimulate內付費訂閱獲得此元件),此外掛元件的優點為可直接調用本機的顯示卡算力,使得出圖的frame rate更加穩定。而缺點是此外掛元件在Mac電腦的環境下是無法運行的。
(2)「StreamDiffusion XGC雲端算力版」
為中文TouchDesigner教學者Jisen所開發 (目前作者於網路免費開放下載使用測試),此外掛元件可直接調用雲端服務器的算力。徹底解決了本機顯卡性能不足和Mac環境運行困難的問題。缺點是需要支付租賃雲端服務器的費用,同時會受到網速波動的影響,無法像本機運算一樣提供穩定的frame rate。
(示例:僅透過TouchDesigner的NoiseTop元件即可快速生成想像的圖像)
使用此雲端算力元件時,Windows用戶僅需下載Python一鍵安裝包並指定路徑,Mac用戶需安裝MiniConda並創建Python虛擬環境、安裝必要庫、配置TouchDesigner環境變量,並先於雲端平台租賃並設定StreamDiffusion鏡像服務器,獲得服務器地址後連接到TouchDesigner中。連接服務器後,即可輸入提示詞、調整Step參數(控制圖像精細度和算圖速度)、緩存圖像(優化過渡效果)和持續發送(保持畫面更新)等功能。
五:StreamDiffusion與ComfyUI的對比
StreamDiffusion與ComfyUI算圖對比:通過實際測試,StreamDiffusion在使用SD Turbo模型時,其畫面流暢度(frame rate)明顯高於ComfyUI,更適合即時AI生成應用,而ComfyUI則在圖像精細度方面有優勢。另外因ComfyUI 本身是調用Stable Diffusion擴散模型。StreamDiffusion本質也是調用Stable Diffusion,只不過StreamDiffusion重新優化了通道,進行了推理加速,所以相較於傳統的 Stable Diffusion 而言,它的生成速度會更快。
(StreamDiffusion與ComfyUI生成圖像流暢度之比較)
(作者以livecam自拍形式透過StreamDiffusion與ComfyUI即時轉化圖像之比較)
六:StreamDiffusion是否支持ControlNet和IP Adapter等高級功能?
Dot simulate開發的「StreamDiffusion TD」插件支持ControlNet和LoRA。而Jisen所開發的「StreamDiffusion XGC」目前僅支持LoRA,其原因為StreamDiffusion主要用於快速出圖,實際體驗中ControlNet 2.1與SD Turbo模型結合時frame rat會下降,其可控性也不佳。所以除了SD Turbo外, 因LoRA對畫面風格的影響力還是較大,因此Jisen作為開發者推薦訓練LoRA即可。
七:LoRA介紹(補充)
LoRA (Low-Rank Adaptation):一種輕量級的模型微調方法,通過訓練少量參數就能使模型適應新的任務或風格,常用於Stable Diffusion中對畫風、人物或物件進行特調。使用者可調用預設的LoRA模型,並通過調整權重來控制風格影響。LoRA模型訓練完成後,可下載到本機,將其傳至StreamDiffusion服務器,並在TouchDesigner外掛元件中刷新LoRA列表,選擇並應用新訓練的LoRA模型,通過調整權重和提示詞,成功控制StreamDiffusion生成具有特定風格的圖像,實現了從訓練到應用的完整閉環。
(使用SD Turbo與LoRA模型生成之差異)
教學發展中心「教學新知」長期邀稿:
「教學新知」邀稿文章,圖文內容不拘,建議在1,500字以內。內容亦可運用附圖或相關超連結,來提供相關引註資料。來信賜稿請寄至教發中心E-mail:ctld@mail.shu.edu.tw。稿件若經採用,將刊登至教學發展中心網頁(https://reurl.cc/9vKAbY),並寄發至全校教師電子郵件。