AI可以修復聲畫,也能修復回憶嗎?

作者丨何思思

編輯丨林覺民

有一種情懷叫Beyond,黃家駒一開口,誰的DNA動了?

7月3日19點,「Beyond Live 1991生命接觸演唱會精選及紀念音樂會精選超清修復版」在抖音、西瓜視頻、今日頭條等多個平台重映。時隔31年,Beyond再次走進了大眾視野。

一句「今天只有殘留的軀殼 迎接光輝歲月 風雨中抱緊自由」瞬間將人們拉回了1991年9月Beyond在中國香港紅磡體育館舉行的「Beyond Live 1991 生命接觸演唱會」,那場演唱會也成了Beyond播放率最高的一場演唱會。

此次修復版演唱會,從《光輝歲月》、《海闊天空》再到《不再猶豫》...一首首經典歌曲,吸引了1.4億人次的在線觀看。活動結束時,不少人在評論區紛紛刷起「沒有看夠,再回放一次,在哪可以下載高清版視頻」等留言,致敬經典,致敬Beyond。

除了滿滿的情懷和回憶外,在這場演唱中可以感受到,無論是畫面清晰度、色彩飽和度、還是音質降噪等方面都極大地還原了線下演唱會觀看的效果,火山引擎就參與了這場演唱會的修復工作,在其算法的加持下,為觀眾呈現了一場具有情懷的視聽盛宴。

對於抖音和火山引擎來說,其使命不在於修復一場演唱會,提升畫面清晰度和辨識度這麼簡單,而是通過修復喚起幾代人背後的回憶,從而產生共鳴擦出火花,這才是修復的價值所在。

時隔31年,年輕的Beyond 回來了

在各大短視頻平台經常刷到修復版影片的重映,這也成了人們致敬經典的最佳途徑之一,這背後往往需要AI技術的加持。

AI修復影片早已不是一件新鮮事,隨着技術的更新迭代,近段時間AI修復演唱會成了新風口。從修復類型來看,雖然二者都屬於視頻修復的範疇,但卻着較大的差別。

火山引擎音頻技術團隊研究員舒曉峰表示,影視和演唱會的內容和製作方式有較大的差別,其中演唱會是以唱歌的形式輸出,現場環境較影片環境複雜,不僅有環境聲還有歌聲,另外拾音設備也存在一定距離,這就導致演唱會修復要比影視片修複復雜得多。

值得注意的是,畫面通常是演唱會修復的重要環節之一,因為它決定了整體演唱會的觀感。

火山引擎多媒體實驗室研究員趙世傑告訴雷峰網,演唱會的畫質修復並非大家想象的那麼簡單,以Beyond Live 1991 生命接觸演唱會為例,由於當時演唱會整體環境較暗,細節不夠豐富,場景切換快,燈光以及聲音環境複雜等給修復工作帶來了嚴峻的挑戰,從而給算法增加了難度。

趙世傑介紹,早期錄像設備的解析度比較差,拍攝的畫面分辨率低且清晰度差,往往會造成畫面模糊、紋理缺失等問題;壓縮存儲方面,早期影片隔行掃描的方式造成了交錯條紋的瑕疵問題,對畫面的美觀性和完整性都有較大的影響。

另外,色彩、亮度也是修復的一大難點,由於早期拍攝設備的原因,影片存在大量的過曝和死黑場景以及較重的底噪,在亮度調解過程中如何避免底噪被放大,以及如何降低過躁造成的不適感是算法的難點。

其實在畫質修復環節,最難的是人臉,這也是觀眾最在意的點。演唱會中人臉往往會出現多個角度,比如正臉、側臉、俯視、仰視等,甚至有被樂器遮擋的人臉,如何調節不同景別,不同姿態下人像修復效果且跟背景不同,這就對算法提出了嚴峻考驗。

面對這些問題,趙世傑向雷峰網闡述了火山引擎增強算法的應對之道:

清晰度修復方面,基於在大量數據上訓練的深度學習算法,火山引擎通過清晰度增強和瑕疵修復法的能力將視頻分辨率從低清處理變為超高清,並在缺少紋理的區域生成更豐富的細節。

同時對於隔行掃描的視頻畫面,火山引擎多媒體實驗室設計了多幀輸入的神經網絡去交錯法。

趙世杰特彆強調道,這主要在於早期視頻大多採用隔行掃描的方式進行處理、編碼、顯示,會造成現代設備直接播放過程中產生嚴重的閃爍現象。這主要是因為隔行掃描訊號,兩行只有一行有影像,另外一行全是黑的,所以都需要經過去交錯處理,將隔行掃描訊號轉換為逐行掃描訊號。

在這種情況下,傳統去交錯方式一般輸入僅做單交錯幀,對時域上的內容變化感知較弱,因此對於運動場景的拉絲情況處理較差。

與傳統去交錯方式相比,火山引擎設計的多幀輸入神經網絡去交錯法就實現了傳統交錯法無法達到的技術效果,憑藉其泛化性的特點,修復了Beyond演唱會中更多的細節和運動場景下產生的拉絲情況。

通過前後對比效果可以看出,在樂手的手部原本有橫紋拉絲的問題,並且畫面較為模糊,經修復后,無論是琴還是人的手部畫面都完美還原了現場的真實感和清晰度。

亮度、色彩修復方面,針對Beyond演唱會中存在的老舊視頻褪色、顏色異常、過曝、過暗等問題,火山引擎採用了基於美學評分的自適應分區域色彩亮度增強算法。

該算法主要以具體片源效果作為基礎,依據美學評分,在色彩、亮度、對比度、飽和度、人像ROI和背景方面做分區域增強,並根據不同幀的色彩統計信息進行自適應亮度增強,使亮區與暗區都能得到最好的表現效果,還使修復老舊視頻的褪色和保留老舊視頻的復古感,兩者之間達到了平衡。

人臉修復方面,演唱會很多片段中的人臉存在較大的彩色噪聲,壓縮損傷等問題。另外據了解目前業界大部分的人臉修復只是基於單張照片,很難找到基於視頻的人臉修復,因為視頻中每一幀中臉的角度不一樣,各種姿態下的臉都需要算法處理。

火山引擎重點突破,基於深度學習模型,在Beyond演唱會修復中採用自適應人像增強算法進行修復,通過先驗特性,在消除人臉模糊和壓縮損傷的同時還可以對五官進行重建,甚至可以對髮絲等細節和紋理進行重建和添加,做到不同景別、不同姿態下的人臉修復工作,使人臉更為清晰。

從整體演唱會的主觀感受上看,修復后的畫面更清晰、更真實。

有用戶在評論區留言,修復后的演唱會有一種現場觀影的即視感,歌手樂手的臉部以及樂器舞台等細節,清晰可見,有一種置身Beyond Live 1991生命接觸演唱會的感覺。

時隔31年重現,Beyond歌聲不減「現場」

大多數人認為,高清的音質能提升整個演唱會的完整度和精緻度,也會極大增加觀眾的觀感。

對於Beyond這類能觸發人情懷的經典演唱會更是如此,修復的好可能熱評如潮,修復不好可能就是一場悲劇。

在Beyond這場演唱會修復過程中,音質同樣給修復帶來了不同程度的困難挑戰。

舒曉峰向雷峰網介紹了音質修復的難點:

  • 其一,由於錄音設備和環境的噪音導致音質差,加上周邊環境會錄製到一些底噪聲;

  • 其二,設備壓縮算法等導致截止效率低帶來的帶寬不足問題;

  • 其三,混響過大導致音質差以及響度問題帶來聽覺不適等問題。

為此,火山引擎音視頻技術團隊做了針對性研究,並給出了相應的解決方案。

首先,面對噪音干擾問題,舒曉峰表示,目前業界大多採用傳統降噪方式,但其特點主要適用於人聲,音樂被降噪算法處理後會受到不同程度的損傷,而演唱會是一個人聲、音樂聲,現場環境聲等交雜的聲音環境,顯然傳統降噪方式不適用於演唱會的音質修復。

考慮到這點,火山引擎研發了針對這種多元素場景的音頻降噪算法,與傳統降噪方案不同的是,該算法兼容了音樂場景和人聲場景,可以在保留人說話聲、音樂聲的前提下,抑制其他噪聲。

其次,帶寬也是影響演唱會音質的關鍵要素。舒曉峰告訴雷峰網,演唱會中由於拾音設備、錄製硬件或者壓縮等原因,會使高頻信息受到損傷,影響聽覺體驗感。基於此,火山引擎通過音頻超分算法,對人聲部分進行了頻帶拓展,在不傷害音質的前提下豐富高頻信息,使聲音從悶變得更清亮。

從頻譜圖中可以看到,通過超分模塊的處理,原始音頻的高頻部分得到了拓展和增強。

再者,演唱會往往伴有不同的樂器聲,觀眾歡呼聲以及現場各種忽大忽小的聲音,火山引擎通過響度算法單獨提取唱歌部分,然後進行調整,最後混合,使得人聲和其他聲音的音量配比更加舒適,從而提升觀眾的聽覺感受。

值得注意的是,此次修復演唱會是由1991 生命接觸的演唱會和紀念音樂會音樂會兩部分組成。舒曉峰表示,這極大增加了修復難度,為了避免兩部分音量不同,對兩場演唱會的拼接部分做了響度調整,此外也對前後兩部分不同歌手的音量大小做了響度調整,極大提升了聽覺體驗。

通過Beyond演唱會的重映,許多觀影者都給予了高度評價,不少人表示,不僅畫面清晰,音質方面也體驗到了線下聽演唱會般的聽感。

老舊視頻修復,Beyond之後又是誰?

AI修復視頻,已經成了近兩年許多廠商感興趣且願意花費時間精力去做的有意義的事情,其也逐漸成為了諸多平台新的增長極。

視頻修復方面,其實火山引擎早在去年就有了動作。去年10月,西瓜視頻就聯合火山引擎推出了「經典視頻4K修復計劃」。不到一年的時間,已經通過AI 技術手段完成了百部經典動畫片的修復,其中包括71部影片的4K修復,童年記憶《葫蘆兄弟》的播放次數達到300萬。

火山引擎能完成如此高質量的修復任務,主要是在視頻雲方面的技術積累和成功實踐。同時抖音、西瓜視頻、今日頭條等不同場景還為其提供了試驗田。

據介紹,火山引擎視頻雲通過技術的積累,可以為用戶的四大體驗負責,包括互動、播放、畫質、性能四方面的體驗感。在優秀的用戶體驗的加持下,火山引擎的音視頻技術已經滲透到了遊戲、電商、教育以及金融等行業。

老舊視頻的修復才剛剛開始,從經典動畫片到演唱會,再到更多的經典影像修復,仍需要通過不斷的技術迭代來實現。


想在手機閱讀更多攝影設備資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems