直播已然成為電商重要的營銷方式，但真人主播存在人工成本較高、開播時長限制等問題。嚴選除了APP自建直播，也在淘寶、京東等渠道展開了直播業務。為低成本地覆蓋更多直播場景，嚴選與伏羲合作，自研了一套能24H自動進行直播和交互的虛擬直播技術體系，已在多個渠道落地。本文將從技術架構、虛擬人技術、素材自動生成、智能交互等幾方面介紹相關實踐。

1. 背景

經過多年發展，直播已成為線上電商平臺的一個重要的推廣和銷售模塊。直播間中高性價比的商品、豐富全面的商品介紹以及主播用戶之間的互動，促進了用戶觀看內容并下單，越來越多的用戶也開始通過直播來了解品牌、購買商品。為充分利用直播場景，嚴選的技術團隊也開始探索在這個環節中，除了日常的內容運營，是否還有其他角度能夠切入，進行降本增效的空間。

1.1 真人直播

在以往正常的直播中，一般有1到2個真人來到直播間進行實景錄制，為觀眾進行商品的講解和演示，主播也會通過后臺系統或者手機獲取觀眾的評論，與觀眾進行交互。真人直播的形式，非常適合一些需要試穿、試吃的環節，直播中實時的反饋互動，也會給人以比較強的信任感，取的較好的帶貨效果。

但對于一些品牌運營方和直播公司來說，真人主播同時也會存在一些固有的痛點需要解決。

成本

由于體力和節假日限制，真人難以長時間連續開播，特別是對于深夜、假期等。
真人直播的成本包含場地、設備、人員費用等，與直播間數量線性增長，特別是一些小店，投入產出ROI不容易控制。
主播對于個人形象、口才有一定要求，流動性和個人政策風險（如薇婭等）較高。

內容

受限于實地場地和實物限制，直播間能夠展示的內容和互動形式相對會比較單一。
主播在直播過程中容易因口誤、緊張等原因導致一些錯誤，帶來不好的影響。

1.2 嚴選遇到的問題

嚴選作為一個電商平臺，也建設了自己APP的直播體系，全天候的會有直播播出。同時嚴選作為一個商品品牌，在其他第三方渠道和平臺，如淘寶、京東、抖音上也會開店，開展相應的直播業務。

目前嚴選在全渠道已開設數十個店鋪，因店鋪類型不同和平臺要求，直播內容也需要有所區別。但如果每家店都要開展真人直播的話，則需要分別聘請同等數量的直播團隊來進行覆蓋，這對直播的運營管理和ROI控制都帶來了一定的挑戰。

2. 解決方案

2.1 方案特點

在了解到這些問題后，技術團隊從技術角度考慮如何能夠切入這個場景，既利用了直播的關注度和流量，同時又充分控制隨著店鋪數量增加而線性增長的成本。經過一系列調研，嚴選人工智能團隊和網易伏羲合作，通過引入AI虛擬人驅動，構建一個綜合了虛擬形象、人機對話、實時直播推流等多種技術的虛擬直播系統。

系統具有如下特點：

7×24小時、多平臺隨時為消費者講解商品賣點
一對多在線解答用戶商品問題，增強互動
高精度虛擬人技術，給用戶高質量體驗

這種系統的好處有：

降低成本，一個店鋪的直播開展只需要一小部分算力，而不再需要人工和場地
全時段直播，不錯過任何流量
AI智能互動，復用海量商品知識庫和先進問答能力
新鮮的內容和形象，與品牌調性一致，有利于差異化競爭

當然也可以直觀發現，這樣的系統會高度依賴虛擬直播內容的質量、數量、虛擬人的外觀形象、智能互動系統的智能程度等。所以要做好一個虛擬直播系統，就需要分別解決這幾個子問題。

2.2 技術架構

經過可行性調研和實際實踐，嚴選目前形成了如下的虛擬直播技術架構：

系統可以分為四層：

最底層是直播任務的基本配置，包括直播間的排版、最原始的劇本內容、開播時間、是哪個渠道的開播等，技術棧為一般的后臺配置系統相關。
第二層是直播內容的控制，決策現在需要播出什么樣的內容，以什么形式播出，劇本是否實時調整。這里技術會涉及任務流調度、數據爬蟲、智能問答、WebSocket雙向消息通信等。部分內容可能會通過評論區直接展示，不再傳遞到渲染層。
第三層是渲染層，會將所有需要播出的內容聚合疊加到一起，按照預先定義好的排版進行渲染，生成符合要求的視頻流數據。這里的技術會涉及WebGL渲染、前端排版、人物建模、語音合成、動作生成等。
第四層就是直播內容的推送，將第三層構建好的視頻數據推流到特定的渠道中（如嚴選APP、淘寶等）。主要技術有RTC推流、虛擬攝像頭生成等。

可以看出，整個系統本身不與特定渠道強綁定，比較獨立，跟渠道綁定的劇本和相關配置可以通過配置系統動態生成或者支持實時修改。其中第三層的虛擬人部分與伏羲合作，目前是一個 Web SDK 或者 Unity客戶端的方式提供，通過接口輸入需要播報的文本，自動產出動作視頻和語音，然后再由前端系統整合到最終的畫面中。

如果從內容生產的角度來看，整個系統的本質就是不斷實時生產各種類型的內容，同時動態決策下一階段的內容，并把他們進行有機整合的過程。最后接一個直播推送即可。

而如果從數據流的角度簡化來看，虛擬直播項目可以拆為核心的如下五個步驟：

播出內容的預準備
內容的排版和渲染
內容的推送
收集用戶反饋
根據用戶的反饋，智能決策下一步內容，回到第一步

2.3 VS中之人虛擬直播

也許也會有人在B站或者其他媒體看到過一些虛擬人直播，比如二次元的若天依、寫實的許安一、金桔2049、A-Soul等，其畫面和人物的靈活度相對會很高。

那這種直播又是如何產出的呢？與我們要介紹的系統有什么聯系呢？在完全自動的虛擬直播出來之前，為解決內容產出新穎度、主播形象虛擬化等問題，市場上出現了中之人類型的虛擬主播。其實現方式是先通過2D或3D建模出一個虛擬形象，然后通過面部捕捉和動作捕捉，由一個真人在背后驅動虛擬人進行直播活動。

Bilibili上大量的二次元博主也采用了這一類型的直播方法。這種方法在業界被稱為中之人直播，根據其所采用的技術方案，會分為面部動捕、半身動捕、全身動捕幾個層級。要達到比較好的演出效果，一般都需要采用全身動捕的方案（如下圖）。

中之人直播因其給后期特效制作帶來了非常大的改造空間，所以效果上容易做的比較標新立異，從而從普通的直播內容中脫穎而出（如抖音的金桔、許安一）。但中之人直播本質上也沒有解決真人直播時長覆蓋、成本高、容易出錯的影響，同時動捕等設備的引入，也帶來了一些額外的設備成本。這種方案比較適合直播間比較少，專注做娛樂導向內容，制作經費充足，有專業演員和后勤保障人員的團隊使用。

下面使用一個表格來對比一下真人直播、中之人直播、純虛擬直播三種直播方式的差異：

	真人直播	中之人直播	純虛擬直播
場地需求	實景場地	特殊綠幕場地	無
設備需求	補光燈、攝影機等攝影器材	根據技術類型，有動捕設備、光學設備、攝像機等	服務器
人員需求	主播、助手等	專業演員、助手等	無
內容編排需求	選品、主播個人發揮	演出劇本、主播個人發揮	固定策略和劇本
內容優劣勢	主播個人魅力，信任感高，效果上限在主播	內容新穎，才藝展示多，效果上限跟主播和特效團隊相關	內容相對固定，信任感較差，效果上限在技術團隊
內容導向	帶貨或娛樂	娛樂、虛擬偶像	帶貨
推流方式	標準推流	標準推流	標準推流
總體成本	較高	高	低

可以看到三種直播方式主要是在內容生產方式、對設備和人員依賴上有比較多的差異，但最后都是通過一樣的方式將內容進行推送。我們要介紹的虛擬直播主要是從節約人力的角度切入，但同時也確實存在內容吸引度、信任度不足的問題。

3. 實踐細節

以下將從虛擬人技術、素材自動化、智能交互、直播控制幾個方面介紹相應的技術細節。

3.1 虛擬人

虛擬人可以說是虛擬主播的核心靈魂，承擔了主播中"人"的一環。其需要跟真人一樣，能夠說話、有合適的表情、肢體動作，并且視覺上要比較接近真人。這里嚴選和技術相對成熟的伏羲合作，引入了伏羲的虛擬人技術，以Unity客戶端或Web SDK的方式引入到項目中。輸入一句文字，客戶端即會開始進行語音講解，同時搭配上合適的表情和動作。

這里會涉及四個子任務：

語音合成，如何合成更接近真人音色、音調、抑揚頓挫感覺的聲音
表情生成，根據語音，其對應的表情和口型如何處理
根據語言的語義，此時的肢體動作如何進行合理的搭配。
上述三個內容如何進行時間軸對齊，達到聲音和視覺統一。

上述技術在本篇文章中不再過多介紹，感興趣的同學可以通過伏羲的相關文章進行學習和了解，比如在《Audio2Head: Audio-driven One-shot Talking-head GeNERation with Natural Head Motion》論文中，提出了一個通過語音輸入自動輸出頭部說話視頻的方案Audio2Head。該方案對頭動單獨建模，提出基于空間編碼的神經網絡進行自然的頭動序列預測。為了對語音相關的整張圖像的運動進行建模，伏羲團隊提出了使用語音先驅動生成整幅圖的稠密運動場，再由稠密運動場引導圖像合成。那如果人物模型本身如果已經是3D建模而來，那么整個頭部的動作預測的空間就會更小，大部分只需要轉化為指令集的映射即可。

3.2 素材自動生成

虛擬人是承接內容講解的“講解員”，而講的好不好，更多是由被講解的內容本身決定的。真人的話，因為其會發揮其個人的主觀能動性，會有試用試吃的真實感受、還有作為推銷專家的一套特定話術，然后再綜合商品本身的一些標準參數和設計構成直播的講解過程。

而虛擬主播按照目前的智能程度，想完全通過自動達到真人一樣的效果是不現實的，所以還是需要依賴真人的協助來產出高質量的文案和商品介紹，只是產出的結果可以讓機器自動無限次自動利用。這樣需要人工協助的方式存在一個問題，面對海量需要講解的商品，讓每一個商品的素材劇本都通過專家來生成，是不現實的，成本也非常高。

所以這里從技術出發，需要機器和算法的力量來參與到這個過程中，起到的作用有兩個：

針對部分非熱門長尾商品，嘗試利用已有的其他素材來直接自動化構建劇本
針對熱門商品，嘗試先挖掘出一些潛在的賣點和可用素材，提供給人工，輔助編寫精致的高質量劇本。

具體展開，根據素材類型的不同，會有商品標題、商品文案、商品視頻、游戲素材等不同的構建方式。針對這些素材的自動合成，嚴選也構建了一套對應的技術支撐體系，涉及NLP、CV等領域的多種技術，粗略地可以分為基礎能力、素材挖掘和模板編排三個層次。

基礎能力：包含一些最原子化的服務，如OCR圖片文字識別、NER實體識別、業務詞典、細粒度情感分析等。
素材挖掘：使用NLP技術從嚴選的UGC和PGC內容中抽取優質的評論、商品標題以及賣點等信息，同時為了滿足互動游戲的需求，也會使用圖片來生成一些低成本的游戲視頻。
模板編排：結合挖掘的商品靜態信息，加入商品的促銷活動、排行榜等動態信息生成文案；另外，從商詳頁匹配對應的圖片信息，進行圖文匹配展示；為了提升貨品的表現力，部分圖片會轉化為動態的視頻。

3.2.1 商品標題

直播場景下，每一個商品最重要的信息就是標題。而傳統的淘寶風長標題（“汽車遮陽傘車窗遮陽簾防曬隔熱遮陽前擋風玻璃板罩車載用內側窗簾”），或者文藝風標題（“譜寫愛的篇章，莫扎特鋼筆墨水禮盒”），并不適合在直播間這樣文字展示不宜太多的地方使用。一般虛擬直播合適的排版留給商品標題的空間只有8個字左右。

所以如何給這些商品產出相對較短，但保留核心信息的短標題, 就成為了一個需求。

為了解決這個需求，嚴選借鑒業界比較經典的改進版transformer端到端模型，可以把這個過程理解為摘要抽取的過程，從原來一個較長的句子中把關鍵的信息摘要提取出來。

但是這個seq2seq模型的訓練也需要一定量的標注數據。為了解決標注數據冷啟動的問題，這里用了啟發式方法，基于依存句法樹和NER模型生成一些規則來提取短標題，以一個實例講解，如下圖所示。

獲取中心詞：使用NN獲取表盤、女式、腕表，根據中心詞表，選取女式腕表作為中心詞。
利用依存關系擴展修飾詞：抽取compound:nn和amod等dep來擴展。

再使用NER來補充修飾詞：例如“瑞士”表示產地，最終獲取“瑞士小表盤女士腕表”

對于算法策略產出的數據，人工再進行一定校驗即可。這樣構建樣本數據的速度比單純人工手寫的方式會快很多。

3.2.2 商品文案

商品播報劇本的形式一般是圍繞目標商品展開的約200-300字的介紹文案，需要介紹商品的基本信息和重要賣點，同時穿插一些促銷信息。所以為了綜合內容豐富度、可讀性和業務需求，主要采用的是抽取式和模板方法相結合的方式。對于抽取式方法主要流程如下圖所示：

素材篩選
原始候選的素材除了PGC達人文案，也會考慮更加接近地氣的UGC用戶評論，使用摘要模型和規則抽取評論信息。素材獲取的過程盡量保證賣點多樣性，例如床墊內產品，需要同時考慮功能（透氣、除螨）、軟硬程度（偏軟、偏硬）和厚度（25cm）等；這一部分可以理解為原始素材的召回過程，構建賣點-》短文案的語料庫。
文案生成
在獲取原始的候選素材后，第二步在文案生成模塊中，使用了pointer-generator transformer模型。模型既可以從原始的詞表中抽取核心的賣點，保證生成文案的可控性和相關性；同時從大詞表中抽取文字，可以保證文案的流暢性和可擴展性。
同時，考慮到部分長尾類目沒有講解的數據，需要使用人工模板來生成文案內容。
電商場景下常見模板如下：【商品出場介紹】+ 【促銷活動】+【賣點列表】+ 【用戶評論】 + 【促銷活動】+ 【下單話術】

質量評估
最終為了滿足業務上線要求，文案會使用預訓練模型判斷流暢度；同時根據廣告法以及運營業務經驗等，使用關鍵詞來剔除低質量文本。

3.2.3 游戲素材

為了提升直播環節的趣味性，直播間會設計一些小游戲，典型的會有你畫我猜游戲。直播畫面出現一個簡筆畫或者抽象畫內容，繪畫的內容是一點點出現的，然后用戶在評論區輸入答案進行競猜，最先答對的人可以進行抽獎。那從技術角度要解決的就是如何快速自動生成這些游戲素材視頻，滿足需求。

我們的做法是首先從quick draw網站中，搜到了很多不同的有趣圖片。例如如下的螃蟹圖。接下來需要把它轉化為逐幀的視頻文件。方法很簡單：

劃分圖片為小連通圖。通過廣度優先遍歷，按照圖片的點陣分為一個個連通圖。
逐個繪制連通圖。將每個連通度按照深度優先的方式進行繪制，并且保存為圖片。
按一定幀率逐幀拼接為視頻。

最近我們也注意到一些Text2Image模型，如CogView，DALLE等，輸入一個自然語言文本，即可生產一個對應的圖像。這種模型也很適合批量生產你畫我猜的游戲素材。

3.3 智能交互

虛擬主播場景中，交互的方式是，用戶在評論區輸入需要關心的問題或者話語，后臺程序收到后進行解析和判斷，然后在評論區文字回復，或者生成內容讓虛擬主播進行口頭播報、甚至實時生成一個多媒體內容，放在直播間進行渲染展示。

虛擬主播的智能交互部分，嚴選團隊這邊考慮其和智能客服會有非常高的相似度，所以是在已有的智能客服體系的基礎上，進行了一定的改造而成。雖然兩者的場景會有一定的不同，但其最核心的問題匹配算法、知識庫存儲方式其實都是一樣的，這里只做一些簡單的介紹。

	智能客服	虛擬主播
交互人數	1 VS 1	1 VS N
會話環境	某個訂單頁或者商詳頁等入口	某場直播
目標	售前、售中或售后	售前
用戶輸入	文字、圖片、訂單等	評論區評論
回復方式	文字、圖片、SOP等	評論、主播口播、直播內容
知識庫	商品知識+業務知識	商品知識+業務知識

在虛擬直播中，用戶關心的問題會包含商品咨詢、促銷咨詢等，少量會包含閑聊，主要使用意圖分類、文本匹配、知識庫檢索來實現。

3.3.1 知識庫

智能問答最重要的核心就是知識庫如何構建。嚴選知識庫的存儲主要分為兩類，一類是圍繞業務構建的，基于標準問題-相似問題-答案構建的FAQ知識庫，如“什么時候發貨”、“抽獎什么時候開始”相關的各種說法和解決方案。

另一類是圍繞商品構建的知識圖譜，包含了商品屬性、商品賣點、商品促銷信息等。其他類型的非結構化數據，如商詳頁的圖片、活動規則等，也會先通過算法抽取加人工標校驗的方式，轉化到上述兩類知識庫中。當用戶的問題輸入后，就可以針對這兩個知識庫進行特定的檢索和匹配，即可回答。

所以想做好智能問答，就需要先做好知識庫。而知識庫構建中有一個重要的環節，就是不斷添加用戶關注、商品相關的新知識。傳統的方式都是人工一條條去編輯和截圖等方法生成，費時費力，那有沒有更好的辦法呢。

在嚴選的商詳頁中，其實就有非常多的可以回復用戶的知識，比如用戶常常咨詢的商品尺寸、模特展示、對比大小的問題。這類型的問題，答案采用圖片的回復而不是單純的文本，會更直觀。這里圖片問題與答案抽取的方式，我們借鑒了CV中的目標檢測方案，即將需要截取的圖片答案作為目標檢測任務的groud truth。

比如一款包的商品，我們想把包的尺寸信息抽取出來作為圖文答案

抽取的過程可以類比CV的目標檢測，先定義出我們需要的商品知識類型，如使用場景、模特試穿、尺碼說明、試用說明等，檢測目標就是對應內容的截圖，然后訓練一個對應類型的目標檢測模型即可。當然為了構建一個目標檢測模型，也需要提前構建一個有標注的目標檢測數據集，這邊嚴選基于預訓練的公開模型，再標注了千級別的樣本，即可檢測出常用的幾種商品目標。

3.3.2 問題匹配

當知識庫構建好之后，就需要合適的檢索方法。匹配模型是當前識別模塊的主干部分，現有的大部分用戶回復都是從匹配模型中查找返回。被匹配的是知識庫中的標準問、相似問，也可能是商品屬性名等。

匹配模型本身是一個雙塔結構，在訓練時，使用歷史的用戶點擊問題數據作為訓練樣本，下圖是模型的主要結構。

整體會分為線上和離線兩個部分：

離線：
離線部分會預先存儲知識向量和相關的索引，同時知識庫的知識變更時，知識向量也會同步修改或新增。
在線：
在線主要拆分為召回和排序兩塊，用戶輸入"為何取消"會預先使用elastic search和向量檢索，從知識庫中找到和用戶咨詢問題相近的50個知識，排序模塊再對此50個知識重新排序，最后輸出排序結果

意圖識別模型

意圖識別的模型是為了補充匹配模型的不足新增的模塊，對于部分常見且穩定的用戶問題，比如大部分售后的退換貨維修等問題，意圖識別模型更適合這種量大且穩定的知識，引入意圖識別模型可以提高其準確率和直接回復率。

意圖識別模型內部分為兩個小模型，即層次分類模型+小樣本模型的結果融合。

3.4 直播控制

以上介紹的都是每一場直播內部會用到什么樣的內容和機制，那么對于直播任務本身的控制又是什么樣的呢？

一般的后臺項目，都是以接口的方式對外承擔職責，一個數據請求發進去，返回一個經過復雜鏈路的數據回來。而虛擬直播不同，因為它最后要生產出可以觀看的內容，并且實時不斷將視頻流上傳到特定的數據通道中。生產可觀看內容的過程，往往還需要借助如Windows 這種帶有 GUI底層支持的系統的能力，不能直接部署在centos這種傳統的服務器中。

另外需要說明的是，每個直播任務，基本需要獨占一個系統實例，在直播過程中就無法再承接其他直播任務，等直播結束后再等待下一個任務，如此循環，由N臺機器分別完成N個直播任務。

4. 未來展望

綜上所述，直播已成為電商營銷的重要一環，嚴選開展直播業務遇到了店鋪多、成本線性增長等問題。針對這些問題，技術團隊提出了自研的虛擬直播方案，并從素材生產、虛擬人使用、直播任務調度等進行了多方面的實踐。相關方案已在主要渠道（APP、淘寶、京東、拼多多）進行落地，持續產出業務收益。

可以看到的是，在虛擬直播項目中，對于內容的生產是最為核心的一個環節。如何產出高質量的內容，給與觀眾信任感、高級感是一個需要長久解決的問題。另一方面，跟真人的內容相比，虛擬直播是否有一些獨特的差異和優勢呢？這里我們想到有3點：

4.1 3D化場景

一般的虛擬直播都是平面的2D場景，看久了會比較枯燥。現在3D渲染技術也已非常成熟，是否可以把虛擬直播的場景也改造為3D，同時虛擬人可以在這個空間進行一定的行走和互動。相關商品的展示也可以3D化，以展覽的方式進行陳列。

這個方式相比真人直播間會有較大的差異點。一般真人直播間都是固定攝像機，主播必須固定在一個固定的桌子上，排版會比較固定。而3D化虛擬直播能夠提供更多角度和更大寬度的空間進行展示。

4.2 直播矩陣

嚴選的商品會有很多類目，不同類型商品的受眾也會有巨大的不同，比如貓糧的買家普遍會對動物有比較大的好感，而經常買游戲周邊的玩家自然會對二次元有更大的接受度。所以這里有一個可以優化的點是說，針對不同直播間和商品的直播，可以構造一個由不同類型、形象、音色的主播構成的主播矩陣。

直播時，就可以根據當前的需求和用戶群，自由調配合適的主播上場。而真人主播，如果想同時培養這么多不同類型主播構成的直播團隊，并且隨時進行調配，幾乎是很難實現的。但這個事情如果從虛擬直播角度來實現，就會有比較大的可行性了。

4.3 真人伴播

我們在推進項目的過程中，同時也與真人直播團隊進行了大量的交流，收集了他們的很多需求。比如在直播過程中，往往會有很多用戶會提很多問題，比如“25號的羽絨服還有貨嗎？”、“這個商品能疊加紅包嗎？”之類的問題，而主播受限于注意力，不可能每一個問題都能夠回答。

這個時候如果能夠有一個類似助理的角色出現，輔助真人把這些問題能夠回答好，也能提升一定的效果。

以上是嚴選技術團隊在虛擬直播領域相關的一些實踐，項目也才開展半年多的時間，還有很多地方需要改進和優化，歡迎感興趣的同學一起交流。

作者:嚴選技術

來源:微信公眾號:嚴選技術產品團隊

出處:https://mp.weixin.qq.com/s/x8ChYGHx-aWnDXWVjhWq5g

本文內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容，請發送郵件至 sumchina520@foxmail.com 舉報，一經查實，本站將立刻刪除。
如若轉載，請注明出處：http://www.cananla.cn/11327.html