2022年,AI內容生成(AIGC)被Science雜志評選為2022年十大科學突破之一,這說明AIGC無論是在技術上還是在應用上都極具潛力。以往,AIGC也會在某一領域現象級爆火,但最后總會歸于沉寂(如Stable Diffusion繪畫生成),其落地應用及產生價值一直是產業界和投資界探尋的方向。ChatGPT的出現使得AIGC強化了內容與生產力的連接,從此AIGC的應用不再僅僅停留于對藝術類產品的表達和抽象,也能有對內容的明確反饋和更類似于人類表達習慣的描述,從而把AIGC從玩具進化為產品,邁出了AIGC大規模推廣應用的重要一步。
那么,ChatGPT是什么,ChatGPT有哪些應用,又有哪些局限性呢?
ChatGPT是OpenAI公司發布的一款AI對話機器人,一經發布就爆火網絡,自發布之日起短短五天內已積累100萬用戶,迅速沖上流量高峰。相較以往的對話機器人,ChatGPT能夠更好的應對如個性化搜索任務、邏輯解析、寫作內容以及輔助編程等自然語言(Nature Language Process,NLP)任務,并能夠實現相對準確、完整的多輪次對話。
當然,對于一些開放式問題,如復雜邏輯推理、預測趨勢等,ChatGPT往往給出“邏輯正確的空話”,不能完全解決問題。但是瑕不掩瑜,ChatGPT的成功仍然是AI技術的一次重大突破,這意味著AIGC具備實用價值、能夠提升生產力,也意味著AI與現實世界的距離又近了一步。
那么,OpenAI是如何實現這個歷史級別的AI產品的呢?
ChatGPT與它的兄弟模型InstructGPT一樣,都是在GPT3.5大規模預研模型的基礎上進化而來。GPT是一種生成式的預訓練模型,最早由OpenAI團隊于2018年發布,比近些年NLP領域大熱的Bert還要早上幾個月。在經歷了數年時間的迭代,GPT系列模型有了突飛猛進的發展。
這其中,GPT-1使用無監督預訓練與有監督微調相結合的方式,GPT-2與GPT-3則都是純無監督預訓練的方式,相比GPT-2,GPT-3主要是在數據量、參數量方面實現數量級提升。GPT模型應用于不同任務的網絡結構如圖3所示。
那么,ChatGPT是如何基于GPT-3這樣的模型衍生出的呢?OpenAI并未公布ChatGPT的技術細節,從網絡公開信息和論文來看,ChatGPT應用帶有人工標注反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF),使用GPT3.5大規模語言模型作為初始網絡結構,使用收集數據增強的InstructGPT進行模型訓練,訓練過程可以大致分為三個步驟:
1.監督調優預訓練模型
在少量標注數據上對預訓練模型進行調優,輸出有監督策略微調(Supervised Fine Tuning,SFT)模型。
該步驟可細分為三步:
(1)收集數據形成提示數據集(prompt dataset),內含大量的提示文本用于介紹任務內容,即提問題;
(2)有標注員對提示列表進行標注,即回答問題;
(3)使用這個標注過的prompt dataset微調預訓練模型。
關于預訓練模型的選擇,ChatGPT選擇了 GPT-3.5 系列中的預訓練模型(text-davinci-003),而不是對原始 GPT-3 模型進行調優。
2.訓練獎勵模型
標注者們對相對大量的 SFT 模型輸出進行投票,這就創建了一個由比較數據組成的新數據集。在此數據集上訓練的新模型,被稱為獎勵模型(Reward Model,RM)。
該步驟也可細分為三步:
(1)使用SFT模型預測prompt dataset中的任務,每個prompt任務生成4到9個結果;
(2)標注員對每個prompt的預測結果,按從好到壞順序進行標注;
(3)用標注結果訓練一個RM模型。
3.使用強化學習方法持續優化模型
應用強化學習中的近端策略優化(Proximal Policy Optimization,PPO)技術,進一步優化獎勵模型以實現調優SFT模型。
該步驟可細分為五步:
(1)收集數據形成新的prompt dataset;
(2)將PPO策略應用于有監督數據微調過的的預訓練模型;
(3)通過模型預測新的prompt dataset,得到數個輸出;
(4)使用獎勵模型對數個輸出進行打分,計算獎勵分值(reward);
(5)使用reward對基于PPO策略的模型進行迭代更新。
以上三個步驟中,步驟一只進行一次,步驟二和步驟三持續重復進行,直至最終形成一個成熟穩定的模型。
ChatGPT模型構建過程值得借鑒的有兩點:一是在強化學習中使用獎勵模型,訓練過程更穩定且更快收斂。在傳統NLP任務中,對話模型的設計一直是個難點,引入了強化學習后,雖然可以解決對話問題,但如何建模獎勵機制又成為了設計難題。ChatGPT采用訓練獎勵模型并不斷迭代的方案,以一個提示詞和多個響應值作為訓練輸入,并輸出獎勵模型,實現了訓練的收斂。
二是使用SFT策略微調模型,有效利用大模型能力,同時避免過擬合。GPT-3用對應的SFT數據集訓練16次完整數據集,每一次都是一個輸入對應一個輸出,對比獎勵模型,給與獎勵或者懲罰,但是這樣訓練的過擬合程度較高,甚至在第一次完整數據集訓練后已經存在過擬合現象。ChatGPT在GPT-3基礎上進行了優化,每個輸入對應多個輸出,人工進行輸出結果排序,這樣就能夠讓訓練過程更接近人類思維模式,也有效避免了過擬合。
當然,就像前文提到的,ChatGPT也并非完美無缺,仍有一定的優化空間,筆者將從技術角度嘗試進行初步分析。
1.不可信性
對于AI對話生成模型而言,可解釋性很重要,尤其是在推理、反饋等場合更需要嚴謹可追溯的解答,但是ChatGPT并沒有針對問題來源做解釋說明,這會導致其答案在部分場景中不可信,在部分領域的應用中受限。
2.誘導立場
可能是由于提示學習的原因,ChatGPT 在對話中對提問詞的內容比較敏感,容易被提示詞誘導,若初始提示或問題存在歧義或者倫理、道德層面的瑕疵,則模型會按照當前理解給出答案而不是反饋和糾正問題,這可能會導致ChatGPT強大的能力被用于一些非法、違規的場景,帶來不必要的損失。
3.信息誤判
ChatGPT的熱啟動雖然在大部分內容生成中能夠給出大體上完整的答案,但是一部分回答會存在事實性錯誤,同時為了使得答案看起來更完整,ChatGPT會根據提示詞生成冗余的內容用以修飾。在輔助決策的場景中,這種錯誤回答被淹沒在大量冗余修飾之中,更不容易被察覺,這導致的信息誤判也限制了ChatGPT應用于類似場景。
4.迭代成本
ChatGPT雖然具備內容生成能力,但是由于其本身是基于“大模型+人工標注訓練”的模式進行內容輸出,當采納新的信息時,需要對大模型進行重新訓練,這將導致模型迭代訓練成本過高,也間接導致ChatGPT對于新知識的學習更新存在一定時間區間的斷檔,這尤其限制了其在實時搜索領域的進一步發展。
ChatGPT引起轟動的原因是因為人們驚訝于它遠超前輩的泛用性和大幅度提升的回答問題的能力,但這背后的影響其實遠遠不止這些:
1.有可能帶來NLP研究范式的變革
ChatGPT迅速走紅的背后,可以說是GPT類自回歸類語言模型的一次翻身仗。NLP領域近些年來另一熱門的模型當屬Bert。Bert與GPT都是基于Transformer思想產生的大型預訓練模型,但二者之間存在不少差異,簡單來說,Bert是雙向語言模型,更多應用于自然語言理解任務,而GPT則是自回歸語言模型(即從左到右單向語言模型),更多應用于自然語言生成任務。
ChatGPT所表現出的強大能力有理由讓人相信,自回歸語言模型一樣能達到甚至趕超雙向語言模型的路線,甚至在未來統一理解、生成兩類任務的技術路線也未可知。
2.大型語言模型(Large Language Model, LLM)交互接口的革新
ChatGPT最突出的特點可以概括為:能力強大,善解人意。“能力強大”歸功于其依托的GPT3.5,巨量語料、算力的結晶使模型蘊含的知識幾乎覆蓋了各個領域。而“善解人意”則有可能要歸功于其訓練過程中加入的人工標注數據。這些人工標注數據向GPT3.5注入了“人類偏好”知識,從而能夠理解人的命令,這是它“善解人意”的關鍵。
ChatGPT的最大貢獻在于它幾乎實現了理想的LLM交互接口,讓LLM適配人的習慣命令表達方式,而不是反過來讓人去適配LLM,這大大提升了LLM的易用性和用戶體驗,而這必將啟發后續的LLM模型,繼續在易用人機接口方面做進一步的工作,讓LLM更聽話。
3. LLM技術體系將囊括NLP外更多領域
理想的LLM模型所能完成的任務,不應局限于NLP領域,而應該是領域無關的通用人工智能模型,它現在在某一兩個領域做得好,不代表只能做這些任務。ChatGPT的出現證明了通用人工智能(Artificial General Intelligence,AGI)是有可行性的。
ChatGPT除了能以流暢的對話形式解決各種NLP任務外,也具備強大的代碼能力,可以預見,之后越來越多的研究領域也會逐步納入LLM體系中,成為通用人工智能的一部分。這個方向方興未艾,未來可期。
ChatGPT使用了當下先進的AI框架,具備較高的成熟度,是AI技術發展浪潮中產生的優秀產品。但是正如前文分析,ChatGPT也有其自身的局限性。農業銀行基于大數據體系、AI平臺所提供的“數據+AI”能力,結合ChatGPT的相關技術,同時設法規避ChatGPT的固有問題,逐步賦能場景,有著巨大的想象空間。
1.營銷自動化
綜合使用AIGC技術,結合現有的個性化推薦、實時計算能力以及AutoML等技術,可以解決線上線下協同營銷過程中的自動化斷點問題,實現營銷策略自動生成和迭代、自動AB實驗、渠道自動分流,并實現自動生成營銷話術、廣告頭圖等運營內容,從而實現完整的自動化營銷閉環。
2.風險識別
基于ChatGPT背后的GPT等LLM模型技術,可實現對關鍵要素提取、資料自動化審核、風險點提示等風控領域的業務流程,提升風控相關業務的自動化水平。
3.個性化搜索引擎
以GPT生成式問答為主體,結合現有的NLP、搜索引擎、知識圖譜和個性化推薦等AI能力,綜合考慮用戶的提示詞標注、知識結構、用戶習慣等進行應對用戶對應問題的內容生成和展示,并可以給出索引URL,這樣既能解決現有檢索引擎的準確性、個性化難題,又能彌補GPT的可信、更新問題,在技術上形成互補,在用戶使用過程中實現完整的、一致的搜索體驗。
4.增強知識圖譜
使用GPT生成技術,結合知識圖譜技術,可從當前實體關系圖中生成擴展圖,在知識圖譜引擎原有的隱性集團識別、深度鏈擴散、子圖篩選等能力基礎上,擴展出更高維度、更大范圍的隱性關系識別,能夠提升風險識別、反欺詐的識別范圍和準確程度。
5.內容創作
基于ChatGPT技術,結合農業銀行行內語料進行適應性訓練,可面向資訊、產品、廣告提供便捷且高質量的內容生成能力,既能提升內容運營的效率,又能幫助用戶更快地獲取、理解和分析復雜的信息,從而進一步提升用戶運營轉化率。
6.輔助編程
相對于Copilot,ChatGPT類似技術的迭代反饋能力更為強大,能夠通過提示、輔助、補充等方式生成部分代碼,能夠在簡單邏輯代碼實施中有效減少重復勞動,在復雜架構設計中鋪墊微創新的基礎,如應用得當,會提升開發效率和交付質量。
7.智能客服
AI生成的對話可以快速應用于問題解答、營銷話術等,能夠提升問題解答的準確程度、給出相對靠譜的回答,并能結合個性化推薦系統的應用給出用戶的營銷線索,實現更標準、更貼心的用戶服務。
ChatGPT乘風而來,農業銀行在探索AI新技術、追逐AI新應用的腳步也從未停歇。就在近期,農業銀行正在探索基于生成式大模型,結合金融領域相關文本語料,通過AI平臺-NLP智能服務引擎提供特定業務場景下的文本生成、文本理解服務,近期該服務的alpha版本也即將在AI平臺的AI商店上線,面向種子用戶開放試用。
下一步,NLP智能服務引擎計劃收集更多的銀行業內相關的語料數據,基于大模型不斷迭代優化出更具專業特色、更符合場景需求的自然語言理解與自然語言生成模型,讓更多人乘上這輛急速前進、不斷進化的AI快車。
隨著AI技術的深入發展和應用,定會不斷誕生類似于ChatGPT的爆款產品,這類產品成功的邏輯是伴隨人工智能技術的發展和創新,綁定具體場景應用,以滿足用戶的認知和期待。農業銀行遵循這一規律,在AI技術創新、AI應用創新方面不斷探索,以用帶建,螺旋上升,在數字化轉型的浪潮中,以數據為基礎要素,以AI為重要抓手,逐步賦能總分行場景應用,讓大家了解AI,用上AI,用好AI,充分挖掘數據和AI的價值,讓數據和AI在銀行業務經營管理活動中起到更加基礎和重要的作用。
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.ayzwhls.com all right reserved 技術支持:杭州高達軟件系統股份有限公司
服務熱線:010-59231580