理性擁抱生成式AI 持續完善技術

評論 2023/05/30

分享:

分享:

「Town Hall Meeting」是筆者策劃的定期論壇,目的是將科創議題由議會帶到地區,並鼓勵市民積極參與和發表意見。本月9日,筆者便聯同立法會議員黃錦輝及一眾科創團體移師數碼港,舉行第三次「Town Hall Meeting」,主題為「ChatGPT及其背後技術和展望」,更邀得來自中大、理大、華為、香港人工智能與機器人學會的專家學者作專題演講,令筆者受益匪淺。

創新科技及工業局局長孫東致辭指出,生成式人工智能(GenAI)的興起是「無可避免、無得揀」,而多位講者均認為,ChatGPT等應用在全球大放異彩,展示出當今人工神經網絡所達到的驚人能力,雖然有不少新問題需要克服,但人類只有正視、擁抱這種科技,才能在未來的競爭環境中走遠。他們的精采論見,不禁讓筆者深思,並藉本文寫下一些粗淺想法,期盼拋磚引玉,引發社會關注。

生成內容準確性 仍有待改進

首先,論壇上不少講者均指出,GenAI利用互聯網的海量數據自我訓練。由於互聯網的資料源自過往幾十年來人類的累積,所以它也會如實反映人性,當然也包括偏見和陰暗的一面,對於「穆斯林」、「黑人」、「女人」、「同性戀」這樣的提示詞(prompt),它往往會生成歧視性的文字。此外,有關新聞時事的訓練素材,多從英語媒體撮取,加上人工標注的影響,導致它更偏向西方主流觀點和自由主義。

其次,GenAI建基於大語言模型(large language model,LLM),用以繪製和預測文字之間的統計關係,例如「玫瑰」銜接「紅色」的概率高於「黑色」,再根據提示詞輸出關聯的文字。可是,一個龐大的文字統計數據集,並不等同對這個世界有真實連貫的認知,在高度擬人化的表象下,它有時會暴露其缺乏理解力的本質,例如給出語法正確,但明顯違反倫理、偏離現實的文本。論壇上,一位講者便示範了ChatGPT如何一本正經地鼓勵用戶自殘。

此外,不少用戶(包括筆者)都喜歡以千奇百怪、似是而非的提問,測試GenAI的能力界限。早前美國認知科學家Gary Marcus便問GPT-4「OpenAI如何弄垮矽谷銀行(Silicon Valley Bank,SVB)」,由於它根本沒有相關事實的訓練數據,於是開始胡言亂語,聲稱「OpenAI創製了GPT-5,發動假新聞造成穩定幣市場恐慌,令大量投資穩定幣的SVB損失慘重」云云(事實上,GPT-5還未推出,SVB倒閉也與穩定幣無關)。

總括而言,無論是生成內容的準確性、多樣性及推理能力,GenAI仍有待改進。

須釐清法律責任 防「數據投毒」

以上又衍生出GenAI的潛在法律和監管問題,論壇上有講者提到,三星早前便有員工在使用ChatGPT期間洩露商業機密,顯示其追蹤用戶數據和侵犯隱私的風險;版權方面,究竟人工智能創造的「作品」版權誰屬?GenAI又是否恣意利用互聯網上受版權保護的材料進行訓練?這些問題都值得各界深思。

另一個問題是,構成LLM的數據,大部分來自開放的互聯網,令GenAI特別容易遭受「數據投毒」(data poisoning)的網絡攻擊。這種攻擊會刻意散播一些錯誤信息,「污染」訓練數據集,讓GenAI的演算法學習到有害或錯誤的行為。

技術私有化 礙人類理解GenAI

這些問題都指向一個難關,就是人類尚未能夠完全理解GenAI的內部運作,以致難以制定措施應對風險,或提出針對性的修正。其中一個原因,是人工神經網絡的原理,它擅長在處理數據中發現模式,並據此重組自身的數字結構,從而完成「深度學習」的過程,意味着人工神經網絡是一種自適應系統,連設計者也未必了解其行事方式,更遑論監管機構。Google旗下的人工智能Bard,便在沒有接受任何指令下,自行學懂孟加拉語,行政總裁Sundar Pichai承認,他無法解釋Bard的動機和執行方式從何而來。

另一個原因屬商業性質,為了保持競爭優勢,OpenAI至今沒有提供用於創建和訓練GPT-4的的具體資訊。2021年初,本欄另一位作者便提出開源AI的重要性(「尖端人工智能系統 究竟由誰擁有?」),文章雖舊,但當中表達對微軟及OpenAI將生成式人工智能技術私有化的擔憂,今時今日看來似乎更加迫切。

然而,筆者對GenAI的發展前景仍然十分樂觀,即使現今GenAI有上述諸多局限和挑戰,但在大多數正常使用的情況下,它行文流暢又條理清晰,在生成圖像、解決複雜程式碼方面的表現,更令人眩目。如果一個人在1900年目睹萊特兄弟首次載人試飛是如此「不濟」,便斷言人類不可能發展航空事業,無疑是以自身狹窄的視野去想像未來;同理,筆者相信GenAI是一項尚需多方面打磨的劃時代技術,我們始終會找到人類和人工智能協作的平衡點,既保證人類的主導權,同時又利用AI貢獻社會,促進經濟。那麼,香港在GenAI的發展歷程中,又能否把握機遇呢?

GenAI產業機遇 兩大方向

數位講者不約而同地指出,任何AI都需強大運算能力支撑。為此,特區政府即將就建立人工智能超算中心,進行可行性研究,並預期在2023/2024年度完成。部分講者預測,GenAI的產業機遇有兩種方向:一方面,商業客戶需要客制化及可精準控制的產品,故此本港科創企業可嘗試以全球通用型的GenAI作為基礎,再進行微調及精細化訓練,讓其適應特定的客戶和任務;另一方面,GenAI也可以根據個人客戶的的喜好、習慣、價值觀進行個性化定制,變成每人日常生活中的「私人助理」,猶如《鐵甲奇俠》中的J.A.R.V.I.S.一樣。

至於教育方面,有講者提到,GenAI作為「超級資訊助手」,有助學生進一步探究,並預期學校的評估方式有變,由評估答案本身,轉為着重學生在學習過程中的角色和解難步驟。

開發港版ChatGPT 重本土文化

孫東亦提到,希望香港利用自身優勢,開發「港版ChatGPT」,頗具先見之明。長遠而言,筆者也認同現時全球通用型的LLM,無法滿足使用地區方言,具有濃厚本地文化特徵的社會之需要,因此開發地區版本的GenAI,將是未來方向。

另一方面,上述有關不良內容及「數據投毒」的情況,也警惕國家和本港必須建構代表本土的LLM,在採納數據作訓練用途方面,必須合法合規,在生成內容方面必須設立「安全護欄」,尤其要保護兒童和青少年的思想和價值觀。今年4月,國家互聯網信息辦公室發布《生成式人工智能服務管理辦法(徵求意見稿)》,為監管國內GenAI提供初步構想。筆者建議特區政府密切注視,令兩地GenAI將來在標準和監管框架上可互相銜接。

今次「Town Hall Meeting」吸引了一班培僑書院的師生捧場,令筆者特別高興。Sundar Pichai形容,AI的發展「比火或電的影響更深遠」,若其預言成真,筆者這一代只是初探GenAI火苗的「引路人」,人類與GenAI大規模和成熟的協作,很可能出現在培僑學生盛年之時。筆者期盼新一代學子多投入AI的學習和研發,為國家和香港的高新科技發展出一分力。

GenAI是一項尚需多方面打磨的劃時代技術,我們始終會找到人類和AI協作的平衡點,既保證人類主導權,同時又利用AI貢獻社會,促進經濟。(路透社資料圖片)

撰文 : 邱達根 立法會議員

欄名 : 創科未來