】 【打 印】 
【 第1頁 第2頁 第3頁 第4頁 第5頁 第6頁 第7頁 】 
ChatGPT還能飛多遠?
http://www.CRNTT.com   2023-02-14 18:01:08


 
  預訓練“機器人”潛藏侵權風險和監管隱憂

  以ChatGPT為代表的預訓練模型“機器人”,在預訓練過程中需要“投喂”海量數據,才能使得模型能夠成功理解人類語言並模擬出愈加真實的類人表達方式。

  據OpenAI的相關論文透露,ChatGPT的訓練集使用了總計約320TB的文字信息,涵蓋超4000億詞和約31億個網頁,其中包括來自新聞、博客、社交媒體的內容。

  但這種未經授權獲取文本數據的預訓練方式已引發爭議和不滿。推特(Twitter)現任首席執行官埃隆·馬斯克就於近日宣布,叫停ChatGPT訪問Twitter數據庫來獲取培訓數據,聲稱“需要更多瞭解OpenAI的治理結構和未來收入計劃”。

  無獨有偶,近日,擁有國際性體育資源的蓋蒂圖片社對同為人工智能企業的Stability AI提起訴訟,指責其未經許可從其數據庫中復制了1200多萬張圖片,用於建立競爭性業務,並侵犯了該公司的版權和商標保護權。

  張勇東表示,類似ChatGPT這樣的預訓練模型,其訓練數據往往來源於書籍、網站等,而其用於訓練的語料未經授權,存在版權風險。且這種訓練過程往往不對外公開,訓練數據也不對外公布,因此版權擁有者並不知情。待模型完成後,生成的內容往往是原始訓練數據的某種組合,對外服務過程中就會存在侵犯原始版權的問題。
 


 【 第1頁 第2頁 第3頁 第4頁 第5頁 第6頁 第7頁 】 


掃描二維碼訪問中評網移動版 】 【打 印掃描二維碼訪問中評社微信  

 相關新聞: