據外媒報導,企業軟體公司Databricks,於上周五(24日)發佈了一款AI聊天機器人的代碼。並稱像OpenAI的ChatGPT一樣,公司可以使用這些代碼創建自己的聊天機器人,並將代碼開源。
Databricks是一家新創公司,向企業銷售基於雲端的數據挖掘和分析軟體,去年收入逾10億美元,最新估值已經達到380億美元,超過OpenAI公司的290億美元。執行長Ali Ghodsi表示,將該模型開源就是為了展示一種可行的ChatGPT的替代方案。
Databricks宣布,它正在將其稱為「Dolly」的東西,作為開放原始碼模型,連同所有訓練代碼,和如何重新創建的說明,提供所有人。該公司表示,該版本旨在使大型語言模型民主化,這樣數以百萬計的小公司將能夠構建和使用自己定制的生成人工智慧模型,而不是只有最大的科技公司才能負擔得起。
Databricks在發布的文章解釋道,ChatGPT接受了來自數千個不同網絡資源的數百萬個單詞的訓練,並且該訓練涉及使用數千個強大的GPU。OpenAI風靡全球,它能夠創建連貫的句子來回答幾乎任何類型的問題,並幾乎可以談論任何話題。
不過構建Dolly的基礎並沒有從頭開始創建模型,而是採用了一個更古老的開源LLM,稱為GPT-J。Databricks表示,該模型沒有引起巨大轟動,大概是因為沒有表現出神奇的指令遵循能力。
Databricks表示,GPT-J能夠採用 EleutherAI 模型,只需使用一台機器在不到三個小時的時間內,用一個5萬字的小型數據集對其進行訓練,就可以使其非常容易上手。Databricks還表示,儘管Dolly只有60億個參數,而ChatGPT有1750 億個參數,跟更小的數據集和訓練時間,但Dolly仍表現出與ChatGPT相同的人機交互能力。不過該公司還沒有發佈正式的基準測試,來比較這一模型與ChatGPT的性能。
對人工智慧模型應否保持透明度,討論仍相當熱烈,一方面開源可讓其他機構了解操作模式及研究風險,同時促進人工智慧群體進步,不過更有機會讓圖謀不軌的人開發出具破壞力的工具,版權法律挑戰也會阻礙人工智慧開發。技術開發、創新和道德如何取得平衡,會成為科技界無可避免的議題。