English Translation: OpenAI Nears Open-Sourcing GPT-3
先前預測
繼先前 2023/5/29 OpenAI 的內部會議資訊外流 (OpenAI's plans according to Sam Altman),裡面有提到可能開源 GPT-3,我 2023/6/4 就寫文章《論 OepnAI 開源 GPT-3,與近期 GPT-4 品質問題》,預測今年底 (2023) 到明年初就會開源,底下引用我的文章:
真正目的其實是希望打壓其他開源的作品,希望大家回來依賴 OpenAI 模型,而不是另行發展自己的,最後連 OpenAI 也擋不住。
何時會開放?等到開源模型對 GPT-3 開始構成威脅的時候。
那是何時??? 依開源模型的進展速度,我預測是今年內,最晚明年。
近期的 Llama 2 及 Mistral 真正展現了開源的腳步,的確開始威脅 GPT-3.5 的地位。
目前資訊
今天看到 OpenAI 最新的 Frontier risk and preparedness 及 Preparedness Challenge
Imagine we gave you unrestricted access to OpenAI's Whisper (transcription), Voice (text-to-speech), GPT-4V, and DALLE·3 models, and you were a malicious actor.
想像一下,我們讓您不受限制地存取 OpenAI 的 Whisper (轉錄)、Voice (文字轉語音)、GPT-4V 和 DALLE·3 模型,而您是一個惡意人士。
我嗅出了即將開源的訊號。
(奇怪 OpenAI 先前都是寫 DALL·E 3 而不是 DALLE·3)
大膽預測
我認為這開始釋出「將來即將開源,現在先收集大家對大模型開源的反對意見,他們要先準備好說帖」的訊息。我大膽預測,OpenAI 已經正式邁出開源的腳步。以下是我預測的內容:
11/6 OpenAI DevDay 就會宣佈開源
當天是否即正式開放下載還很難預測,我猜測當天只有宣佈,之後會挑一個好時機正式開放下載 (預測時間仍然是今年底到明年初)
將開放的是 GPT-3 而不是 GPT-3.5,理由是要一次一次逐步推出,不要一次亮出全部的底牌,要讓對手一次一次感到競爭壓力。而且多釋出幾次,才能創造更多新聞與話題 (也因此未來還會再推出 3.5)
推測會包含 RLHF 保護的成果,以示 OpenAI 的負責任態度
由於 GPT-3 是 2020 年所開發的模型,與時下流行的新模型相差三年。我推測相關執行環境會與近期之開源模型程式會有一定差異。但 OpenAI 也有可能為了開源,已經進行改寫以能順利接入現有開源生態系
因為需要開源,因此相關技術細節也將會詳細公佈,但推測訓練數據集仍不會明確公佈
OpenAI 經過近一年營運 ChatGPT,相信內部都有縮減參數量的較小模型,推測屆時也會直接釋出,也就是會有由大到小一系列參數量的模型
只要一旦開源,就會有一堆高手再改到各裝置都可執行
另推測該天也會公佈下一代 Whisper (轉錄) 版本,以及新的文字轉語音模型
以上純屬臆測內容,沒有其他的內部消息,大家參考看看。
這個預測中最主要的開源部份很可惜是錯的 (但我還是猜未來某天會到達這個時機點),但還猜中兩項 (但語音合成部份還沒有看到更多資訊):
> 另推測該天也會公佈下一代 Whisper (轉錄) 版本,以及新的文字轉語音模型