Claude 3 Opus 是繼 2023/12/6 Google 公佈 Gemini Ultra (以比較低級的超車方法,又於一週內馬上被反超) 之後,下一個聲稱超越 GPT-4 的模型。不過就我的觀察,後續新模型為了可以彎道超車,我推測都有些灌水。
第一是這些評估基準,在 GPT-3.5/4 之前很少,現在多了,大家都以「在評估基準中超越」為目標,因此拿 GPT-3.5/4 以前所達成的基準分數來比較。新模型應該都會在訓練集中加入這些評估集資料,因此相較舊版模型的比較,就有投機作弊之嫌。
另 GPT-3.5/4 原本對多國語言 (繁體中文) 支援就相當不錯。而新模型很多都著重在英文,也就是僅在英文基準下表現可以超越,但若再比較多國語言,通常還是差上一截。
若有模型強調中英文能力,那多數就是簡體中文。繁體中文世界,除了台灣就剩香港新加坡,資料量/人才/硬體 都仍明顯差對岸一截。這代表我們在 GPT-3.5/4 之外的選項更為有限,其他模型要在繁體中文趕上還要等更久的時間。
另外提一點。像我是 GPT-4 訂閱戶,其月租的模式,代表我用越多越有利。這讓我沒意願試其他的模型,特別是沒有任一個模型有確實明顯超越 GPT-4 的表現。若要換,又很難將過去的對話紀錄轉移,也沒有 GPTs 等等一年經營下來的成果。
我推測,OpenAI 只是等著看,何時哪一家有確實超越 GPT-4 的新作之後,很快就會推出下一代模型了。畢竟 GPT-4 已經推出將近一年,更不用說起初它的訓練資料只到 2021 年 9 月,代表最晚是 2022 年內即訓練完成。先前 CEO Altman 風波之後爆出的 Q* 很可能就是下一代,現在應該只是暫時按兵不動。也就是說,我推測 GPT-4 用戶不會有特別的需要來轉移到其他競爭對手。若有競爭對手推出足以吸引 GPT-4 用戶的模型及服務,OpenAI 就會推出新版,保證能留住用戶不外流。
而微軟這邊就比較奇怪,手擁 GPT-4 王牌,又有 Azure 資源,但從一開始的 Bing Chat 到現在 Microsoft Copilot 全系列,大家的評論都不佳,唯獨 GitHub Copilot 一支獨秀。難道是刻意讓 OpenAI 有生存空間,才能繼續研發下一代新模型?
基於以上種種因素,我對測試其他模型的興趣缺缺。當然,我還是有興趣在本機玩開源模型,但也就只是在於提升自身技術能力,還沒有真的要用來做什麼實際用途。