懶得測試 Claude 3 Opus

等著 OpenAI 的下一代模型推出

Mar 06, 2024

一群多元背景的科技愛好者和專業人士聚集在一個現代科技展覽會的場景中，大家的目光都聚焦在一個巨大的螢幕上，螢幕顯示著即將揭曉的「下一代AI模型」的倒數計時。人群中有懷抱筆記型電腦的程式設計師、手持平板查看資料的研究人員，以及攜帶最新科技產品的科技愛好者。整個場景充滿了期待和興奮的氣氛，突顯了大家對於科技創新的熱情和對未來可能性的好奇心。

Claude 3 Opus 是繼 2023/12/6 Google 公佈 Gemini Ultra (以⁠比較低級的超車方法，又於一週內馬上被反超) 之後，下一個聲稱超越 GPT-4 的模型。不過就我的觀察，後續新模型為了可以彎道超車，我推測都有些灌水。

第一是這些評估基準，在 GPT-3.5/4 之前很少，現在多了，大家都以「在評估基準中超越」為目標，因此拿 GPT-3.5/4 以前所達成的基準分數來比較。新模型應該都會在訓練集中加入這些評估集資料，因此相較舊版模型的比較，就有投機作弊之嫌。

另 GPT-3.5/4 原本對多國語言 (繁體中文) 支援就相當不錯。而新模型很多都著重在英文，也就是僅在英文基準下表現可以超越，但若再比較多國語言，通常還是差上一截。

若有模型強調中英文能力，那多數就是簡體中文。繁體中文世界，除了台灣就剩香港新加坡，資料量/人才/硬體都仍明顯差對岸一截。這代表我們在 GPT-3.5/4 之外的選項更為有限，其他模型要在繁體中文趕上還要等更久的時間。

另外提一點。像我是 GPT-4 訂閱戶，其月租的模式，代表我用越多越有利。這讓我沒意願試其他的模型，特別是沒有任一個模型有確實明顯超越 GPT-4 的表現。若要換，又很難將過去的對話紀錄轉移，也沒有 GPTs 等等一年經營下來的成果。

我推測，OpenAI 只是等著看，何時哪一家有確實超越 GPT-4 的新作之後，很快就會推出下一代模型了。畢竟 GPT-4 已經推出將近一年，更不用說起初它的訓練資料只到 2021 年 9 月，代表最晚是 2022 年內即訓練完成。先前 CEO Altman 風波之後爆出的 Q* 很可能就是下一代，現在應該只是暫時按兵不動。也就是說，我推測 GPT-4 用戶不會有特別的需要來轉移到其他競爭對手。若有競爭對手推出足以吸引 GPT-4 用戶的模型及服務，OpenAI 就會推出新版，保證能留住用戶不外流。

而微軟這邊就比較奇怪，手擁 GPT-4 王牌，又有 Azure 資源，但從一開始的 Bing Chat 到現在 Microsoft Copilot 全系列，大家的評論都不佳，唯獨 GitHub Copilot 一支獨秀。難道是刻意讓 OpenAI 有生存空間，才能繼續研發下一代新模型?

基於以上種種因素，我對測試其他模型的興趣缺缺。當然，我還是有興趣在本機玩開源模型，但也就只是在於提升自身技術能力，還沒有真的要用來做什麼實際用途。

Grounded till Now ↣ Infer the Future

Discussion about this post