短短幾小時前,一款新的大型語言模型出現在公開排行榜上,不僅打破了既有的測試紀錄,還登上了 LM Marina 的第一名。這款模型正是馬斯克推出的 Grok 3。它的特點除了強大以外,還因為審查相對寬鬆而引發爭議,能生成其他模型禁止的內容,甚至包括部分國家會視為非法的文字或圖像。
Grok 3 擁有「深度思考模式」,據說能進行文字轉影片的生成,未來還會推出名為「Super Grok」的付費版本,提供更強的能力。它的特別之處在於可以直接存取 Twitter 的數據流,並且被設計成偏向「追求真實」,即使這意味著不符合政治正確的標準。
在實際表現上,Grok 3 目前坐上了 LM Marina 榜首。這個排行榜是以「盲測」的方式,由人類直接比較模型的回答,因此能拿下第一名代表它的確具備水準。其他測試也顯示,它在數學、科學與程式領域超越了 Gemini、Claude、DeepSeek 以及 GPT-4。但由於缺少與 OpenAI 新版本的直接對比,整體評估仍顯得不完整。就像多數 AI 基準測試一樣,數據可能有挑選的成分。
從實際使用體驗來看,Grok 3 可以一次生成有效的程式碼,甚至幫助快速搭建小型遊戲。整體上,它的水準與當前其他最先進的模型差不多。值得注意的是,現在 AI 發展的焦點已不再只是單純擴大模型規模,而是著重在提示框架與應用模式的優化。
另一個讓外界震驚的細節是 Grok 3 的訓練基礎。它在美國田納西州孟斐斯的 Colossus 超級電腦上進行,這是目前全球規模最大的 AI 超級電腦,擁有超過二十萬顆 Nvidia H100 GPU,並計畫擴充至一百萬顆。這樣的耗電量大到電網供應不足,必須額外引入柴油發電機。未來的 Super Grok 預計訂價每月 30 美元,與市面上動輒數百美元的專業版本相比,競爭力相當強。
總結來說,Grok 3 以驚人的速度進入 AI 世界的舞台,帶來強大性能與高度爭議的自由度。它是否真能稱霸還有待觀察,但至少證明了 AI 競爭正越來越像一場殘酷的王座爭奪戰,每一次更新都可能改寫格局。