Link 林沛儒製作

Claude 3.7 對程式設計師的衝擊

·科技

Anthropic 在二月正式推出 Claude 3.7,這款大型語言模型立刻在開發者圈掀起熱潮。它被形容為「又愛又怕」的工具,因為在編程上的表現遠超前代,還加入了新的思考模式,明顯是向其他先進模型的成功取經。

最令人震撼的是新推出的 Claude Code,一個能在專案中直接建構、測試與執行程式的 CLI 工具。它形成了一種理論上無限循環的回饋流程,能不斷修正程式直到正確執行。這讓不少程式社群開始懷疑,傳統的開發工作是否會逐步被取代。

根據官方釋出的基準測試,Claude 3.7 在解決 GitHub 真實問題的能力上,成功率達到 70.3%,遠超其他同級模型。實際測試中,它能生成完整檔案並自動撰寫測試,透過測試驅動開發來確保程式正確。如果失敗,它會依據錯誤訊息不斷修正,直到達到理想結果。

在更複雜的挑戰中,它甚至能建立前端應用程式。例如要求生成一個麥克風輸入並即時視覺化聲音波形的 UI,Claude Code 雖然需要多次確認並耗時更久,但最終仍成功輸出可用的前端專案。相比之下,其他模型生成的結果明顯粗糙。

當然,Claude 3.7 並非完美。它有時會忽略既有專案設定,例如沒有正確使用 TypeScript 或 Tailwind,還會在部分語法上出現過時的寫法。此外,它的成本相當高,每百萬輸出 token 的費用約 15 美元,遠高於其他模型。一次完整的測試流程可能就花費數美元。

在後端應用方面,它仍存在限制。像是嘗試建構端對端加密應用時,Claude Code 依舊未能完成正確的實作,顯示在複雜的安全性需求上,模型仍有明顯不足。

總結來看,Claude 3.7 在程式開發上的能力確實大幅進化,尤其在自動化測試與前端生成上展現出色實力。它證明了 AI 已能處理相當多的日常開發任務,但距離完全取代人類工程師還有差距。對程式設計師而言,它不是威脅,而更像是一把鋒利的工具,用得好能顯著提高效率,用得不好則可能只是燒錢的實驗。

延伸閱讀