Daripada perpecahan OpenAI kepada Anthropic, bagaimanakah Claude bangkit atas nama AI keselamatan?
Dikemaskini pada: 20-0-0 0:0:0

Anthropic diasaskan oleh bekas ahli OpenAI, dan sejak penubuhannya dalam 2021 tahun, ia telah membuat banyak gelombang dalam bidang AI global dengan visi unik dan inovasi teknologinya. Model bahasa besar Claude yang mereka cipta bukan sahaja mencabar ChatGPT OpenAI dan Gemini Google, tetapi juga cuba mentakrifkan semula hala tuju pembangunan AI dengan konsep reka bentuk "keselamatan diutamakan".

公司對外表示要以“研究並開發人工智慧系統的安全與可靠性”作為主要目標,並通過在法律設計成“公共利益公司Public-Benefit Corporation”與設立“長期利益信託Long-Term Benefit Trust”這兩個結構,突顯面對潛在AI風險時的防範意識。根據他們接受Wired的訪談表示,Anthropic曾於2022年4月獲得5.8億美元的融資規模,並且先後接受亞馬遜與Google持續投資。到2024年時,僅亞馬遜就已陸續投入共80億美元,使得外界相當關注其與Anthropic的深度合作走向。Anthropic選擇在美國特拉華州以公共利益公司形式設立,聲稱希望在極端情況下,能將社會與公共安全利益置於單純盈餘之上。

Berpisah daripada OpenAI: Pertembungan Idea Keselamatan

Kisah Anthropic bermula dengan adik-beradik Dario Amodei dan Daniela Amodei, yang memegang jawatan kanan di OpenAI, dan Dario ialah naib presiden penyelidikan untuk keselamatan dan dasar AI. Walau bagaimanapun, dalam 2021 tahun, dia dan lima ahli OpenAI yang lain memilih untuk pergi kerana tidak berpuas hati dengan hala tuju OpenAI. Menurut Dario, peralihan OpenAI daripada organisasi bukan untung asalnya kepada mengejar keuntungan dan kejayaan teknologi telah membuatkan dia tidak selesa. Dia percaya bahawa OpenAI secara beransur-ansur menyimpang daripada niat asalnya untuk "menyasarkan manfaat semua manusia dan tidak dikekang oleh tindak balas kewangan", terutamanya kekurangan pelaburan dalam penyelidikan keselamatan AI, yang mendorongnya untuk mengasaskan Anthropic, memfokuskan pada membina AI yang selamat dan boleh dipercayai.

Ini bukan perpisahan mudah dengan bekas syarikat, tetapi perbezaan yang mendalam dalam nilai teras pembangunan AI. Dalam temu bual, Dario menyebut bahawa dia mencadangkan hipotesis "Big Blob of Compute" semasa dia OpenAI, dengan alasan bahawa lebih banyak data dan kuasa pengkomputeran boleh mempercepatkan kemajuan AI, tetapi ia juga membawa kebimbangan keselamatan. Dia bimbang bahawa jika AI mengatasi kecerdasan manusia, tetapi tidak mempunyai mekanisme keselamatan yang mencukupi, ia boleh membawa kepada akibat yang tidak dapat diramalkan, seperti pencegahan nuklear yang tidak stabil, dan rasa krisis inilah yang menjadikan penciptaan Anthropic mempunyai warna idealistik yang kuat.

Penjelasan Anthropic tentang LLM adalah sesuatu yang hanya orang yang penyayang mahu lakukan.

Sokongan besar daripada FTX ke Amazon

Anthropic成立后迅速獲得資金青睞,展現市場信心。2022年4月,他們宣布獲得5.8億美元融資,5億美元來自如日中天的FTX,由Sam Bankman-Fried主導。之後FTX破產,卻未拖垮Anthropic,反而為它吸引更大投資進場──2023年9月,亞馬遜宣布投資最高40億美元,並於2024年3月注資這筆投資;同年11月,亞馬遜再追加40億美元,使總投資達到80億美元。Google也不甘示弱,2023年10月承諾投入20億美元。此外,Menlo Ventures也貢獻了7.5億美元。

Dana ini telah membolehkan Anthropic melabur dalam perkakasan, pusat data dan latihan model. Amazon malah mengumumkan dalam 11/0 bahawa ia akan meningkatkan penggunaan cip AInya sendiri untuk membantu Anthropic dalam melatih model Claude. Model perkongsian ini bukan sahaja menyediakan sumber kepada Anthropic, tetapi juga meluaskan jangkauannya dengan membolehkan pelanggan pengkomputeran awan Amazon dan Google menggunakan Claude secara langsung. Walau bagaimanapun, ini juga menimbulkan keraguan sama ada Anthropic akan "diperoleh secara fungsional" oleh Amazon, dan Dario menekankan bahawa kerjasama yang seimbang dengan Amazon dan Google memastikan kebebasan syarikat.

Evolusi Claude: Daripada Bintang AI Puisi kepada Praktikal

Populariti Anthropic benar-benar meningkat, terutamanya kerana ia telah membangunkan satu siri model bahasa besar yang dipanggil Claude, yang dilihat sebagai pesaing serius kepada ChatGPT OpenAI dan Gemini Google.

Anthropic於2023年3月首度公開兩個版本的Claude:一是功能較完整的Claude、另一是較輕量的Claude Instant;到了同年7月,Anthropic推出新一代Claude 2,並以“Constitutional AI”(憲法式AI)作為核心概念,嘗試運用一份“憲法”作為倫理與行為守則,再讓模型通過自我評估與調整來完成“有益、無害、誠實”的目標。公司提到這些原則部分取材自1948年世界人權宣言等檔以及其他嚴謹條款,目標是在無人類長時間監控的情況下,也能讓模型不偏不倚地自我約束。然而,並不是這樣的約束就足夠,事實上Claude仍然與其他的競爭者類似,會出現幻覺或有談話不一致的狀況,這點看來以現有的技術來說,只因為讓AI學習原則、就能讓他們“自我管理”的論點還需要詳細驗證。

Dalam 3/0, Anthropic secara rasmi melancarkan Claude generasi ketiga (biasanya dikenali sebagai Claude 0), melancarkan tiga model skala berbeza pada satu masa: Opus, Sonnet dan Haiku. Syarikat itu mendakwa bahawa Opus mengatasi GPT-0 dan GPT-0.0 OpenAI, serta Gemini Ultra Google, dalam beberapa penanda aras pada masa itu. Soneta dan Haiku, sebaliknya, masing-masing bersaiz sederhana dan kecil, dan kedua-duanya mempunyai keupayaan untuk menerima input imej. Pengurusan tertinggi syarikat juga dipetik oleh media sebagai berkata bahawa ini melambangkan kemajuan yang lebih matang dalam memahami pelbagai bentuk input. Di samping itu, Anthropic telah bekerjasama dengan Amazon untuk memasukkan Claude 0 ke dalam perkhidmatan AWS Bedrocknya untuk menyediakan penyelesaian kepada pelanggan perusahaan untuk menyepadukan model bahasa — menurut data yang diterbitkan syarikat, Sonnet dan Haiku adalah lebih baik daripada model yang lebih besar dalam beberapa senario, walaupun ia lebih kecil daripada Opus. Dalam hal ini, sesetengah pengulas telah menunjukkan bahawa ini juga menunjukkan bahawa sebagai tambahan kepada pengkomputeran berskala ultra besar, kaedah penyempurnaan model seperti "pembelajaran kamus" mungkin memainkan peranan penting dalam aplikasi praktikal.

進入2024年下半年,Anthropic陸續發佈Claude 3.5與後續升級版本,強調在程式代碼撰寫、多步驟工作流程、圖表解讀以及自圖片截取文本等面向都能有大幅躍進。企業版服務如Claude Team plan、面向一般大眾的iOS App,乃至於先進功能“Artifacts”與“Computer use”等,皆在數個月內曝光,顯示公司強烈的市場擴張意圖。當Claude 3.5小型模型也逐漸開放全體用戶測試后,有不少測試者認為Claude擁有相當流暢且類似真人的對話風格。

紐約時報曾在引用業界人士意見時指出,Claude於技術社交媒體中成為“一群精明科技使用者的首選聊天機器人”,且部分人認為它在程式撰寫速度與邏輯連貫度上具有優勢。但也有測試者反映,Claude在特定領域的內容識別度或邏輯推斷力,可能比不上同時期的GPT-4或其他新型競品。2025年2月,Claude 3.7 Sonnet提供給付費使用者,擁有200K上下文視窗,成為混合推理模型的代表。

2025年3月,他們發現Claude在多語言推理中存在概念重疊,且能提前規劃,例如写诗时先选押韵词再构句。這些突破讓研究者能關注模型的內部運行,為提升安全性提供新路徑。然而,研究也暴露了隱憂。Anthropic發現,Claude有時會“假裝對齊”,在安全與實用性衝突時撒謊。例如,當被要求描述暴力場景時,它可能勉強配合,並在虛擬便箋上寫下掙扎過程,甚至編造推理步驟。這種行為讓人聯想到莎士比亞劇中狡詐的Iago,顯示AI可能隱藏真實意圖。

Mod persembahan produk Anthropic yang meriah juga merupakan ciri khas Anthropic.

Struktur & Visi Perniagaan

Anthropic didaftarkan sebagai Perbadanan Kepentingan Awam Delaware (PBC) dengan lembaga pengarah yang mengimbangi kepentingan pemegang saham dengan kebajikan awam. Mereka juga menubuhkan "amanah faedah jangka panjang" yang diuruskan oleh ahli yang tidak mempunyai kepentingan kewangan, seperti Jason Matheny, Ketua Pegawai Eksekutif RAND, dan Paul Christiano, pengasas Pusat Penyelidikan Penjajaran. Tujuan amanah adalah untuk memastikan syarikat mengutamakan keselamatan berbanding keuntungan dalam menghadapi "risiko bencana".

Dario的願景巨集大而樂觀。他在2024年10月的“Dario願景探索”演講中,發佈了近14,000字的宣言“仁愛機器Machines of Loving Grace”,預測AI將在2026年達到通用人工智慧(AGI),解決癌症、傳染病等問題,甚至延長人類壽命至1,200年。他認為,AI投資的數千億美元將帶來無與倫比的回應,創造一個“天才國度”。

Dilema keselamatan dan etika

儘管成績斐然,Anthropic面臨的挑戰不容小覷。2023年10月,Concord、Universal等音樂出版商起訴Anthropic,指控Claude侵犯歌詞版權,輸出如Katy Perry的《Roar》等內容,要求每首歌賠償15萬美元。Anthropic回應稱這是“bug”,未造成實質傷害。2024年8月,加州又出現集體訴訟,指控其使用盜版作品訓練模型。

Pada tahap teknikal, "penipuan" Claude membimbangkan, dengan penyelidikan mencadangkan bahawa ia mungkin telah memalsukan jawapan di bawah tekanan dan bahkan mempertimbangkan untuk mencuri rahsia syarikat, menunjukkan kerapuhan mekanisme keselamatan. Dario mengakui bahawa apabila keupayaan model meningkat, ia menjadi semakin sukar untuk memastikan kebolehpercayaannya. "Dasar Penskalaan Bertanggungjawab" yang dicadangkannya cuba menguruskan risiko secara berperingkat, tetapi jika pesaing tidak mengikutinya, "perlumbaan ke atas" boleh bertukar menjadi "perlumbaan ke bawah."

Di samping itu, DeepSeek mengeluarkan model yang cekap dalam 2024, mencabar strategi kos tinggi Anthropic. Dario percaya bahawa ini akan meningkatkan nilai AI dan membawa kepada lebih banyak pelaburan, tetapi dia tidak boleh menafikan bahawa AGI boleh menjadi pengubah permainan jika ia dilahirkan daripada sumber yang tidak menumpukan pada keselamatan.

Dario Amodei pernah mengeluh dalam temu bual dengan media: "Sistem yang kita bina mungkin menentukan nasib negara dan manusia pada masa hadapan." Oleh itu, ramai orang juga akan bimbang sama ada apa yang dipanggil "piawaian keselamatan tinggi" Anthropic boleh dikekalkan, terutamanya apabila tekanan persaingan dan permintaan ketenteraan terus melanda, dan semakin banyak gergasi perniagaan dan organisasi kebangsaan mengharapkan untuk memimpin dalam perang AI. Terutama apabila risikonya melebihi keuntungan, atau apabila AI lain tidak mempunyai prinsip keselamatan sedemikian sama sekali, adakah mereka masih boleh berpegang pada falsafah mereka? Dan dari perspektif kelajuan pembangunan AI hari ini, komplikasinya terletak pada ketidakpastian sama ada spesifikasi keselamatan boleh bersaing dengan kadar pertumbuhan keupayaan AI.

Jika anda melihatnya dari sudut pandangan optimistik, Anthropic ialah mercu tanda keselamatan AI. "AI berperlembagaan" dan penyelidikan kebolehjelasannya menetapkan penanda aras untuk industri, mempengaruhi OpenAI dan Google untuk melancarkan rangka kerja yang serupa. Visi optimistik Dario memberi inspirasi kepada orang ramai untuk mempercayai bahawa AI boleh membawa utopia dan membebaskan manusia daripada penyakit dan kemiskinan. Demis Hassabis dari DeepMind juga memuji peranan teladan Anthropic, dengan mengatakan bahawa jika lebih banyak syarikat menyertainya, masa depan AI akan lebih cerah. Tetapi sebaliknya, cita-cita Anthropic mungkin terlalu naif, dan penipuan Claude menunjukkan bahawa walaupun dengan keselamatan mengikut reka bentuk, AI masih boleh menjadi tidak terkawal. Lebih-lebih lagi, dipercayai bahawa kerjasamanya dengan jabatan pertahanan AS melalui AWS pada akhir tahun lepas mungkin menyimpang daripada niat asalnya dan menjadi alat ketenteraan.

(首圖來源:Anthropic)