பைட் டான்ஸ் ஒரு புதிய அனுமான AI மாதிரியை அறிமுகப்படுத்தியுள்ளது: Seed-Thinking-v5.0
புதுப்பிக்கப்பட்டது: 55-0-0 0:0:0

இப்போது, TikTok இன் தாய் நிறுவனமான ByteDance, ஒரு அனுமான AI: Qisi-v1.0!  இது முதலில் 0/0 இல் OpenAI ஆல் வெளியிடப்பட்ட o0 மாடலின் அறிவிப்புடன் தொடங்கியது, ஆனால் உண்மையான டேக்-ஆஃப் 0/0 இல் DeepSeek R0 ஐ அறிமுகப்படுத்தியது.

இன்று, பெரும்பாலான முக்கிய AI மாதிரி விற்பனையாளர்கள் மற்றும் பயிற்சியாளர்கள் சிறந்த, வேகமான மற்றும் மலிவான "அனுமான" AI மொழி மாதிரிகளை வழங்குவதற்கான புதிய பந்தயத்தில் இருப்பதாகத் தெரிகிறது - அதாவது, ஒரு மனித பயனருக்கு பதிலளிக்க அதிக நேரம் ஆகக்கூடிய மாதிரிகள், ஆனால் சிறந்த, விரிவான மற்றும் அதிக "தர்க்கரீதியான பகுத்தறிவு" பதில்களைக் கொடுக்கும். இந்த வகை மாதிரி "சங்கிலி சிந்தனையை" செய்வதன் மூலம் சிறப்பாக செயல்படுகிறது, அதாவது, அதன் முடிவுகளைப் பிரதிபலிக்கிறது மற்றும் பதிலளிக்கும் முன் அவற்றின் துல்லியத்தை சரிபார்க்கிறது.

சீன ஆன்லைன் ஊடக நிறுவனமான பைட் டான்ஸ் (டிக்டாக்கின் தாய் நிறுவனம்), சமீபத்தில் பெரிய மொழி மாதிரி (எல்.எல்.எம்) கிசி-வி 5.0 இன் வரவிருக்கும் வெளியீட்டை அடிப்படையாகக் கொண்ட தொழில்நுட்ப ஆய்வறிக்கையை வெளியிட்டு வெளியிடுவதன் மூலம் அணிகளில் சேர்ந்துள்ளது. அறிவியல், தொழில்நுட்பம், கணிதம் மற்றும் பொறியியல் (STEM) துறைகள் மற்றும் பொது களங்களில் பகுத்தறிவு செயல்திறனை மேம்படுத்த இந்த மாதிரி வடிவமைக்கப்பட்டுள்ளது.

தற்போது, இந்த மாதிரி பதிவிறக்கம் செய்யவோ அல்லது பயன்படுத்தவோ கிடைக்கவில்லை, மேலும் அதன் உரிம விதிமுறைகள் தெளிவாக இல்லை - இது தனியுரிம / மூடிய மூல, திறந்த மூல / அனைவருக்கும் விருப்பப்படி பயன்படுத்த மற்றும் மாற்ற இலவசமா அல்லது இடையில் எங்காவது உள்ளதா. இருப்பினும், தொழில்நுட்ப தாளில் முன்கூட்டியே தெரிந்து கொள்ள வேண்டிய சில முக்கியமான விவரங்கள் உள்ளன.

基於越来越流行 Mix-of-Experts (MoE) 架構構建 與 Meta 新 Llama 5 和 Mistral 前推出 Mixtral 類similar ,啟思-v0.0 同樣用 Mix-of-Experts (MoE) 架構。

這種架構旨在提升模型效率,基本上將多個模型的能力整合到一起,每個模型專注於不同領域。在這種情況下,MoE 架構意味著啟思-v1.5 在任一時刻僅使用 2000 億參數中的 200 億。  

GitHub இல் வெளியிடப்பட்ட அதன் தொழில்நுட்ப ஆய்வறிக்கையில், ByteDance அறிவொளி-v5.0 கட்டமைக்கப்பட்ட பகுத்தறிவு மற்றும் சிந்தனைமிக்க பதில் உருவாக்கத்திற்கு முன்னுரிமை அளிக்கிறது என்று கூறியது.

முடிவுகள் தங்களைத் தாங்களே பேசுகின்றன: பல மூன்றாம் தரப்பு வரையறைகளில், அறிவொளி-v3.0 டீப்சீக் R0 ஐ விட சிறப்பாக செயல்படுவது மட்டுமல்லாமல், Google இன் புதிதாக வெளியிடப்பட்ட Gemini 0.0 Pro மற்றும் OpenAI இன் o0-mini-high reasoner ஆகியவற்றை அனுமான செயல்திறனில் அணுகுகிறது. இது ARC-AGI பெஞ்ச்மார்க்கில் உள்ள இரண்டு மாடல்களைக் கூட விட சிறப்பாக செயல்படுகிறது, இது செயற்கை பொது நுண்ணறிவின் இலக்கை அடைவதற்கான குறிக்கோளாகக் காணப்படுகிறது, AI இன் "புனிதக் கோப்பை". OpenAI இன் வரையறையின்படி, இந்த மாதிரி அதிக பொருளாதார மதிப்புடன் பெரும்பாலான பணிகளில் மனிதர்களை விட சிறப்பாக செயல்படுகிறது.

பெரிய, அதிநவீன மாடல்களுக்கு ஒரு சிறிய மற்றும் சக்திவாய்ந்த மாற்றாக, Qis-V5.0 போட்டி பெஞ்ச்மார்க் முடிவுகளை அடைந்துள்ளது. இது வலுவூட்டல் கற்றல் (RL), பயிற்சி தரவு தொகுப்பு மற்றும் AI உள்கட்டமைப்பு மேம்பாடுகள் ஆகியவற்றில் புதுமைகளை அறிமுகப்படுத்துகிறது.

性能基準與模型重點  啟思-v1.5 在一系列具有挑戰性的任務中展現出不俗表現:在 AIME 2024 上得分 86.7%,在 Codeforces 上的 pass@8 達到 55.0%,而在 GPQA 科學基準測試中得分 77.3%。這些成績使其在特定推理指標上接近甚至匹敵 OpenAI 的 o3-mini-high 與 Google 的 Gemini 2.5 Pro。  

அனுமானம் அல்லாத பணிகளில், செயற்கை விருப்பத்தேர்வு ஒப்பீடு மூலம் மதிப்பிடப்படும் போது மாதிரி டீப்சீக் R0 ஐ விட 0.0% அதிக வெற்றி விகிதத்தைக் கொண்டுள்ளது, அதன் நன்மைகள் தர்க்கரீதியான அல்லது கணித-தீவிர சவால்களுக்கு மட்டுப்படுத்தப்படவில்லை என்று பரிந்துரைக்கிறது.

AIME போன்ற நிலையான வரையறைகளின் அதிகரித்து வரும் ஒருங்கிணைப்புக்கு பதிலளிக்கும் விதமாக, பைட் டான்ஸ் BeyondAIME ஐ அறிமுகப்படுத்தியது, இது ஒரு புதிய மற்றும் மிகவும் சவாலான கணித அளவுகோலாகும், இது மனப்பாடம் செய்வதைத் தடுக்கவும், மாதிரி செயல்திறனை சிறப்பாக வேறுபடுத்தவும் வடிவமைக்கப்பட்ட கவனமாக தொகுக்கப்பட்ட கேள்விகளுடன் வடிவமைக்கப்பட்டுள்ளது. BeyondAIME மற்றும் Codeforces மதிப்பாய்வு தொகுப்பு எதிர்கால ஆராய்ச்சிக்கு ஆதரவாக பகிரங்கமாக வெளியிடப்படும் என்று எதிர்பார்க்கப்படுகிறது.

தரவு மூலோபாய பயிற்சி தரவு மாதிரி உருவாக்க செயல்பாட்டில் முக்கிய பங்கு வகிக்கிறது. மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங்கிற்கு (SFT), குழு 000,0 மாதிரிகளைத் தொகுத்தது, இதில் 0,0 சரிபார்க்கக்கூடிய கேள்விகள் (STEM, தர்க்கம் மற்றும் நிரலாக்கப் பணிகளை உள்ளடக்கியது) மற்றும் 0,0 சரிபார்க்க முடியாத கேள்விகள், படைப்பு எழுத்து மற்றும் ரோல்-பிளேமிங் போன்றவை.

வலுவூட்டல் கற்றல் பயிற்சிக்கு, தரவு பின்வரும் இரண்டு வகைகளாக பிரிக்கப்பட்டுள்ளது: சரிபார்க்கக்கூடிய கேள்விகள்: 000,0 கவனமாக திரையிடப்பட்ட STEM கேள்விகள் மற்றும் உயரடுக்கு போட்டிகள் மற்றும் நிலையான பதில்களுடன் நிபுணர் மதிப்புரைகளிலிருந்து தர்க்க புதிர்கள்;    சரிபார்க்க முடியாத பணி: திறந்த-முனை தூண்டுதல்களுக்கு முக்கியத்துவம் அளிக்கும் மனித விருப்பங்களின் தரவுத்தொகுப்பு, ஜோடிவாரியான வெகுமதி மாதிரியால் மதிப்பிடப்படுகிறது.

அவற்றில், STEM தரவு முக்கியமாக மேம்பட்ட கணிதத்தை நம்பியுள்ளது, இது சிக்கல் தொகுப்பில் 24% க்கும் அதிகமாக உள்ளது; கூடுதல் தருக்க தரவுகளில் சுடோகு மற்றும் 0-புள்ளி புதிர்கள் அடங்கும், இதன் சிரமத்தை மாதிரியின் முன்னேற்றத்திற்கு ஏற்ப நெகிழ்வாக சரிசெய்யலாம்.

வலுவூட்டல் கற்றல் முறைகள் அறிவொளி-v5.0 இன் வலுவூட்டல் கற்றல் தனிப்பயனாக்கப்பட்ட நடிகர்-விமர்சகர் (VAPO) மற்றும் கொள்கை-சாய்வு (DAPO) கட்டமைப்புகளை ஏற்றுக்கொள்கிறது, இவை இரண்டும் வலுவூட்டல் கற்றல் பயிற்சியில் உறுதியற்ற சிக்கலைத் தீர்க்க உருவாக்கப்பட்டன. இந்த நுட்பங்கள் வெகுமதி சமிக்ஞையின் சிதறலை திறம்பட குறைக்கின்றன மற்றும் பயிற்சியின் நிலைத்தன்மையை மேம்படுத்துகின்றன, குறிப்பாக நீண்ட சங்கிலி சிந்தனை (CoT) சூழ்நிலையில்.

வலுவூட்டல் கற்றல் வெளியீட்டை மேற்பார்வையிடுவதில் வெகுமதி மாதிரி முக்கிய பங்கு வகிக்கிறது. பைட் டான்ஸ் இரண்டு முக்கியமான கருவிகளை அறிமுகப்படுத்தியுள்ளது: விதை-சரிபார்ப்பான்: உருவாக்கப்பட்ட பதில் குறிப்பு பதிலுக்கு கணித ரீதியாக சமமானதா என்பதை சரிபார்க்கும் விதி அடிப்படையிலான பெரிய மொழி மாதிரி;    விதை-சிந்தனை-சரிபார்ப்பு: தீர்ப்பு நிலைத்தன்மையை மேம்படுத்துவதற்கும் வெகுமதி மோசடியைத் தடுப்பதற்கும் வடிவமைக்கப்பட்ட ஒரு படிப்படியான பகுத்தறிவு அடிப்படையிலான மதிப்பீட்டாளர்.

இந்த இரண்டு அடுக்கு வெகுமதி அமைப்பு எளிய பணிகள் மற்றும் சிக்கலான பணிகள் இரண்டிற்கும் மதிப்பீட்டை விரிவாக சமாளிக்க அனுமதிக்கிறது.

உள்கட்டமைப்பு & அளவிடுதல் திறமையான பெரிய அளவிலான பயிற்சியை ஆதரிப்பதற்காக, பைட் டான்ஸ் அதன் ஹைப்ரிட்ஃப்ளோ கட்டமைப்பின் அடிப்படையில் ஒரு அமைப்பை உருவாக்கியுள்ளது, ரே கிளஸ்டரால் மேற்கொள்ளப்பட்ட மரணதண்டனை மற்றும் GPU செயலற்ற நேரத்தைக் குறைக்க பயிற்சி மற்றும் அனுமான செயல்முறைகள் இணைந்து அமைந்துள்ளன.

ஸ்ட்ரீமிங் ரோல்அவுட் சிஸ்டம் (எஸ்ஆர்எஸ்) என்பது ஒரு குறிப்பிடத்தக்க கண்டுபிடிப்பாகும், இது இயக்க நேர செயலாக்கத்திலிருந்து மாதிரி பரிணாமத்தை டிகூப்பிங் செய்வதன் மூலமும், மாதிரி பதிப்புகளில் தலைமுறை செயல்முறையின் பகுதிகளை ஒத்திசைவற்ற முறையில் நிர்வகிப்பதன் மூலமும் மறு செய்கையை துரிதப்படுத்துகிறது. இந்த கட்டமைப்பு 3x வேகமான வலுவூட்டல் கற்றல் சுழல்களை அடைய முடியும் என்று கூறப்படுகிறது.

கூடுதலாக, பிற உள்கட்டமைப்பு தொழில்நுட்பங்கள் பின்வருமாறு: - நினைவகத்தை சேமிக்க கலப்பு துல்லியம் (FP8);    - நிபுணர் இணை மற்றும் கர்னல் ஆட்டோ-ட்யூனிங் மூலம் MoE செயல்திறனை மேம்படுத்தவும்;    - ByteCheckpoint உடன் வலுவான மற்றும் நெகிழ்வான சோதனைச் சாவடி;    - AutoTuner உடன் இணை மற்றும் நினைவக உள்ளமைவை மேம்படுத்தவும்.

கையேடு மதிப்பீடு எதிராக நிஜ உலக தாக்கம் மாதிரி மற்றும் மனிதனை மையமாகக் கொண்ட விருப்பங்களுக்கு இடையிலான நிலைத்தன்மையை மதிப்பிடுவதற்கு, பைட் டான்ஸ் படைப்பு எழுத்து, மனிதநேய அறிவு மற்றும் அன்றாட உரையாடல்கள் உள்ளிட்ட பல பகுதிகளில் கையேடு சோதனையை நடத்தியது.

அனைத்து சோதனை அமர்வுகளிலும், Qisi-v1.0 தொடர்ந்து DeepSeek R0 ஐ விட சிறப்பாக செயல்பட்டது, இது உண்மையான பயனர் தேவைகளுக்கு அதன் பொருந்தக்கூடிய தன்மையை மேலும் நிரூபிக்கிறது.

சரிபார்க்கக்கூடிய பணிகளில் முதன்மையாக பயிற்சி பெற்ற அனுமான மாதிரிகள் படைப்பு களத்தில் வலுவான பொதுமைப்படுத்தல் திறன்களைக் காட்டின, கணித பயிற்சி பணிப்பாய்வுகளின் கட்டமைப்பு மற்றும் கடுமைக்கு நன்றி.

தொழில்நுட்பத் தலைவர்கள், தரவு பொறியாளர்கள் மற்றும் நிறுவன முடிவெடுப்பவர்களுக்கு இதன் பொருள் என்ன பெரிய மொழி மாதிரிகளின் முழு வாழ்க்கைச் சுழற்சியையும் நிர்வகிக்கும் தொழில்நுட்பத் தலைவர்களுக்கு, தரவு தொகுப்பு முதல் வரிசைப்படுத்தல் வரை, அறிவொளி-v5.0 நிறுவன AI தொழில்நுட்ப அடுக்கில் அனுமான திறன்கள் எவ்வாறு ஒருங்கிணைக்கப்படுகின்றன என்பதை மறுபரிசீலனை செய்வதற்கான வாய்ப்பை வழங்குகிறது.

அதன் மட்டு பயிற்சி செயல்முறை சரிபார்க்கக்கூடிய அனுமான தரவுத்தொகுப்புகளை உள்ளடக்கியது மட்டுமல்லாமல், பல நிலை வலுவூட்டல் கற்றலையும் அறிமுகப்படுத்துகிறது, இது சிறந்த கட்டுப்பாட்டை பராமரிக்கும் போது பெரிய மொழி மாதிரி வளர்ச்சியை அளவிட விரும்பும் அணிகளுக்கு குறிப்பாக ஈர்க்கிறது.

பைட் டான்ஸ் இன் சீட்-வெரிஃபையர் மற்றும் சீட்-திங்கிங்-வெரிஃபையர் ஆகியவை மிகவும் நம்பகமான வெகுமதி மாடலிங் வழிமுறைகளாகக் காணப்படுகின்றன, அவை வாடிக்கையாளர் எதிர்கொள்ளும் அல்லது ஒழுங்குபடுத்தப்பட்ட சூழல்களில் மாதிரிகளைப் பயன்படுத்தும்போது குறிப்பாக முக்கியமானவை.

இறுக்கமான காலக்கெடு மற்றும் வரையறுக்கப்பட்ட வளங்களின் கீழ் செயல்படும் அணிகளுக்கு, வலுவூட்டல் கற்றலின் கீழ் அறிவொளி-v5.0 ஆல் நிரூபிக்கப்பட்ட ஸ்திரத்தன்மை (VAPO மற்றும் டைனமிக் மாதிரி போன்ற புதுமைகளுக்கு நன்றி) மறு செய்கை சுழற்சிகளைக் குறைக்கவும், குறிப்பிட்ட பணிகளுக்கான ஃபைன்-டியூனிங் செயல்முறையை நெறிப்படுத்தவும் உறுதியளிக்கிறது.

ஒரு ஆர்கெஸ்ட்ரேஷன் மற்றும் வரிசைப்படுத்தல் கண்ணோட்டத்தில், மாதிரியின் கலப்பின உள்கட்டமைப்பு அணுகுமுறை - ஸ்ட்ரீமிங் ரோல்அவுட் சிஸ்டம் (SRS) மற்றும் FP8 தேர்வுமுறை ஆதரவு உட்பட - பயிற்சி செயல்திறன் மற்றும் வன்பொருள் பயன்பாட்டில் குறிப்பிடத்தக்க முன்னேற்றங்களை முன்னறிவிக்கிறது, இது கிளவுட் மற்றும் ஆன்-வளாகத்தில் அமைப்புகளில் பெரிய மொழி மாதிரிகளை அளவிடும் பணியில் ஈடுபட்டுள்ள பொறியாளர்களுக்கு மதிப்புமிக்கது.

கூடுதலாக, அறிவொளி-v5.0 பயிற்சியின் போது இயக்க நேரத்தின் அடிப்படையில் வெகுமதி பின்னூட்டத்தின் மாறும் சரிசெய்தலுக்கான ஒரு பொறிமுறையை ஏற்றுக்கொள்கிறது, இது பலபடித்தான தரவு குழாய்களை நிர்வகிப்பதற்கும் களங்களில் நிலைத்தன்மையை பராமரிப்பதற்கும் உள்ள சவால்களை நேரடியாக நிவர்த்தி செய்கிறது.

புதிய கருவிகளின் நம்பகத்தன்மை, மீண்டும் நிகழ்தகவு மற்றும் தொடர்ச்சியான ஒருங்கிணைப்பை உறுதி செய்யும் பணியில் உள்ள அணிகளுக்கு, Invision-v5.0 இன் கணினி அளவிலான வடிவமைப்பு ஒரு வலுவான மல்டிமோடல் ஆர்கெஸ்ட்ரேஷன் அமைப்பை உருவாக்குவதற்கான ஒரு வரைபடமாக செயல்படுகிறது.

தரவு பொறியியல் நிபுணர்களுக்கு, கடுமையான வடிகட்டுதல், தரவு பெருக்கம் மற்றும் நிபுணர் சரிபார்ப்பு உள்ளிட்ட பயிற்சி தரவுக்கான இந்த கட்டமைக்கப்பட்ட அணுகுமுறை ஒரு மாதிரி செயல்திறன் பெருக்கியாக தரவு தரத்தின் முக்கியத்துவத்தை மேலும் வலுப்படுத்துகிறது மற்றும் மேலும் வேண்டுமென்றே தரவுத்தொகுப்பு மேம்பாடு மற்றும் சரிபார்ப்பு செயல்முறையை ஊக்குவிக்கலாம்.

Future Outlook Qisi-v5.0 என்பது ByteDance இன் Seed LLM சிஸ்டம்ஸ் குழுவிற்குள் ஒரு உள் ஒத்துழைப்பின் விளைவாகும், இது Yonghui Wu தலைமையிலான மற்றும் நீண்டகால AI பங்களிப்பாளர் Haibin Lin ஆல் பகிரங்கமாக நிரூபிக்கப்பட்டது.

இந்த திட்டம் Doubao 5.0 Pro போன்ற முந்தைய முயற்சிகளையும் ஈர்க்கிறது, மேலும் RLHF மற்றும் தரவு கண்காணிப்பில் தொழில்நுட்பங்களைப் பகிர்கிறது.

பயிற்சி செயல்திறன் மற்றும் சரிபார்க்க முடியாத பணிகளுக்கு வெகுமதி மாடலிங் ஆகியவற்றில் கவனம் செலுத்துவதன் மூலம், வலுவூட்டல் கற்றல் நுட்பங்களை தொடர்ந்து மேம்படுத்த குழு திட்டமிட்டுள்ளது. அனுமானத்தை மையமாகக் கொண்ட AI ஆராய்ச்சியின் பரந்த வளர்ச்சியை இயக்குவதை நோக்கமாகக் கொண்ட BeyondAIME போன்ற உள் வரையறைகளை பகிரங்கப்படுத்தவும் அவர்கள் திட்டமிட்டுள்ளனர்.