DeepSeek: AI пейзажында төңкеріс жасайтын бұзушы

AIPU WATON ТОБЫ

Кіріспе

Бәсекелес ірі модельдер, нарық үлесі үшін бәсекелесетін бұлттық провайдерлер және еңбекқор чип өндірушілер арасындағы үздіксіз алаңдаушылық — DeepSeek әсері сақталады.

Көктем фестивалі аяқталып келе жатқанда, DeepSeek айналасындағы толқу әлі де күшті. Жақында өткен мереке технологиялық индустриядағы бәсекелестіктің маңызды сезімін көрсетті, көптеген адамдар осы «сомды» талқылап, талдады. Силикон алқабы бұрын-соңды болмаған дағдарыс сезімін бастан өткеруде: ашық бастапқы кодты жақтаушылар қайтадан өз пікірлерін білдіруде, тіпті OpenAI өзінің жабық бастапқы стратегиясы ең жақсы таңдау болған-болмайтынын қайта бағалайды. Төмен есептеу шығындарының жаңа парадигмасы Nvidia сияқты чип гиганттары арасында тізбекті реакцияны тудырды, бұл АҚШ қор нарығы тарихындағы бір күндік нарықтық құнның жоғалуына әкелді, ал мемлекеттік органдар DeepSeek пайдаланатын чиптердің сәйкестігін зерттеп жатыр. Шетелдегі DeepSeek-тің аралас шолулары кезінде ол ерекше өсуді бастан кешіруде. R1 үлгісін іске қосқаннан кейін, байланысты қолданба трафиктің өсуін байқады, бұл қолданба секторларындағы өсу жалпы AI экожүйесін алға жылжытатынын көрсетеді. Оң жағы - DeepSeek қолданба мүмкіндіктерін кеңейтеді, бұл ChatGPT-ке сенім арту болашақта соншалықты қымбат болмайды дегенді білдіреді. Бұл өзгеріс OpenAI-дің соңғы әрекеттерінде, соның ішінде DeepSeek R1-ге жауап ретінде тегін пайдаланушылар үшін o3-mini деп аталатын пайымдау үлгісін ұсыну, сондай-ақ o3-mini ойлау тізбегін көпшілікке жария еткен кейінгі жаңартулар арқылы көрініс тапты. Көптеген шетелдік пайдаланушылар DeepSeek-ке осы әзірлемелер үшін алғыс білдірді, дегенмен бұл ойлар тізбегі қорытынды ретінде қызмет етеді.

Оптимистік тұрғыдан, DeepSeek отандық ойыншыларды біріктіретіні анық. Оқыту шығындарын азайтуға назар аудара отырып, әртүрлі жоғары ағындық чип өндірушілері, аралық бұлттық провайдерлер және көптеген стартаптар DeepSeek моделін пайдалану үшін шығындар тиімділігін арттыра отырып, экожүйеге белсенді түрде қосылуда. DeepSeek құжаттарына сәйкес, V3 моделін толық оқыту үшін бар болғаны 2,788 миллион H800 GPU сағаты қажет және оқу процесі өте тұрақты. MoE (Сарапшылар қоспасы) архитектурасы 405 миллиард параметрі бар Llama 3-пен салыстырғанда дайындық алдындағы шығындарды он есе азайту үшін өте маңызды. Қазіргі уақытта V3 - бұл БМ-де мұндай жоғары сиректікті көрсететін көпшілік мойындаған алғашқы модель. Сонымен қатар, MLA (көп қабатты назар) синергетикалық түрде жұмыс істейді, әсіресе пайымдау аспектілерінде. «ҚМ неғұрлым сирек болса, есептеу қуатын толығымен пайдалану үшін пайымдау кезінде қажет партия өлшемі соғұрлым үлкен болады, KVCache өлшемі негізгі шектеуші фактор болып табылады; MLA KVCache өлшемін айтарлықтай азайтады», - деп атап өтті Chuanjing Technology зерттеушісі AI Technology Review талдауында. Жалпы, DeepSeek табысы бір ғана емес, әртүрлі технологияларды біріктіруде. Өнеркәсіп инсайдерлері DeepSeek командасының инженерлік мүмкіндіктерін жоғары бағалайды, олардың параллельді оқыту мен операторды оңтайландырудағы тамашалығын атап өтіп, әрбір бөлшекті нақтылау арқылы жаңашыл нәтижелерге қол жеткізеді. DeepSeek-тің ашық бастапқы тәсілі үлкен модельдердің жалпы дамуын одан әрі күшейтеді және егер ұқсас модельдер кескіндерге, бейнелерге және т.б. кеңейсе, бұл саладағы сұранысты айтарлықтай ынталандырады деп күтілуде.

Үшінші тараптың дәлелдеу қызметтерінің мүмкіндіктері

Деректер DeepSeek шыққаннан бері бар болғаны 21 күн ішінде күнделікті 22,15 миллион белсенді пайдаланушыны (DAU) жинап, ChatGPT пайдаланушы базасының 41,6%-ына қол жеткізіп, Doubao қолданбасын күнделікті 16,95 миллион белсенді пайдаланушыдан асып түскенін көрсетеді, осылайша Apple Store елдеріндегі ең жылдам дамып келе жатқан қолданбаға айналды/15. Дегенмен, пайдаланушылар көптеп жиналып жатқанда, киберхакерлер DeepSeek қолданбасына тынымсыз шабуыл жасап, оның серверлеріне айтарлықтай жүктеме тудырды. Сала сарапшылары бұл ішінара DeepSeek-тің оқуға арналған карталарды орналастыруымен байланысты, бірақ ой қорыту үшін жеткілікті есептеу күші жоқ деп санайды. Өнеркәсіп инсайдері AI Technology Review-ке: «Жиі жиі кездесетін сервер мәселелерін ақы алу немесе қосымша машиналарды сатып алу үшін қаржыландыру арқылы оңай шешуге болады; сайып келгенде, бұл DeepSeek шешімдеріне байланысты» деп хабарлады. Бұл өндіріске қарсы технологияға назар аударудағы ымырасыздықты көрсетеді. DeepSeek көбіне өзін-өзі қамтамасыз ету үшін кванттық кванттауға сүйенді, аз ғана сыртқы қаржыландыруды алды, нәтижесінде ақша ағынының салыстырмалы түрде төмен қысымы және таза технологиялық орта болды. Қазіргі уақытта жоғарыда аталған проблемаларды ескере отырып, кейбір пайдаланушылар DeepSeek-ті әлеуметтік желілерде пайдалану шегін көтеруге немесе пайдаланушының жайлылығын арттыру үшін ақылы мүмкіндіктерді енгізуге шақырады. Сонымен қатар, әзірлеушілер оңтайландыру үшін ресми API немесе үшінші тарап API интерфейстерін пайдалана бастады. Дегенмен, DeepSeek-тің ашық платформасы жақында «Ағымдағы сервер ресурстары тапшы және API қызметін қайта зарядтау тоқтатылды» деп жариялады.

 

Бұл AI инфрақұрылымы секторындағы үшінші тарап жеткізушілеріне көбірек мүмкіндіктер ашатыны сөзсіз. Жақында көптеген отандық және халықаралық бұлттық алпауыттар DeepSeek моделінің API интерфейстерін іске қосты - Microsoft және Amazon шетел алпауыттары қаңтар айының соңында алғашқылардың бірі болып қосылды. Отандық көшбасшы Huawei Cloud 1 ақпанда Silicon негізіндегі Flow-пен бірлесе отырып, DeepSeek R1 және V3 пайымдау қызметтерін шығарып, бірінші қадамды жасады. AI Technology Review есептері Silicon негізіндегі Flow қызметтері платформаны тиімді «бұзатын» пайдаланушылар ағынын байқағанын көрсетеді. Үлкен үш технологиялық компаниялар - BAT (Baidu, Alibaba, Tencent) және ByteDance - сонымен қатар 3 ақпаннан бастап арзан, шектеулі уақыт ұсыныстарын шығарды, бұл DeepSeek-тің V2 моделін іске қосу арқылы тұтанған өткен жылғы бұлтты сатушылардың баға соғысын еске түсіреді, онда DeepSeek «баға қасапшысы» деп атала бастады. Бұлтты жеткізушілердің ашулы әрекеттері Microsoft Azure мен OpenAI арасындағы бұрынғы берік байланыстарды қайталайды, мұнда 2019 жылы Microsoft OpenAI-ге 1 миллиард доллар көлемінде инвестиция жасады және ChatGPT 2023 жылы іске қосылғаннан кейін пайда тапты. Дегенмен, бұл тығыз қарым-қатынас Meta ашық бастапқы коды бар Llama-дан кейін бұзыла бастады, бұл Microsoftemystos Azureec-тен тыс басқа жеткізушілерге олардың үлкен үлгілерімен бәсекеге түсуге мүмкіндік берді. Бұл жағдайда DeepSeek өнімнің жылуы бойынша ChatGPT-тен асып түсіп қана қоймай, сонымен қатар Llama-ның GPT-3-ті қайта жаңғыртуына байланысты толқу сияқты o1 шығарылымынан кейін ашық бастапқы модельдерді де енгізді.

 

Шындығында, бұлттық провайдерлер өздерін AI қолданбалары үшін трафик шлюзі ретінде орналастырады, яғни әзірлеушілермен байланыстарды тереңдету алдын ала артықшылықтарға айналады. Есептер Baidu Smart Cloud-та модельді іске қосу күні Qianfan платформасы арқылы DeepSeek моделін пайдаланатын 15 000-нан астам тұтынушы болғанын көрсетеді. Сонымен қатар, бірнеше кішігірім фирмалар шешімдерді ұсынады, соның ішінде Silicon негізіндегі Flow, Luchen Technology, Chuanjing Technology және DeepSeek үлгілеріне қолдау көрсеткен әртүрлі AI Infra провайдерлері. AI Technology Review DeepSeek-ті локализацияланған орналастыру үшін ағымдағы оңтайландыру мүмкіндіктері негізінен екі салада бар екенін білді: бірі гибридті GPU/CPU қорытындысын пайдалана отырып, 671 миллиард параметрлік MoE үлгісін жергілікті түрде орналастыру үшін аралас пайымдау тәсілін пайдалана отырып, ТМ моделінің сирек сипаттамаларын оңтайландыру. Сонымен қатар, MLA оңтайландыруы өте маңызды. Дегенмен, DeepSeek екі үлгісі әлі де орналастыруды оңтайландыруда кейбір қиындықтарға тап болады. «Модельдің өлшемі мен көптеген параметрлеріне байланысты оңтайландыру шынымен күрделі, әсіресе өнімділік пен құн арасындағы оңтайлы тепе-теңдікке қол жеткізу қиын болатын жергілікті орналастырулар үшін», - деді Chuanjing Technology зерттеушісі. Ең маңызды кедергі жад сыйымдылығының шектеулерін еңсеру болып табылады. «Біз орталық процессорларды және басқа есептеу ресурстарын толығымен пайдалану үшін біркелкі емес ынтымақтастық тәсілін қолданамыз, бұл жоғары өнімді процессор операторлары арқылы өңдеу үшін CPU/DRAM-ға сирек MoE матрицасының ортақ емес бөліктерін ғана орналастырамыз, ал тығыз бөліктер GPU-да қалады», - деп түсіндірді ол әрі қарай. Есептер Chuanjing компаниясының ашық бастапқы негізі KTransformers негізінен CUDAGraph сияқты әдістерді қолдану арқылы қорытынды жылдамдығын едәуір арттыра отырып, үлгі арқылы бастапқы Transformers іске асыруына әртүрлі стратегиялар мен операторларды енгізетінін көрсетеді. DeepSeek бұл стартаптар үшін мүмкіндіктер жасады, өйткені өсу артықшылықтары айқын бола бастады; көптеген фирмалар DeepSeek API іске қосқаннан кейін оңтайландыруды іздейтін алдыңғы клиенттерден сұраулар алған соң, тұтынушылардың айтарлықтай өсуі туралы хабарлады. Өнеркәсіп инсайдерлері былай деп атап өтті: "Бұрын біршама қалыптасқан клиенттер топтары жиі ірі компаниялардың стандартталған қызметтеріне құлыпталатын, олардың ауқымына байланысты шығындардың артықшылықтарымен тығыз байланысты. Дегенмен, көктемгі фестивальге дейін DeepSeek-R1/V3 орналастыруды аяқтағаннан кейін, біз кенеттен бірнеше танымал клиенттерден ынтымақтастық сұрауларын алдық, тіпті DeSeep компаниясының бұрынғы қызметтерін де таныстырдық." Қазіргі уақытта DeepSeek модельді шығару өнімділігін барған сайын маңызды етіп отырған сияқты және үлкен үлгілерді кеңірек қабылдаумен бұл AI Infra индустриясының дамуына айтарлықтай әсер етеді. Егер DeepSeek деңгейіндегі модельді жергілікті жерде арзан бағамен орналастыру мүмкін болса, бұл үкімет пен кәсіпорынның цифрлық трансформациялау күш-жігеріне үлкен көмегін тигізер еді. Дегенмен, қиындықтар сақталуда, өйткені кейбір клиенттер үлкен үлгі мүмкіндіктеріне қатысты үлкен үміт күтуі мүмкін, бұл өнімділік пен шығынды теңестіру практикалық қолдануда маңыздырақ болатынын айқынырақ етеді. 

DeepSeek ChatGPT-тен жақсы екенін бағалау үшін олардың негізгі айырмашылықтарын, күшті жақтарын және пайдалану жағдайларын түсіну қажет. Міне, жан-жақты салыстыру:

Мүмкіндік/аспект DeepSeek ChatGPT
Меншік Қытайлық компания әзірлеген OpenAI әзірлеген
Бастапқы үлгі Ашық дереккөз Меншік
Құны Қолдану тегін; арзанырақ API кіру опциялары Жазылым немесе пайдалану үшін төлеу бағасы
Баптау Пайдаланушыларға оны өзгертуге және құруға мүмкіндік беретін жоғары теңшелетін Шектеулі теңшеу қол жетімді
Арнайы тапсырмалардағы өнімділік Деректерді талдау және ақпаратты іздеу сияқты белгілі бір салалардағы Excel бағдарламасы Шығармашылық жазуда және сөйлесу тапсырмаларында күшті өнімділігі бар жан-жақты
Тілдік қолдау Қытай тілі мен мәдениетіне қатты көңіл бөлу Кең тілді қолдау, бірақ АҚШ-қа негізделген
Оқыту құны Тиімділік үшін оңтайландырылған оқыту шығындары төмен Елеулі есептеу ресурстарын талап ететін жоғары оқу шығындары
Жауаптың өзгеруі Геосаяси контекст әсер еткен болуы мүмкін әртүрлі жауаптар ұсына алады Жаттығу деректеріне негізделген дәйекті жауаптар
Мақсатты аудитория Икемділікті қалайтын әзірлеушілер мен зерттеушілерге арналған Сөйлесу мүмкіндіктерін іздейтін жалпы пайдаланушыларға арналған
Пайдалану жағдайлары Кодты жасау және жылдам тапсырмалар үшін тиімдірек Мәтін құру, сұрауларға жауап беру және диалогқа қатысу үшін өте қолайлы

«Nvidia-ны бұзуға» сыни көзқарас

Қазіргі уақытта Huawei-ден басқа Moore Threads, Muxi, Biran Technology және Tianxu Zhixin сияқты бірнеше отандық чип өндірушілер де DeepSeek екі үлгісіне бейімделуде. Чип өндірушісі AI Technology Review-ке былай деді: "DeepSeek құрылымы инновацияны көрсетеді, бірақ ол LLM болып қала береді. Біздің DeepSeek-ке бейімделуіміз, ең алдымен, техникалық іске асыруды өте қарапайым және жылдам ететін ой-пікірлерді қолдануға бағытталған." Дегенмен, БМ көзқарасы бейімделу кезінде шешуді қажет ететін көптеген инженерлік қиындықтарды тудыратын отандық чиптермен орналастыру кезінде үйлесімділікті қамтамасыз етумен бірге сақтау және тарату тұрғысынан жоғары талаптарды талап етеді. «Қазіргі уақытта отандық есептеу қуаты Nvidia-ға ыңғайлылық пен тұрақтылық жағынан сәйкес келмейді, бұл бағдарламалық жасақтама ортасын орнату, ақауларды жою және негізгі өнімділікті оңтайландыру үшін зауыттың бастапқы қатысуын талап етеді», - деді сала маманы практикалық тәжірибеге негізделген. Сонымен қатар, "DeepSeek R1 параметрінің үлкен масштабына байланысты отандық есептеу қуаты параллельдеу үшін көбірек түйіндерді қажет етеді. Оған қоса, отандық аппараттық құралдардың сипаттамалары әлі де біршама артта қалды; мысалы, Huawei 910B қазіргі уақытта DeepSeek ұсынған FP8 тұжырымын қолдай алмайды." DeepSeek V3 моделінің маңызды сәттерінің бірі - бұл өте үлкен үлгіде тиімді түрде расталған, маңызды жетістікке жеткен FP8 аралас дәлдіктегі оқыту жүйесін енгізу. Бұрын Microsoft және Nvidia сияқты ірі ойыншылар осыған байланысты жұмысты ұсынды, бірақ салада техникалық-экономикалық тұрғыдан күмән бар. INT8-мен салыстырғанда, FP8-дің негізгі артықшылығы - жаттығудан кейінгі кванттау қорытынды жылдамдығын айтарлықтай арттыра отырып, жоғалтпай дерлік дәлдікке қол жеткізе алатыны түсініледі. FP16-мен салыстырғанда, FP8 Nvidia H20-де екі есеге дейін және H100-де 1,5 еседен астам жеделдетуді жүзеге асыра алады. Атап айтқанда, отандық есептеу қуаты мен отандық модельдер тенденциясына қатысты пікірталастар қарқын алған сайын, Nvidia-ның бұзылуы мүмкін бе және CUDA шұңқырын айналып өтуге бола ма деген болжамдар барған сайын кеңейе түсуде. Бір даусыз факт, DeepSeek шынымен де Nvidia-ның нарықтық құнының айтарлықтай төмендеуіне әкелді, бірақ бұл ауысу Nvidia-ның жоғары деңгейлі есептеу қуатының тұтастығына қатысты сұрақтар тудырады. Капиталға негізделген есептеу жинақтарына қатысты бұрын қабылданған әңгімелер сынға ұшырауда, бірақ Nvidia-ны оқыту сценарийлерінде толығымен ауыстыру қиын болып қала береді. DeepSeek-тің CUDA-ны терең қолдануын талдау икемділік (мысалы, байланыс үшін SM пайдалану немесе желілік карталарды тікелей басқару) қарапайым GPU-лар үшін мүмкін емес екенін көрсетеді. Өнеркәсіптік көзқарастар Nvidia-ның шұңқыры тек CUDA-ның өзін емес, бүкіл CUDA экожүйесін қамтитынын және DeepSeek қолданатын PTX (параллельді жіпті орындау) нұсқаулары әлі де CUDA экожүйесінің бөлігі болып табылатынын атап көрсетеді. "Қысқа мерзімді перспективада Nvidia-ның есептеу қабілетін айналып өту мүмкін емес - бұл әсіресе оқытуда анық; дегенмен, ойлау үшін отандық карталарды қолдану салыстырмалы түрде оңайырақ болады, сондықтан ілгерілеу жылдамырақ болады. Отандық карталарды бейімдеу, ең алдымен, қорытынды жасауға бағытталған; әлі ешкім DeepSeek өнімділігінің үлгісін отандық технологиялар бойынша үйрете алмаған", - деп атап өтті AI технологиялары. Тұтастай алғанда, қорытынды тұрғысынан алғанда, жағдай отандық ірі үлгідегі чиптер үшін жігерлендіреді. Отандық чип өндірушілерінің қорытынды жасау саласындағы мүмкіндіктері оқуға кіруге кедергі келтіретін тым жоғары талаптарға байланысты айқынырақ. Сарапшылардың пікірінше, отандық қорытынды карталарды пайдалану жеткілікті; қажет болса, қосымша машинаны сатып алу мүмкін болады, ал оқу үлгілері ерекше қиындықтар туғызады — машиналар санын көбейту ауыртпалық тудыруы мүмкін және қателердің жоғары деңгейі оқу нәтижелеріне теріс әсер етуі мүмкін. Оқыту сонымен қатар кластерлік масштабқа қатысты арнайы талаптарға ие, ал қорытынды жасау үшін кластерлерге қойылатын талаптар соншалықты қатаң емес, осылайша GPU талаптарын жеңілдетеді. Қазіргі уақытта Nvidia жалғыз H20 картасының өнімділігі Huawei немесе Cambrian карталарынан асып түспейді; оның күші топтастыруда. Luchen Technology компаниясының негізін қалаушы Ю Ян есептеу қуаты нарығына жалпы әсерге сүйене отырып, AI Technology Review журналына берген сұхбатында былай деп атап өтті: "DeepSeek ультра үлкен оқыту есептеу кластерлерінің құрылуына және жалға берілуіне уақытша нұқсан келтіруі мүмкін. Ұзақ мерзімді перспективада үлкен үлгіні оқытумен байланысты шығындарды айтарлықтай азайту арқылы, дәлелдеу және нарықтық сұранысқа негізделген AI сұранысы болуы мүмкін. сондықтан бұл есептеуіш қуат нарығындағы тұрақты сұранысты үнемі арттыратын болады ». Сонымен қатар, «DeepSeek-тің пайымдаулар мен нақтылау қызметтеріне сұранысының артуы жергілікті қуаттар салыстырмалы түрде әлсіз болып табылатын отандық есептеу ландшафтымен үйлеседі, бұл кластер құрудан кейінгі бос ресурстардың қалдықтарын азайтуға көмектеседі; бұл отандық есептеу экожүйесінің әртүрлі деңгейлеріндегі өндірушілер үшін өміршең мүмкіндіктер жасайды. Luchen Technology отандық есептеу қуатына негізделген DeepSeek R1 сериялы пайымдау API және бұлтты бейнелеу қызметтерін іске қосу үшін Huawei Cloud компаниясымен бірлесіп жұмыс істеді. You Ян болашаққа оптимистік көзқарасын білдірді: «DeepSeek отандық өндіріс шешімдеріне сенім ұялатады, болашақта отандық есептеу мүмкіндіктеріне үлкен ынта мен инвестицияны ынталандырады».

微信图片_20240614024031.jpg1

Қорытынды

DeepSeek ChatGPT-тен «жақсы» ма, пайдаланушының нақты қажеттіліктері мен мақсаттарына байланысты. Икемділікті, төмен бағаны және теңшеуді қажет ететін тапсырмалар үшін DeepSeek жоғарырақ болуы мүмкін. Шығармашылық жазу, жалпы сұрау және пайдаланушыға ыңғайлы сөйлесу интерфейстері үшін ChatGPT жетекшілік ете алады. Әрбір құрал әртүрлі мақсаттарға қызмет етеді, сондықтан таңдау олар қолданылатын контекстке байланысты болады.

ELV кабелінің шешімін табыңыз

Басқару кабельдері

BMS, BUS, өнеркәсіптік, аспаптық кабель үшін.

Құрылымдық кабель жүйесі

Желі және деректер, талшықты-оптикалық кабель, патч-корд, модульдер, бет тақтасы

2024 көрмелер мен оқиғаларға шолу

16-18 сәуір, 2024 ж. Дубайдағы Таяу Шығыс-Энергия

16-18 сәуір, 2024 жылы Мәскеуде Секурика

9 мамыр, 2024 ж. Шанхайда ЖАҢА ӨНІМДЕР МЕН ТЕХНОЛОГИЯЛАРДЫ БАСТАУ ОҚИҒАСЫ

22-25 қазан, 2024 ҚЫТАЙ ҚАУІПСІЗДІК Бейжіңде

19-20 қараша, 2024 ҚОСЫЛҒАН ӘЛЕМ ҚСА


Жіберу уақыты: 10 ақпан 2025 ж