Кіріспе

Grok3 алдын ала дайындалған модельдердің «соңғы нүктесі» болады деп ойлайсыз ба?

Илон Маск пен xAI командасы тікелей эфир кезінде Grok, Grok3 соңғы нұсқасын ресми түрде іске қосты. Осы оқиғаға дейін байланысты ақпараттың айтарлықтай көлемі Масктың 24/7 жарнамалық хайпымен бірге Grok3-ке қатысты жаһандық күтуді бұрын-соңды болмаған деңгейге көтерді. Бір апта бұрын Маск тікелей эфирде DeepSeek R1-ге түсініктеме бере отырып, «xAI жақсырақ AI моделін шығарғалы жатыр» деп сенімді түрде айтты. Тікелей эфирде ұсынылған деректерге сүйенсек, Grok3 математика, ғылым және бағдарламалау бойынша эталондардағы барлық негізгі үлгілерден асып түсті, Маск тіпті Grok3 SpaceX Марс миссияларына қатысты есептеу тапсырмалары үшін пайдаланылады деп мәлімдеп, «үш жыл ішінде Нобель сыйлығы деңгейіндегі серпілістерді» болжайды. Дегенмен, бұл қазір Масктың мәлімдемесі ғана. Іске қосылғаннан кейін мен Grok3-тің соңғы бета нұсқасын сынап көрдім және үлкен модельдер үшін классикалық трюк сұрағын қойдым: «Қайсысы үлкен, 9.11 немесе 9.9?» Өкінішке орай, ешқандай біліктілік немесе белгілерсіз ең ақылды деп аталатын Grok3 әлі де бұл сұраққа дұрыс жауап бере алмады. Grok3 сұрақтың мағынасын дәл анықтай алмады.

Бұл сынақ көптеген достардың назарын тез аударды және кездейсоқ шетелдегі әртүрлі ұқсас сынақтар Grok3-тің «Қай доп Пиза мұнарасынан бірінші түседі?» сияқты негізгі физика/математика сұрақтарымен күресетінін көрсетті. Осылайша, оны «қарапайым сұрақтарға жауап беруді қаламайтын данышпан» деп әзілмен белгіледі.

Grok3 жақсы, бірақ ол R1 немесе o1-Pro-дан жақсы емес.

Grok3 тәжірибеде көптеген жалпы білім сынақтарында «сәтсіздіктерге» ұшырады. xAI іске қосу іс-шарасы кезінде Маск Grok3 көмегімен жиі ойнайды деп мәлімдеген Path of Exile 2 ойынындағы кейіпкерлер кластары мен әсерлерін талдау үшін көрсетті, бірақ Grok3 берген жауаптардың көпшілігі дұрыс болмады. Тікелей эфир кезінде Маск бұл айқын мәселені байқамады.

Бұл қате шетелдік желі қолданушылары үшін Маскты ойында «алмастырушы тапты» деп мазақ ету үшін қосымша дәлелдер беріп қана қоймай, сонымен қатар практикалық қолданбаларда Grok3 сенімділігіне қатысты маңызды алаңдаушылық тудырды. Мұндай «гений» үшін оның нақты мүмкіндіктеріне қарамастан, оның Марсты зерттеу тапсырмалары сияқты өте күрделі қолданбалы сценарийлердегі сенімділігі күмәнді болып қала береді.

Қазіргі уақытта Grok3-ке апта бұрын қол жеткізген көптеген тестерлер және кеше ғана бірнеше сағат бойы модель мүмкіндіктерін сынап көргендердің барлығы ортақ қорытындыға келеді: «Grok3 жақсы, бірақ ол R1 немесе o1-Pro-дан жақсы емес».

«Nvidia-ны бұзуға» сыни көзқарас

Шығарылым кезінде ресми түрде ұсынылған PPT-те Grok3 Chatbot Arena-да «алда алда» екендігі көрсетілді, бірақ бұл графикалық әдістерді шебер пайдаланды: көшбасшылар тақтасындағы тік ось тек 1400-1300 ұпайлар диапазонындағы нәтижелерді тізімдеді, бұл сынақ нәтижелеріндегі бастапқы 1% айырмашылықты осы презентацияда ерекше маңызды етіп көрсетеді.

Модельді бағалаудың нақты нәтижелері бойынша Grok3 DeepSeek R1 және GPT-4.0-тен 1-2% ғана озып кетті, бұл көптеген пайдаланушылардың практикалық сынақтардағы тәжірибесіне сәйкес келеді, олар «айтарлықтай айырмашылық жоқ». Grok3 өзінің мұрагерлерінен 1%-2% ғана асып түседі.

Grok3 қазіргі уақытта көпшілікке сыналған барлық үлгілерден жоғары ұпай жинағанымен, көпшілігі бұған мән бермейді: ақыр соңында, xAI бұрын Grok2 дәуірінде «балл манипуляциясы» үшін сынға алынған. Көшбасшылар тақтасы жауап ұзақтығы стилін жазалағандықтан, ұпайлар айтарлықтай төмендеді, бұл саланың инсайдерлерінің «жоғары ұпай, бірақ қабілеті төмен» құбылысын жиі сынға алуына әкелді.

Көшбасшылар тақтасының «манипуляциясы» немесе иллюстрациялардағы дизайн трюктері арқылы олар xAI мен Масктың модель мүмкіндіктеріндегі «топта жетекшілік ету» ұғымына құмарлығын көрсетеді. Маск бұл маржалар үшін жоғары баға төледі: ұшыру кезінде ол 200 000 H100 GPU (тікелей трансляция кезінде «100 000-нан астам» деп мәлімдейді) пайдаланды және 200 миллион сағаттық жаттығу уақытына қол жеткізді. Бұл кейбіреулердің бұл GPU индустриясы үшін тағы бір маңызды игілік болып табылады және DeepSeek-тің секторға әсерін «ақымақ» деп санауға әкелді. Айта кету керек, кейбіреулер нақты есептеу күші модельдік оқытудың болашағы болады деп санайды.

Дегенмен, кейбір желі қолданушылары DeepSeek V3 шығару үшін екі айдағы 2000 H800 GPU тұтынуын салыстырды, Grok3-тің нақты жаттығу қуатын тұтынуы V3-тен 263 есе көп екенін есептеді. 1402 ұпай жинаған DeepSeek V3 мен Grok3 арасындағы алшақтық 100 ұпайдан сәл ғана аз. Бұл деректер жарияланғаннан кейін көпшілік Grok3-тің «әлемдегі ең күшті» аталуының артында айқын шекті пайдалы әсер жатқанын тез түсінді — күштірек өнімділікті тудыратын үлкен модельдердің логикасы төмендеген кірісті көрсете бастады.

Тіпті «жоғары балл жинаған, бірақ қабілеті төмен» болса да, Grok2 қолдануды қолдау үшін X (Twitter) платформасынан жоғары сапалы бірінші тарап деректерінің үлкен көлеміне ие болды. Дегенмен, Grok3 жаттығуларында xAI, әрине, OpenAI тап болатын «төбеге» тап болды — жоғары деңгейлі оқыту деректерінің болмауы модель мүмкіндіктерінің шекті пайдалылығын тез көрсетеді.

Grok3 және Musk әзірлеушілері бұл фактілерді бірінші болып терең түсініп, анықтаған болуы мүмкін, сондықтан Маск әлеуметтік желілерде пайдаланушылар қазір бастан кешіріп жатқан нұсқасы «әлі де тек бета нұсқасы» екенін және «толық нұсқасы алдағы айларда шығады» деп үнемі айтып келеді. Маск Grok3 өнім менеджерінің рөлін өз мойнына алып, пайдаланушыларға түсініктемелер бөлімінде кездесетін әртүрлі мәселелер бойынша кері байланыс жасауды ұсынады. Ол жер бетіндегі ең көп жазылатын өнім менеджері болуы мүмкін.

Дегенмен, бір күн ішінде Grok3 өнімділігі күшті үлкен үлгілерді дайындау үшін «массалық есептеу бұлшықетіне» сенуге үміттенетіндер үшін дабыл қалары сөзсіз: жалпыға қол жетімді Microsoft ақпаратына негізделген OpenAI GPT-4 параметрінің өлшемі 1,8 триллион параметрді құрайды, бұл GPT-3-тен он есе артық. Сыбыс GPT-4.5 параметрінің өлшемі одан да үлкен болуы мүмкін деп болжайды.

Модель параметрлерінің өлшемдері өскен сайын оқыту шығындары да күрт өсуде. Grok3-тің қатысуымен GPT-4.5 және параметр өлшемі арқылы модельдің жақсырақ өнімділігіне қол жеткізу үшін «ақшаны жағуды» жалғастырғысы келетін басқа үміткерлер қазір анық көрінетін төбені қарастырып, оны қалай жеңуге болатынын ойлауы керек. Осы сәтте OpenAI-дің бұрынғы бас ғалымы Илья Суцкевер өткен желтоқсанда «Бізге таныс алдын ала дайындық аяқталады» деп мәлімдеді, бұл талқылауларда қайта жанданып, үлкен модельдерді оқытудың шынайы жолын табуға күш салды.

Ильяның көзқарасы салада дабыл қағады. Ол қол жетімді жаңа деректердің жақын арада таусылуын дәл болжаған, бұл деректерді алу арқылы өнімділікті арттыруға болмайтын жағдайға әкеліп, оны қазбалы отынның сарқылуына ұқсатты. Ол «мұнай сияқты, интернеттегі адам жасаған мазмұн шектеулі ресурс» екенін көрсетті. Суцкевердің болжамы бойынша, дайындықтан кейінгі үлгілердің келесі ұрпағы «шынайы автономияға» және «адам миына ұқсас» ойлау қабілеттеріне ие болады.

Ең алдымен мазмұнды сәйкестендіруге (бұрын үйренген үлгі мазмұнына негізделген) негізделген бүгінгі алдын ала дайындалған модельдерден айырмашылығы, болашақ АИ жүйелері адам миының «ойлауына» ұқсас мәселелерді шешу әдістемелерін үйреніп, орната алады. Адам негізгі кәсіби әдебиеттермен пән бойынша іргелі біліктілікке қол жеткізе алады, ал AI үлкен моделі бастапқы деңгейдегі ең қарапайым тиімділікке жету үшін миллиондаған деректер нүктелерін қажет етеді. Мәтінді аздап өзгерткеннің өзінде, бұл негізгі сұрақтар дұрыс түсінілмеуі мүмкін, бұл модельдің интеллект бойынша шынымен жақсармағанын көрсетеді: мақаланың басында айтылған негізгі, бірақ шешілмейтін сұрақтар осы құбылыстың айқын мысалы болып табылады.

Қорытынды

Дегенмен, дөрекі күштен басқа, егер Grok3 шынымен де салаға «алдын ала дайындалған модельдер аяқталуға жақын екенін» аша алса, бұл өріс үшін маңызды салдарларға ие болады.

Grok3 айналасындағы ашу-ыза бірте-бірте басылғаннан кейін, біз Фей-Фэй Лидің мысалы, «бар болғаны $50-ге жоғары өнімді модельдерді баптау» сияқты оқиғалардың куәгері боламыз, нәтижесінде AGI-ға шынайы жол ашылады.

ELV кабелінің шешімін табыңыз

Басқару кабельдері

BMS, BUS, өнеркәсіптік, аспаптық кабель үшін.

Мында басыңыз

Құрылымдық кабель жүйесі

Желі және деректер, талшықты-оптикалық кабель, патч-корд, модульдер, бет тақтасы

Мында басыңыз

2024 көрмелер мен оқиғаларға шолу

Жіберу уақыты: 19 ақпан 2025 ж

«Әлемдегі ең ақылды» Грок3 тестілеу

Кіріспе

Grok3 жақсы, бірақ ол R1 немесе o1-Pro-дан жақсы емес.

«Nvidia-ны бұзуға» сыни көзқарас

Қорытынды

Басқару кабельдері

Құрылымдық кабель жүйесі

16-18 сәуір, 2024 ж. Дубайдағы Таяу Шығыс-Энергия

16-18 сәуір, 2024 жылы Мәскеуде Секурика

9 мамыр, 2024 ж. Шанхайда ЖАҢА ӨНІМДЕР МЕН ТЕХНОЛОГИЯЛАРДЫ БАСТАУ ОҚИҒАСЫ

22-25 қазан, 2024 ҚЫТАЙ ҚАУІПСІЗДІК Бейжіңде

19-20 қараша, 2024 ҚОСЫЛҒАН ӘЛЕМ ҚСА