«Әлемдегі ең ақылды» тестілеу grok3

AIPU WATON тобы (1)

Кіріспе

Сіздің ойыңызша, Grook3 алдын-ала дайындалған модельдердің «соңғы нүктесі» болады деп ойлайсыз ба?

Элон Муск және Сай-коммуникация құрамасы «Grook3», Grook3-тің соңғы нұсқасын тікелей бастады. Осы шараға дейін, мускустың тәулік бойы 10/7 жарнамалық алдауымен біріккен ақпараттың айтарлықтай мөлшері, grook3-тен бұрын-соңды болмаған деңгейге дейін. Осыдан бір апта бұрын, Мускус Deechsek R1-ге түсініктеме берген кезде, «xai AI үлгісін іске қосуға» деген жігерлі моймақ сенімді түрде мәлімдеді. Ұсынылған мәліметтерден Grook3 математика, ғылым және бағдарламалаудың барлық негізгі модельдерінен, мысалы, математика, ғылым және бағдарламалаудың барлық негізгі модельдерінен асып түсті, бұл Мускус, сонымен қатар, «Нобель сыйлығының деңгейіндегі Нобель сыйлығының деңгейіндегі» серпіліс үшін есептеулер үшін пайдаланылады деп мәлімдеді. Алайда, бұл уақытта бұл жай ғана мұсылмандардың пікірлері. Іске қосылғаннан кейін мен Grook3-тің соңғы бета нұсқасын сынап көрдім және үлкен модельдер үшін классикалық трюк сұрадым: «қайсысы үлкен, 9.11 немесе 9.9?» Өкінішке орай, ешқандай квалификаторларсыз немесе белгілерсіз, ең ақылды Grook3 деп аталатын, әлі де бұл сұраққа дұрыс жауап бере алмады. GROK3 Сұрақтың мағынасын дәл анықтай алмады.

 

Бұл сынақ көптеген достардың назарын аударады, және дәл осындай тестілеулер Шотерлинг «Пизеннің қай доп алғашқы доп алғашқы доп алдымен құлаған?» Сұрақтарымен grook3-тің күрескенін көрсетті. Осылайша, ол әзілмен «қарапайым сұрақтарға жауап бергісі келмейтін данышпан» деп белгіленген.

640

GROK3 жақсы, бірақ R1 немесе O1-Pro-ден жақсы емес.

GROK3 тәжірибесінде көптеген жалпы білім тестілері бойынша «сәтсіздіктерді» бастан өткерді. XAI-ны іске қосу кезінде Мускус грок3 көмегімен, ол көбінесе ойын жолынан кейіпкерлер сабақтарын және эффектілерді талдау үшін, ол жиі ойнағанын, бірақ grook3 ұсынған жауаптардың көпшілігі дұрыс болмады. Мускус өмір сүрген кезде бұл айқын мәселені байқамады.

 

Бұл қателік шетелдік желілерге арналған мускоздар үшін «алмастырғышты табу» үшін одан әрі дәлел келтіріп қана қоймай, «алмастырғышты табу» үшін, бірақ сонымен бірге «Grook3» -ның практикалық қосымшаларда сенімділігі туралы айтарлықтай алаңдаушылық туғызды. Мұндай «данышпан» үшін оның өзекті жағдайына қарамастан, оның нақты мүмкіндіктеріне қарамастан, оның дұрыстығы, мысалы, Марсте барлау тапсырмалары, мысалы, кешенді қолдану сценарийлерінің сенімділігі күмән тудырады.

 

Қазіргі уақытта грок3 апта бұрын қол жеткізген көптеген сынақшылар және кеше бірнеше сағатқа қол жеткізгендер, барлығы бірнеше сағатқа созылды, барлығы ортақ қорытындыға бағытталған: «GROK3 жақсы, бірақ бұл R1 немесе O1-Pro-ден жақсы емес».

640 (1)

«Нвидияны бұзу» тақырыбындағы маңызды перспектива

Шығарылған кезде ресми түрде ұсынылған PPP-те GROK3 чат-графикалық әдістермен көрсетілген, бірақ бұл ақылды графикалық әдістерді көрсетті: көшбасшы тақтадағы тік осьтер тек 1400-1300 балл диапазонында көрсетілген, бұл презентацияда 1% айырмашылық ерекше маңызды болып табылады.

640

Нақты үлгерімде грок3 Grook3 Deepseek R1 және GPT-4.0 алдында 1-2%, бұл көптеген пайдаланушылардың практикалық сынақтардағы тәжірибелеріне сәйкес келеді, бұл «айтарлықтай айырмашылықтардан» табады. Grook3 тек өзінің мұрагерлерінен тек 1% -2% -ға асады.

640

Grok3 қазіргі уақытта сыналған модельдерден жоғары гол соқты, бірақ көбісі бұны байыпты қабылдамайды: «Өйткені, grok2 дәуіріндегі XAI бұдан бұрын« баллды манипуляциялау үшін »бұрын сынға алынған. Көшбасшыға жазаланған кезде жауаптардың ұзындығы бойынша, ұпайлар айтарлықтай төмендеді, жетекші өнеркәсіптік инсайдерлер «жоғары скоринг, бірақ төмен қабілеттілігінің» феноменін жиі сынайды.

 

Көшбасшы тақтасы арқылы «айла-шарғы» немесе иллюстрациялармен жобалау арқылы олар Саи мен мускустың «Муай мен мускус» дегенді біледі, олар «пакетті апаратын» ұғымымен анықтайды. Мускус осы шеттер үшін тік баға төледі: іске қосу кезінде ол 200 000 H100 GPU-ны (100 000-нан астам », DELAGE-ді« 100 000-нан астам », DELAGING-ді« 100 000-нан астам », - деп айыптады) және жалпы оқу мерзімі 200 млн. Бұл кейбіреулерін GPU саласы үшін тағы бір маңызды BOON ұсынғанына және «Дегенсек» секторына «ақымақ» деп санайды деп сендірді. Айта кету керек, кейбіреулер, есептеу техникасы модельдік оқытудың болашағы болады деп санайды.

 

Алайда, кейбір NETIZENS екі ай ішінде Depesek v3 алу үшін 2000 H800 GPUS тұтынуын екі ай ішінде, grok3-тің нақты оқыту қуатын тұтынуы 263 есе көп, бұл 263 есе көп. Depeseek v3 арасындағы алшақтық 1402 ұпайдан, ал «100 балл», ал «100 балл» астында. Осы мәліметтерді шығарғаннан кейін, көптеген адамдар «әлемдегі ең мықты» деген аттың артында «әлемдегі ең мықты» деген аттың артта қалуының айқын айла-амалдары бар екенін түсінді - күшті өнімділікті тудыратын үлкен модельдердің логикасы азаяды.

640 (2)

«Жоғары скорингпен, бірақ төмен қабілеті» бар, «grok2» grok2 қолдануға қолдау көрсету үшін X (Twitter) платформасынан үлкен көлемде жоғары сапалы алғашқы партиялық деректер болды. Алайда, Zrok3-ті оқытуда, XAI-ді «төбеге» табиғи түрде «төбеге» барып, қазіргі уақытта «Шебер» премиум-мәліметтерінің жетіспеушілігі модельдің шекті пайдалылығын тез арада ашады.

 

Grok3 және MUSK әзірлеушілері бұл фактілерді терең түсініп, оны тереңірек анықтайды, сондықтан бұл MUSK әлеуметтік желілерде үнемі «әлі де» нұсқасы «әлі де бета» екенін және «алдағы айларда шығарылады». Мускус grook3 өнім менеджерінің рөліне түсіп, пайдаланушыларға түсініктемелер бөлімінде кездескен түрлі мәселелер бойынша пікірлер ұсынады. Ол жердегі өнім менеджері болуы мүмкін.

 

Бір күн ішінде, «Грок3» компаниясының жұмысы «жаппай есептеу бұлшықеттеріне» «жаппай есептеу бұлшықеттеріне» сенеді деп ойлап, «Жаппай есептеу бұлшықетіне» сенеді деген дабылдар: ашық Microsoft корпорациясының ақпараты бойынша, kockai's gpt-4-ке, ГПТ-3-тен он есе, 1,8 триллион параметрден тұрады. Румалар GPT-4.5 параметрінің өлшемі одан да үлкен болуы мүмкін деп болжайды.

 

Модель өлшемдері Siles Siear ретінде, жаттығу шығындары да асып түседі. GPT3-тің қатысуымен GPT-4.5 сияқты үміткерлер және параметрлер мөлшері арқылы үлкейтуді жалғастырғысы келетін, олар «ақшаны жағу» және басқалар, бұл параметрдің өлшемі арқылы жақсы үлгерімге қол жеткізу үшін, ол қазір анық көрінетін және оны қалай жеңуге болатынын ескеруі керек. Қазіргі уақытта Илья Сутск, Ашидайдағы бұрынғы ғалым, бұрынғы ғалым, бұған дейін өткен жылдың желтоқсан айында, «біз алдын-ала дайындық аяқталады», ол пікірталастарда қайта өңделді, олар үлкен үлгілерді оқытудың шынайы жолын іздеуге тырысқан.

640 (3)

Ильяның көзқарасы салада дабыл естілді. Ол қол жетімді жаңа деректердің сарқылуын дәл алдын-ала болжайды, олар деректерді алу арқылы жақсарта бере алмайтын жағдайға әкеледі, оны өнімділікті арттыруды жалғастыра бермейді, оны қазбалы отынның сарқылуымен салыстырады. Ол «Интернеттегі май сияқты, адам жасайтын мазмұн сияқты, шектеулі ресурс» деп көрсетілген. Сутсайдың болжамдарында, келесі буын модельдерінің, алдын-ала дайындық, алдын-ала дайындық, «шынайы автономия» және «адамның миына ұқсас» ойлау қабілеті бар.

 

Бүгінгіден бастап, қазіргі заманғы оқытылған модельдерден айырмашылығы, ең алдымен, мазмұнды сәйкестендіруге сенеді (бұрын білілген модель мазмұны негізінде), болашақ AI жүйелері проблемаларды адам миының «ойлауына» шешуге мүмкіндік бере алады. Адам жаңа негізгі кәсіби әдебиеттермен тақырыпты іргелі деңгейге көтере алады, ал AI үлкен модельге кірудің ең қарапайым үлгісіне қол жеткізу үшін миллиондаған деректер нүктелері қажет. Егер сөз аздап өзгерсе де, бұл негізгі сұрақтар дұрыс түсінілмеуі мүмкін, бұл модель ақыл-ойда шынымен жақсармағанын суреттеуі керек: мақаланың басында айтылған маңызды емес сұрақтар осы құбылыстың нақты мысалын білдіреді.

微信图片 _2024061024024034031031031.jpg1

Қорытынды

Алайда, егер «GROK3» күш-жігерінің арасынан тыс, егер «Алдын-ала дайындалған модельдер жақындап келе жатқан», бұл саланың маңызды салдары бар.

Мүмкін, groeng-ді біртіндеп аяғаннан кейін, біз біртіндеп аяғынан кейін, біз FEI-FEI LI-дің «FEI-FEI» лидің «50 долларға арналған нақты үлгілерді баптаудың» үлгісі сияқты, біз AGI-ге шынайы жолды ашудың «

ELV кабельдік ерітіндісін табыңыз

Басқару кабельдері

BMS, автобус, өндірістік, аспаптық кабель үшін.

Құрылымдық кабель жүйесі

Желі және деректер, талшықты-оптикалық кабель, патч сымы, модульдер, қарақұйрық

2024 көрмелер мен Оқиғалар қарау

Сәт.16-шы 18, 1824 Дубайдағы 2024 Таяу-Шығыс-Энергетика

12 сәуір, 1824, Мәскеудегі 2024 Security

Мамыр. 2024 ж. Шанхайда жаңа өнімдер мен технологияларды іске қосу іс-шарасы

Қазан.22.224, 2024 ҚЫСҚАША БЕЙЖІҢ ҚЫСҚАША

Nov.19-20, 2024 ЖАҢА КОСПА ҚСА


POST TIME: ақпан-19-2025