- Google разработва „TorchTPU“, за да направи своите AI чипове напълно съвместими с PyTorch и да улесни миграцията от графични процесори на Nvidia.
- Ходът има за цел да превърне TPU-тата в масова алтернатива в облака и локалните среди, намалявайки зависимостта от екосистемата CUDA на Nvidia.
- Google си сътрудничи тясно с Meta, администратор на PyTorch, и обмисля да предостави части от стека с отворен код, за да ускори приемането.
- По-силната поддръжка на PyTorch би могла да намали разходите и техническите бариери за предприятията, които искат да диверсифицират своята AI инфраструктура.
Google тихомълком преобразува своята стратегия в надпреварата за изчисления с изкуствен интелектСлед няколко години центриране в собствените си марки на вътрешния пазар, компанията сега полага сериозни усилия, за да направи своите AI чипове да работят безпроблемно с PyTorch, инструментариумът с отворен код, който се превърна в избор по подразбиране за повечето разработчици на AI по целия свят.
В основата на тази промяна е проект, известен вътрешно като „TorchTPU“, усилие, целящо да преодолее разликата между начина, по който е изграден хардуерът на Google, и начина, по който клиентите всъщност изграждат своите системи с изкуствен интелект. Като издига поддръжката на PyTorch до първокласен статус в своите тензорни процесорни единици (TPU), Google се стреми да намали значително... огромното предимство, което Nvidia е изградила чрез своята CUDA софтуерна екосистема.
Google превръща TPU-тата в сериозен конкурент на графичните процесори на Nvidia
TPU-тата на Google отдавна се представят като Високопроизводителни чипове, пригодени за натоварвания, свързани с изкуствен интелект, но те не са се справили с повсеместното разпространение на графичните процесори на Nvidia. Една от ключовите причини е, че Nvidia прекара години, за да се увери, че PyTorch работи изключително добре на техния хардуер, докато Google се фокусираше главно върху собствените си инструменти и вътрешни работни процеси.
В рамките на Alphabet, TPU-тата са се превърнали в критичен двигател на растеж за Google CloudПродажбата на достъп до тези чипове чрез своята облачна платформа сега е централна част от начина, по който Google се стреми да докаже на инвеститорите, че инвестициите ѝ в изкуствен интелект могат да се превърнат в осезаеми приходи, а не само в престиж на изследванията или експериментални продукти.
Въпреки това, хардуерът сам по себе си не е достатъчен за разработчиците. Предприятията, които разглеждат TPU, многократно са казвали на Google, че Съвместимостта на софтуера е проблемЕкипите, които са силно стандартизирали PyTorch, не искат да препроектират кода си или да преквалифицират персонала си само за да изпробват нов чип.
Ето къде се намесва TorchTPU. Инициативата има за цел да накара TPU-тата да се чувстват, от гледна точка на разработчика, толкова лесен за използване с PyTorch, колкото са графичните процесори на Nvidia днесЦелта е съществуващите модели и конвейери на PyTorch да могат да бъдат преместени с минимални промени, така че разходите и рискът от експериментиране с TPU да спаднат рязко.
Говорител на Google Cloud избягва да навлиза в технически подробности, но потвърди, че основната цел е да се предоставят на клиентите... много по-голяма гъвкавост в начина, по който изпълняват AI натоварвания, независимо кой хардуер изберат отдолу.
Какво наистина променя TorchTPU за разработчиците на PyTorch
PyTorch, първоначално създаден и популяризиран от Meta, се превърна в де факто стандартна рамка за изграждане на модерни AI системиПовечето инженери в Силициевата долина и отвъд нея не кодират ръчно ядра за чипове на Nvidia, AMD или Google; вместо това те разчитат на PyTorch и подобни рамки, които предоставят слоеве от предварително изградени компоненти и помощни програми за обучение.
От пускането си през 2016 г., растежът на PyTorch е тясно свързан с CUDA и околните библиотеки, софтуерният пакет, който много анализатори от Уолстрийт смятат за най-важния стратегически актив на Nvidia. Инженерите на Nvidia са инвестирали сериозно, за да гарантират, че PyTorch работи с максимална ефективност на техните графични процесори, което прави тази комбинация избор по подразбиране за обучение и внедряване на мащабни модели с изкуствен интелект.
Google, за разлика от това, прекара години в подкрепа Jax, друга софтуерна рамка, предпочитана особено в собствените си изследователски и продуктови екипи. TPU разчитаха на компилаторен слой, наречен XLA да изпълняват ефективно Jax-базиран код, и голяма част от вътрешния AI софтуерен стек на Google и оптимизациите на производителността бяха изградени около тази комбинация.
Резултатът е, че има нарастващо несъответствие между как самият Google използва своите чипове и как повечето външни клиенти предпочитат да работят. Много предприятия са стандартизирали почти изцяло PyTorch, което означава, че преминаването към TPU обикновено е предполагало революционна промяна в инструментариума, кода и уменията на разработчиците.
С TorchTPU, Google се опитва да премахне това триене. Проектът има за цел да осигури пълноценна поддръжка на PyTorch на TPU устройства, така че компаниите могат да продължат да разчитат на познати библиотеки, цикли на обучение и модели на внедряване, докато променят само основната хардуерна цел. Това би могло рязко да намали както инженерните усилия, така и кривата на обучение за екипите, които искат да оценят производителността на TPU или предимствата по отношение на разходите.
Повече ресурси, отворен код и по-дълбок ангажимент
Според хора, запознати с инициативата, TorchTPU не е просто пореден страничен експеримент. За разлика от някои по-ранни опити PyTorch да работи на TPU, Google вече е възложил повече организационно внимание, бюджет и стратегическо значение към това усилие, третирайки го като централен стълб на пътната си карта за инфраструктура с изкуствен интелект, а не като проект за нишова съвместимост.
Един от най-забележителните елементи, които се разглеждат, е части от софтуерния стек с отворен код зад TorchTPU. Чрез пускането на ключови компоненти в общността, Google се надява да ускори приемането, да привлече външни сътрудници и да изгради доверие сред големите клиенти, които искат прозрачност и дългосрочна стабилност в своите AI платформи.
Това по-отворено отношение има за цел да успокои компаниите, които са смятали, че поддръжката на TPU е твърде тясно свързана с вътрешния начин на работа на Google. Предоставянето на възможност на външни разработчици да инспектират, разширяват и отстраняват грешки в компонентите на TorchTPU би могло да направи TPU-тата се усещат по-малко като собствен остров и по-скоро като първокласен гражданин в по-широката екосистема на PyTorch.
За предприятията това е от практическо значение. Ако TorchTPU успее, това би могло значително намаляване на разходите за миграция от графични процесори на Nvidia към технологични процесори на Google, което прави по-осъществимо диверсифицирането на изчислителната инфраструктура, без да се налага многогодишно пренаписване на софтуера.
Клиентите многократно са казвали на Google, че историческото изискване за преминаване към Jax е било основен възпиращ фактор. PyTorch вече доминира сред разработчиците на изкуствен интелект, а на бързо развиващите се пазари малко организации са склонни да спрат разработването на продуктови пътни карти, докато екипите им... преоборудване около нова рамка само за достъп до алтернативен хардуер.
От вътрешен хардуер до широко корпоративно предложение
Дълго време Alphabet запазваше по-голямата част от капацитета си на TPU за вътрешна употреба в Google, захранвайки търсенето, превода, системите за препоръки и ранните изследвания в областта на изкуствения интелект. Тази позиция започна да се променя през 2022 г., когато на отдела за облачни изчисления бяха дадени по-големи правомощия върху това как се произвеждат и продават TPU.
Оттогава насам, наличието на TPU чрез Google Cloud се е увеличил значителноС нарастването на интереса на бизнеса към изкуствения интелект, Google позиционира своите чипове като начин клиентите да се възползват от висок клас изчисления, без да се налага да управляват собствените си тясно свързани клъстери от графични процесори.
Съвсем наскоро Google направи още една крачка напред, като продажба на TPU директно за внедряване в собствените центрове за данни на клиентите, не само чрез публичния си облак. Тази промяна позволява на по-големи организации със строги регулаторни или латентни изисквания да интегрират TPU в своята локална инфраструктура, като същевременно се възползват от хардуерната пътна карта на Google.
Това разширяване също така променя вътрешните приоритети на Google. Компанията се нуждае от капацитет на TPU както за управлява собствени продукти с изкуствен интелект– от чатбота Gemini до функциите за търсене, задвижвани от изкуствен интелект – и за обслужване на външни клиенти на Google Cloud, включително известни фирми с изкуствен интелект, като Anthropic, които разчитат на нает капацитет на TPU.
За да координира всичко това, Google е повишила лидерството си в инфраструктурата за изкуствен интелект: ветеран-ръководител Амин Вахдат беше назначен за ръководител на инфраструктурата с изкуствен интелект и сега се отчита директно пред главния изпълнителен директор Сундар PichaiТази линия на отчитане подчертава колко централно място е заемал хардуерният и софтуерният пакет за по-широките амбиции на Google в областта на изкуствения интелект.
Партньорство с Meta за укрепване на PyTorch върху TPU
Google не се занимава само с TorchTPU. Според хора, запознати с разговорите, компанията работи в тясно сътрудничество с... Мета, създателят и управителят на PyTorch, за да се ускори подкрепата за TPU и да се съгласуват техническите насоки, които са от полза и за двамата партньори.
Дискусиите между компаниите включват споразумения, които биха дали на Meta достъп до по-голям капацитет на TPUСпоред съобщенията, по-ранни предложения са оформяли това като управлявани услуги: Google ще разполага своите чипове в среди, където Meta може да изпълнява собствен софтуер и модели, като Google ще се грижи за голяма част от оперативните разходи.
За Meta, осигуряването на ефективна работа на PyTorch в по-широк спектър от хардуер е от стратегическо значение. Компанията има ясен стимул да... намаляване на разходите за извод и диверсификация, отдалечаване от изключителната зависимост от графичните процесори на Nvidia, както за да намали собствените си разходи, така и за да засили позицията си в преговорите при бъдещи покупки на чипове.
Чрез сътрудничество с Google, Meta може да помогне да се гарантира, че PyTorch остава хардуерно независим и широко оптимизиран, вместо да се възприема като тясно обвързана с екосистемата на един-единствен доставчик. Това от своя страна засилва статута на PyTorch като общностен стандарт и поддържа рамката привлекателна както за изследователите, така и за предприятията.
Мета досега отказва публично да коментира тези конкретни договорености, но съгласуваността на интересите е яснаГигантът в социалните медии и изкуствения интелект иска опции отвъд Nvidia, докато Google иска PyTorch да се усеща като „нативен“ за неговите TPU, така че повече клиенти да са склонни да ги изпробват.
Намаляване на предимството на Nvidia в CUDA
Доминацията на Nvidia в областта на изкуствения интелект не се състои само в доставката на мощни графични процесори. В продължение на много години компанията е изградила обширен софтуерен стек, базиран на който е дълбоко интегриран във фреймуъркове като PyTorch. Тази комбинация от хардуер и софтуер се е превърнала в платформа по подразбиране за обучение и изводи за авангардни модели на изкуствен интелект.
Поради тази тясна интеграция, много организации виждат да се отдалечава от Nvidia като рисковано и скъпоКодовите бази, работните процеси и експертният опит на персонала са настроени за CUDA, което прави алтернативните чипове да изглеждат като потенциален източник на напрежение, дори ако обещават по-добри цени или производителност на хартия.
Усилията на Google с TorchTPU са директен опит да се подкопае това предимство. Ако PyTorch може да работи на TPU с подобно ниво на лекота и настройване на производителността, както на графичните процесори на Nvidia, предприятията печелят. надеждна алтернатива за големи натоварвания с изкуствен интелектНа пазар, където търсенето на изчисления с изкуствен интелект нараства рязко и ограниченията на предлагането са често срещани, наличието на друга сериозна опция би могло да бъде много привлекателно.
В същото време, решението на Google да обмисли отворения код на ключови части от стека TorchTPU сигнализира за различен подход от по-вертикално интегрирания стил на Nvidia. Като споделя повече от основния софтуер, Google се стреми да... изграждане на доверие сред разработчиците, които ценят прозрачността и преносимостта.
Нищо от това не гарантира, че TPU ще заменят графичните процесори, но променя сметката. Вместо да избират между зрялата екосистема на Nvidia и алтернатива, която изисква пълна миграция на инструменти, клиентите биха могли да преценят... производителност, цена и наличност докато оставате в познатата среда на PyTorch.
Както в облака, така и в локалните внедрявания, тази промяна би могла да улесни организациите да доставчици на комбиниран хардуер с течение на времето, вместо да заключват своите пътни карти за изкуствен интелект към един-единствен доставчик по подразбиране.
Тъй като Google задълбочава ангажимента си към PyTorch чрез TorchTPU, разширява корпоративния достъп до TPU и засилва сътрудничеството с Meta, конкурентна среда около инфраструктурата с изкуствен интелект става все по-гъвкав. Преднината на Nvidia, изградена върху години на хардуер и CUDA интеграция, все още е значителна, но клиентите вече виждат по-реалистични пътища за диверсифициране на това къде се изпълняват техните AI натоварвания и колко плащат за основните изчисления.
