Не дозволувајте складирањето да стане клучното тесно грло во обуката за модели

Се вели дека технолошките компании или се борат за графички процесори или се на пат да ги добијат. Во април, извршниот директор на Tesla, Илон Маск, купи 10.000 графички процесори и изјави дека компанијата ќе продолжи да купува големо количество графички процесори од NVIDIA. На страната на претпријатието, ИТ персоналот исто така напорно притиска за да се осигура дека графичките процесори постојано се користат за да се максимизира повратот на инвестицијата. Сепак, некои компании може да откријат дека додека бројот на графички процесори се зголемува, безделничењето на графичкиот процесор станува посериозно.

Ако историјата нè научи нешто за пресметување со високи перформанси (HPC), тоа е дека складирањето и вмрежувањето не треба да се жртвуваат на сметка на премногу фокусирање на пресметките. Ако складирањето не може ефикасно да пренесе податоци до компјутерските единици, дури и ако имате најмногу графички процесори во светот, нема да постигнете оптимална ефикасност.

Според Мајк Мечет, аналитичар во Small World Big Data, помалите модели можат да се извршуваат во меморијата (RAM), што овозможува поголемо фокусирање на пресметките. Сепак, поголемите модели како ChatGPT со милијарди јазли не можат да се складираат во меморијата поради високата цена.

„Не можете да вклопите милијарди јазли во меморијата, така што складирањето станува уште поважно“, вели Мечет. За жал, складирањето податоци често се занемарува за време на процесот на планирање.

Во принцип, без оглед на случајот на употреба, постојат четири заеднички точки во процесот на обука на моделот:

1. Обука за модели
2. Апликација за заклучување
3. Складирање на податоци
4. Забрзано пресметување

При креирање и имплементирање на модели, повеќето барања имаат приоритет за брзо докажување на концептот (POC) или околини за тестирање за да се иницира обука за модели, при што потребите за складирање податоци не се земаат во предвид.

Сепак, предизвикот лежи во фактот дека обуката или распоредувањето на заклучоци може да трае со месеци или дури со години. Многу компании брзо ја зголемуваат големината на нивните модели во ова време, а инфраструктурата мора да се прошири за да се приспособат на растечките модели и сетови на податоци.

Истражувањето од Google за милиони оптоварувања за обука за ML открива дека просечно 30% од времето за обука се троши на каналот за влезни податоци. Додека минатите истражувања се фокусираа на оптимизирање на графичките процесори за да се забрза обуката, сè уште остануваат многу предизвици во оптимизирањето на различни делови од протокот на податоци. Кога имате значителна пресметковна моќ, вистинското тесно грло станува колку брзо можете да внесете податоци во пресметките за да добиете резултати.

Поточно, предизвиците во складирањето и управувањето со податоци бараат планирање за раст на податоците, што ќе ви овозможи континуирано да ја извлекувате вредноста на податоците додека напредувате, особено кога се впуштате во случаи на понапредна употреба, како што се длабокото учење и невронските мрежи, кои поставуваат повисоки барања за складирање во смисла на капацитет, перформанси и приспособливост.

Конкретно:

Приспособливост
Машинското учење бара ракување со огромни количини на податоци, а како што се зголемува обемот на податоци, се подобрува и точноста на моделите. Ова значи дека бизнисите мора да собираат и складираат повеќе податоци секој ден. Кога складирањето не може да се зголеми, работните оптоварувања со интензивни податоци создаваат тесни грла, ограничувајќи ги перформансите и резултираат со скапо време на мирување на графичкиот процесор.

Флексибилност
Флексибилна поддршка за повеќе протоколи (вклучувајќи NFS, SMB, HTTP, FTP, HDFS и S3) е неопходна за да се задоволат потребите на различни системи, наместо да се ограничи на еден тип на околина.

Латентност
Латентноста на В/И е критична за градење и користење на модели бидејќи податоците се читаат и препрочитуваат повеќе пати. Намалувањето на латентноста на В/И може да го скрати времето за обука на моделите за денови или месеци. Побрзиот развој на модел директно се претвора во поголеми деловни предности.

Пропусната моќ
Пропусната моќ на системите за складирање е од клучно значење за ефикасна обука на модели. Процесите за обука вклучуваат големи количини на податоци, обично во терабајти на час.

Паралелен пристап
За да се постигне висока пропусност, моделите за обука ги делат активностите на повеќе паралелни задачи. Ова често значи дека алгоритмите за машинско учење пристапуваат до истите датотеки од повеќе процеси (потенцијално на повеќе физички сервери) истовремено. Системот за складирање мора да се справи со истовремени барања без да се загрозат перформансите.

Со своите извонредни способности за мала латентност, висока пропусност и паралелно I/O од големи размери, Dell PowerScale е идеално дополнување за складирање на компјутерите забрзани со графички процесор. PowerScale ефикасно го намалува времето потребно за моделите за анализа кои обучуваат и тестираат збирки на податоци од повеќе терабајти. Во PowerScale целосно складирање со блиц, пропусниот опсег се зголемува за 18 пати, елиминирајќи ги тесните грла на В/И и може да се додаде во постоечките Isilon кластери за да се забрза и отклучи вредноста на големи количини неструктурирани податоци.

Згора на тоа, можностите за повеќепротоколски пристап на PowerScale обезбедуваат неограничена флексибилност за извршување на работните оптоварувања, овозможувајќи податоците да се складираат со еден протокол и да се пристапи со друг. Поточно, моќните карактеристики, флексибилноста, приспособливоста и функционалноста од типот на претпријатие на платформата PowerScale помагаат во решавањето на следните предизвици:

- Забрзување на иновациите до 2,7 пати, намалувајќи го циклусот на обука за модели.

- Елиминирајте ги тесните грла за влез/излез и обезбедете побрза обука и валидација на моделот, подобрена точност на моделот, подобрена продуктивност на науката за податоци и максимизиран поврат на инвестициите во компјутери со искористување на карактеристиките на ниво на претпријатие, високи перформанси, истовременост и приспособливост. Подобрете ја прецизноста на моделот со подлабоки збирки на податоци со повисока резолуција со користење до 119 PB ефективен капацитет за складирање во еден кластер.

- Постигнете распоредување во обем со започнување со мали и независно скалирање на пресметување и складирање, обезбедувајќи робусна заштита на податоците и безбедносни опции.

- Подобрете ја продуктивноста на науката за податоци со аналитика на место и претходно потврдени решенија за побрзо распоредување со низок ризик.

- Искористување на докажани дизајни засновани на најсовремените технологии, вклучително и NVIDIA GPU забрзување и референтни архитектури со NVIDIA DGX системи. Високите перформанси и истовременоста на PowerScale ги задоволуваат барањата за перформанси за складирање во секоја фаза од машинското учење, од стекнување и подготовка на податоци до обука за модели и заклучоци. Заедно со оперативниот систем OneFS, сите јазли можат беспрекорно да работат во рамките на истиот кластер управуван од OneFS, со функции на ниво на претпријатие, како што се управување со перформанси, управување со податоци, безбедност и заштита на податоците, што овозможува побрзо завршување на обуката за модели и валидација за бизнисите.


Време на објавување: јули-03-2023 година