Не позволявайте на съхранението да се превърне в основното пречка в обучението на модели

Говори се, че технологичните компании или се борят за графични процесори, или са на път да ги придобият.През април изпълнителният директор на Tesla Илон Мъск закупи 10 000 графични процесора и заяви, че компанията ще продължи да купува голямо количество графични процесори от NVIDIA.От страна на предприятието, ИТ персоналът също настоява да гарантира, че графичните процесори се използват постоянно, за да се увеличи максимално възвръщаемостта на инвестициите.Въпреки това, някои компании може да открият, че докато броят на GPU се увеличава, бездействието на GPU става по-тежко.

Ако историята ни е научила на нещо за високопроизводителните изчисления (HPC), това е, че съхранението и работата в мрежа не трябва да се жертват за сметка на прекаленото фокусиране върху изчисленията.Ако съхранението не може ефективно да прехвърля данни към изчислителните единици, дори и да имате най-много GPU в света, няма да постигнете оптимална ефективност.

Според Майк Матчет, анализатор в Small World Big Data, по-малки модели могат да се изпълняват в памет (RAM), което позволява повече фокус върху изчисленията.По-големите модели като ChatGPT с милиарди възли обаче не могат да се съхраняват в паметта поради високата цена.

„Не можете да поберете милиарди възли в паметта, така че съхранението става още по-важно“, казва Матчет.За съжаление, съхранението на данни често се пренебрегва по време на процеса на планиране.

Като цяло, независимо от случая на използване, има четири общи точки в процеса на обучение на модела:

1. Обучение по модел
2. Приложение за извод
3. Съхранение на данни
4. Ускорено изчисление

Когато създавате и внедрявате модели, повечето изисквания дават приоритет на среди за бързо доказване на концепцията (POC) или среди за тестване, за да инициират обучение на модели, като нуждите от съхранение на данни не се обръщат на първо място.

Предизвикателството обаче се крие във факта, че обучението или внедряването на изводи може да продължи месеци или дори години.Много компании бързо увеличават размерите на своите модели през това време и инфраструктурата трябва да се разшири, за да поеме нарастващите модели и набори от данни.

Изследване на Google върху милиони работни натоварвания за обучение по ML разкрива, че средно 30% от времето за обучение се изразходва за тръбопровода за входни данни.Въпреки че миналите изследвания са фокусирани върху оптимизирането на графичните процесори за ускоряване на обучението, все още остават много предизвикателства при оптимизирането на различни части от тръбопровода за данни.Когато разполагате със значителна изчислителна мощност, истинското затруднение става колко бързо можете да подадете данни в изчисленията, за да получите резултати.

По-конкретно, предизвикателствата при съхранението и управлението на данни изискват планиране за нарастване на данните, което ви позволява непрекъснато да извличате стойността на данните, докато напредвате, особено когато се впуснете в по-напреднали случаи на употреба, като дълбоко обучение и невронни мрежи, които поставят по-високи изисквания към съхранение по отношение на капацитет, производителност и мащабируемост.

В частност:

Мащабируемост
Машинното обучение изисква работа с огромни количества данни и с увеличаването на обема на данните се подобрява и точността на моделите.Това означава, че фирмите трябва да събират и съхраняват повече данни всеки ден.Когато съхранението не може да се мащабира, натоварванията с интензивно използване на данни създават тесни места, ограничавайки производителността и водейки до скъпоструващо време на престой на GPU.

Гъвкавост
Гъвкавата поддръжка за множество протоколи (включително NFS, SMB, HTTP, FTP, HDFS и S3) е необходима, за да отговори на нуждите на различни системи, вместо да бъде ограничена до един тип среда.

Латентност
I/O латентността е критична за изграждането и използването на модели, тъй като данните се четат и препрочитат многократно.Намаляването на I/O латентността може да съкрати времето за обучение на моделите с дни или месеци.По-бързото разработване на модели директно води до по-големи бизнес предимства.

Пропускателна способност
Пропускателната способност на системите за съхранение е от решаващо значение за ефективното обучение на модели.Процесите на обучение включват големи количества данни, обикновено в терабайти на час.

Паралелен достъп
За да се постигне висока производителност, моделите на обучение разделят дейностите на множество паралелни задачи.Това често означава, че алгоритмите за машинно обучение имат достъп до едни и същи файлове от множество процеси (потенциално на множество физически сървъри) едновременно.Системата за съхранение трябва да се справя с едновременни изисквания, без да компрометира производителността.

Със своите изключителни възможности за ниска латентност, висока пропускателна способност и широкомащабни паралелни I/O, Dell PowerScale е идеално допълнение за съхранение към изчисления, ускорени с GPU.PowerScale ефективно намалява времето, необходимо за модели за анализ, които обучават и тестват многотерабайтови набори от данни.В PowerScale all-flash съхранение, честотната лента се увеличава с 18 пъти, елиминирайки входно/изходните пречки и може да се добави към съществуващи клъстери Isilon, за да се ускори и отключи стойността на големи количества неструктурирани данни.

Освен това, възможностите за многопротоколен достъп на PowerScale осигуряват неограничена гъвкавост за изпълнение на работни натоварвания, позволявайки данните да се съхраняват с помощта на един протокол и да се осъществява достъп с помощта на друг.По-конкретно, мощните функции, гъвкавостта, скалируемостта и функционалността от корпоративен клас на платформата PowerScale помагат за справяне със следните предизвикателства:

- Ускоряване на иновациите с до 2,7 пъти, намаляване на цикъла на обучение на модела.

- Елиминирайте тесните места на I/O и осигурете по-бързо обучение и валидиране на модела, подобрена точност на модела, подобрена производителност на науката за данни и максимална възвръщаемост на инвестициите в компютри чрез използване на функции от корпоративен клас, висока производителност, едновременност и скалируемост.Подобрете точността на модела с по-дълбоки набори от данни с по-висока разделителна способност, като използвате до 119 PB ефективен капацитет за съхранение в един клъстер.

- Постигнете внедряване в мащаб, като стартирате малки и независимо мащабиращи изчисления и съхранение, предоставяйки стабилна защита на данните и опции за сигурност.

- Подобрете производителността на научните данни с анализи на място и предварително валидирани решения за по-бързо внедряване с нисък риск.

- Използване на доказани дизайни, базирани на най-добрите технологии, включително NVIDIA GPU ускорение и референтни архитектури с NVIDIA DGX системи.Високата производителност и паралелност на PowerScale отговарят на изискванията за производителност на съхранението на всеки етап от машинното обучение, от събирането и подготовката на данни до обучението и изводите за модели.Заедно с операционната система OneFS, всички възли могат безпроблемно да работят в рамките на един и същ клъстер, управляван от OneFS, с функции на корпоративно ниво като управление на производителността, управление на данни, сигурност и защита на данните, което позволява по-бързо завършване на обучението по модела и валидиране за бизнеса.


Време на публикуване: 3 юли 2023 г