1: Вопросы программирования и оптимизации приложений на CUDA. Лекторы: Обухов А. Н. (Nvidia) Боресков А. В. (ВМиК МГУ) Харламов А. А. (Nvidia)
2: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Разное
3: Содержание Процесс разработки программ CUDA Портирование части приложения Общие рекомендации по оптимизации Инструментарий Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Разное
4: Процесс разработки программ CUDA Определение класса портируемой задачи Уровень параллелизма. SIMD Классы задач, которые в общем случае невозможно распараллелить
5: Процесс разработки программ CUDA
6: Содержание Процесс разработки программ CUDA Портирование части приложения Общие рекомендации по оптимизации Инструментарий Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Разное
7: Процесс разработки программ CUDA Переосмысление задачи в терминах параллельной обработки данных Выявляйте параллелизм Максимизируйте интенсивность вычислений Иногда выгоднее пересчитать чем сохранить Избегайте лишних транзакций по памяти Особое внимание особенностям работы с различными видами памяти (об этом дальше) Эффективное использование вычислительной мощи Разбивайте вычисления с целью поддержания сбалансированной загрузки SMов Параллелизм потоков vs. параллелизм по данным
8: Процесс разработки программ CUDA Общие рекомендации по оптимизации Occupancy Покрытие латентностей: инструкции потока выполняются последовательно Исполнение других потоков необходимо для покрытия латентностей Занятость: отношение активных варпов к максимально возможному В архитектуре Tesla 32 варпа на SM
9: Процесс разработки программ CUDA Общие рекомендации по оптимизации Occupancy Увеличение занятости приводит к лучшему покрытию латентностей После определенной точки (50), происходит насыщение Занятость ограничена достыпными ресурсами: Регистры Разделяемая память
10: Содержание Процесс разработки программ CUDA Портирование части приложения Общие рекомендации по оптимизации Инструментарий Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Разное
11: Процесс разработки программ CUDA
12: Процесс разработки программ CUDA Статическая компиляция: IDE(MS Visual Studio cuda. rules), Makefile, CL PTX JIT-компиляция
13: Процесс разработки программ CUDA
14: Процесс разработки программ CUDA GPU debugger Wednesday, April 08: Today NVIDIA announces an industry milestone for GPU Computing. With CUDA 2. 2 beta we are including the industries 1st GPU HW Debugger to our developer community. GPU emulation -deviceemu DDEVICEEMU Запускает по одному host-процессу на каждый CUDA-поток Работоспособность в режиме эмуляции не всегда кореллирует с работоспособностю на GPU Два инструмента не конкурируют, а дополняют друг друга Один из интересных сценариев: Boundchecker Emulation
15: Процесс разработки программ CUDA Достоинства эмуляции Исполняемый файл, скомпилированный в режиме эмуляции работает целиком на CPU Не требуется драйвер CUDA и GPU Каждый поток GPU эмулируется потоком CPU При работе в режиме эмуляции можно: Использовать средства отладки CPU (точки останова и т. д. ) Обращаться к любым данным GPU с CPU и наоборот Делать любые CPU-вызовы из код GPU и наоборот (например printf()) Выявлять ситуации зависания, возникающие из-за неправильного применения syncthreads()
16: Процесс разработки программ CUDA Недостатки эмуляции Часто работает очень медленно Неумышленное разыменование указателей GPU на стороне CPU или наоборот Результаты операций с плавающей точкой CPU и «настоящего» GPU почти всегда различаются из-за: Разного порядка выполняемых операций Разных допустимых ошибок результатов Использования большей точности при расчёте промежуточных результатов на CPU
19: Процесс разработки программ CUDA CUDA Profiler, позволяет отслеживать: Время исполнения на CPU и GPU в микросекундах Конфигурацию grid и thread block Количество статической разделяемой памяти на блок Количество регистров на блок Коэффициент занятости GPU (Occupancy) Количество объединенных и индивидуальных запросов к глобальной памяти (coalescing) Количество дивергентных путей исполнения (branching) Количество выполненных инструкций Количество запущенных блоков Вся эта информация собирается с первого SM или TPC. Профилирование Uber-kernelов с осторожностью
20: Оптимизация
21: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Константная Текстурная Глобальная Разделяемая Паттерны программирования на CUDA Стратегии распределения работы Разное
22: Работа с константной памятью Быстрая, кешируемая, только для чтения Данные должны быть записаны до вызова кернела (например при помощи cudaMemcpyToSymbol) Всего 64Kb (Tesla) Объявление при помощи слова constant Доступ из device кода простой адресацией Срабатывает за 4 такта на один адрес внутри варпа 4 такта на всю транзакцию в случае если все потоки внутри варпа читают один адрес В худшем случае 64 такта
23: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Константная Текстурная Глобальная Разделяемая Паттерны программирования на CUDA Стратегии распределения работы Разное
24: Работа с текстурной памятью Быстрая, кешируемая в 2-х измерениях, только для чтения Данные должны быть записаны при помощи cudaMemcpyToArray, либо возможно прикрепление к глобальной памяти через cudaBindTexture2D Объявление при помощи текстурных ссылок Доступ из device кода при помощи tex1D, tex2D, tex1Dfetch Лучшая производительность при условии что потоки одного варпа обращаются к локализованной окрестности в 2D
25: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Константная Текстурная Глобальная Разделяемая Паттерны программирования на CUDA Стратегии распределения работы Разное
26: Работа с глобальной памятью Медленная, некешируемая (G80), чтение/запись Запись данных с/на хост через cudaMemcpy Транзакции по PCI-e медленные: макс. 4GB/s vs. 80 GB/s при копировании device-device Возможность асинхронных транзакций Ускорение транзакций путем выделения host page-locked памяти (cudaMallocHost) Объявление при помощи слова global Доступ простой индексацией Время доступа от 400 до 600 тактов на транзакцию – высокая латентность
27: Работа с глобальной памятью 16 потоков. Типы транзакций: 4-байтовые слова, одна 64-байтовая транзакция 8-байтовые слова, одна 128-байтовая транзакция 16-байтовые слова, две 128-байтовых транзакции Все 16 элементов должны лежать в едином сегменте, размер и выравнивание которого совпадает с размером транзакции Строгий порядок доступа: k-й поток обращается к k-му элементу в сегменте При нарушении порядка вместо одной транзакции получается 16 Некоторые из потоков могут не участвовать
28: Работа с глобальной памятью
29: Работа с глобальной памятью Объединенная транзакция получается, если все элементы лежат в сегментах: размера 32 байта, потоки обращаются к 1-байтовым элементам размера 64 байта, потоки обращаются к 2-байтовым элементам размера 128 байт, потоки обращаются к 4- и 8-байтовым элементам Нестрогий порядок доступа. Возможно обращение несколькими потоками к одному адресу При выходе за границы сегмента число транзакций увеличивается минимально
30: Работа с глобальной памятью
31: Работа с глобальной памятью Используйте cudaMallocPitch для работы с 2D-массивами Конфигурируйте блоки с большей протяженностью по x Параметризуйте конфигурацию, экспериментируйте В сложных случаях используйте привязку сегмента глобальной памяти к текстуре в случае если Compute Capability 1. 2 cudaBindTexture, tex1Dfetch cudaBindTexture2D, tex2D
32: Коалесинг
33: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Константная Текстурная Глобальная Разделяемая Паттерны программирования на CUDA Стратегии распределения работы Разное
34: Работа с разделяемой памятью Быстрая, некешируемая, чтение/запись Объявление при помощи слова shared Доступ из device кода при помощи индексирования Самый быстрый тип памяти после регистров, низкая латентность доступа Можно рассматривать как полностью открытый L1-кеш При работе с разделяемой памятью следует помнить о ее разбиении на банками памяти
35: Работа с разделяемой памятью Память разделена на 16 банков памяти, по числу потоков в варпе Каждый банк может обратиться к одному адресу за 1 такт Максимальное число адресов, к которым может обратиться память одновременно совпадает с числом банков Одновременное обращение нескольких потоков из одного полуварпа к одному банку приводит к конфликту банков и сериализации запросов (кроме broadcast)
36: Работа с разделяемой памятью Доступ без конфликтов банков
37: Работа с разделяемой памятью Доступ с конфликтами банков
39: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Приоритеты оптимизации Сценарий работы с shared памятью Копирование global shared Обработка в shared памяти Стратегии распределения работы Разное
40: Паттерны программирования на CUDA Объединение запросов к глобальной памяти Ускорение до 20 раз Стремление к локальности Использование разделяемой памяти Высокая скорость работы Удобство взаимодействия потоков Эффективное использование параллелизма GPU не должен простаивать Преобладание вычислений над операциями с памятью Много блоков и потоков в блоке Банк-конфликты Если избавление от 4-кратных конфликтов банков влечет увеличение числа инструкций, то данный вид оптимизации можно не делать
41: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Приоритеты оптимизации Сценарий работы с shared памятью Копирование global shared Обработка в shared памяти Стратегии распределения работы Разное
42: Паттерны программирования на CUDA Загрузка данных из глобальной памяти в разделяемой syncthreads(); Обработка данных в разделяемой памяти syncthreads(); //если требуется Сохранение результатов в глобальной памяти Шаги 2–4 могут быть обрамлены в условия и циклы Шаг 4 может быть ненужен в случае если выходные данные независимы между собой
43: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Приоритеты оптимизации Сценарий работы с shared памятью Копирование global shared Обработка в shared памяти Стратегии распределения работы Разное
44: Паттерны программирования на CUDA dim3 block(64); shared float dst64; global void kernel(float data) //coalescing, no bank conflicts dstthreadIdx. x datathreadIdx. x;
45: Паттерны программирования на CUDA dim3 block(64); shared byte dst64; global void kernelbad(byte data) //no coalescing, 4-way bank conflicts present dstthreadIdx. x datathreadIdx. x; global void kernelgood(byte data) //coalescing, no bank conflicts, no branching if (threadIdx. x 16) int tx threadIdx. x 4; ((int )(dst tx)) ((int )(data tx));
46: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Приоритеты оптимизации Сценарий работы с shared памятью Копирование global shared Обработка в shared памяти Стратегии распределения работы Разное
47: Паттерны программирования на CUDA
48: Паттерны программирования на CUDA device int permute64by4(int t) return (t 4) ((t & 0xF)
49: Паттерны программирования на CUDA
50: Паттерны программирования на CUDA
51: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Command & Conquer Uber-kernel Persistent threads Разное
52: Стратегии распределения работы Задачи с нерегулярным параллелизмом Переменное кол-во итераций Большое кол-во ветвлений
53: Стратегии распределения работы: C & C Разделить ядра на более простые Позволяет выявить bottleneck Увеличивает Occupancy Возможность перераспределять работу между ядрами
54: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Command & Conquer Uber-kernel Persistent threads Разное
55: Стратегии распределения работы: Uber-kernel Uber-kernel
56: Стратегии распределения работы: Uber-kernel (2)
57: Стратегии распределения работы: Uber-kernel (3)
58: Стратегии распределения работы: Uber-kernel (3)
59: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Command & Conquer Uber-kernel Persistent threads Разное
60: Стратегии распределения работы
61: Стратегии распределения работы: Persistent threads
62: Стратегии распределения работы: Persistent threads
63: Стратегии распределения работы: Persistent threads (2)
64: Стратегии распределения работы: Persistent threads (3)
65: Содержание Процесс разработки программ CUDA Работа с различными типами памяти Паттерны программирования на CUDA Стратегии распределения работы Разное
66: Ветвление Если происходит ветвление внутри варпа, то разные ветви исполнения сериализуются Увеличивается общее количество инструкций Если ветвление происходит между варпами, то штраф минимальный
67: Ветвление
68: Инструкции
69: Оптимизация
70: PTX Промежуточный ассемблер может показать много интересного --ptxas-options-v
71: PTX Промежуточный ассемблер может показать много интересного --ptxas-options-v
72: PTX Промежуточный ассемблер может показать много интересного --keep
73: PTX Промежуточный ассемблер может показать много интересного --keep
74: Инструкции Следить за ветвлением Заменить часть вычислений на look-up таблицу Интринсики sinf(); cosf(); expf() umul24() fdividef() usad()
75: mul24 и umul24 работают быстрее, чем mul24 и umul24 работают быстрее, чем Возможно увеличение числа регистров после применения На будущих архитектурах ситуация может развернуться наоборот и mul24 станет медленнее Использование флагов В остальном целочисленная арифметика работает примерно с такой же скоростью, как и с плавающей точкой (за исключением целочисленного деления)
76: Размеры CTA и GRID Конфигурация gridDim и blockDim возможно во время исполнения:
77: Шаблоны Исользование template
78: Разное Математика FPU (на GPU в частности) не ассоциативна (xy)z не всегда равно x(yz) Например при x 1030, y -1030, z 1
79: Ресурсы нашего курса CUDA. CS. MSU. SU Место для вопросов и дискуссий Место для материалов нашего курса Место для ваших статей! Если вы нашли какой-то интересный подход! Или исследовали производительность разных подходов и знаете, какой из них самый быстрый! Или знаете способы сделать работу с CUDA проще! www. steps3d. narod. ru www. nvidia. ru
80: Вопросы
81: Спасибо! Александр Гужва Антон Обухов Владимир Фролов Дмитрий Ватолин Дмитрий Микушин Евгений Перепелкин Михаил Смирнов Николай Сахарных