1. Введение

В современном производстве любого визуального материала (например, компьютерной графики в игровой или киноиндустриях) активно используется этап пост-продакшена. Здесь применяется большой спектр разных инструментов и технологий для создания графики, которая бы одновременно завораживала и была визуально приятна. В качестве одного из таких инструментов выступают таблицы преобразований LUT (Look-Up-Table), которые представляют собой таблицы фиксированных числовых значений, которые можно применить к видеоматериалу, чтобы изменить его внешнюю составляющую. С ее помощью можно корректировать контрастность, цветовые характеристики и так далее. LUT может быть как одномерной таблицей (каждому входному значению соответствует определенный выходной результат), так и более сложной — трехмерной (такую можно применять к цветам в системе координат).

С развитием компьютерных технологий отображения широкое распространение получила технология расширения динамического диапазона — HDR (High Dynamic Range). Она позволила вынести на новый уровень качество фото и видеоматериала на экранах — точность передачи снимающими устройствами (камерой) тона снимаемых сцен, обеспечивая гораздо более яркие светлые участки и улучшенную прорисовку деталей на темных участках [3].

В свою очередь использование 3-D-LookUp-Tables (3D-LUT) во время кинопроизводства и пост-продакшна в любой работе с видеоматериалом показало свою гибкость и скорость при выполнении преобразований цвета или при стремлении придать особый вид снятой сцене. Поскольку все большее число мониторов в настоящее время поддерживают HDR, а сама технология с каждым годом поддерживает все более высокие стандарты и рекомендации, необходимо контролировать, чтобы при обработке видеоматериала с помощью 3D-LUT не было проявления визуальных артефактов.

Визуальные артефакты представляют собой ошибки в изображениях, которые могут визуально проявляются в виде искажений в цвете, появлении посторонних объектов в виде полос, неестественной резкости и т.д. Чтобы зритель мог воспринимать видео без каких-либо визуальных недостатков, на этапах обработки и пост-продакшена при работе с видеоматериалом необходимо, чтобы готовый продукт не содержал в себе какие-либо видимые артефакты. 

2. Существующий метод улучшения работы 3D-LUT для изображений

2.1. Предпосылки применения метода

Авторы исследования, Монга и Бала предложили два способа оптимизации 3D-LUT, т.е. удаление однородного (uniform) ограничения решетки в LUT и допущение небольших ошибок в значениях, хранящихся в вершинах, при условии, что это уменьшает общие ошибки в соседних кубах [4].

Помимо этого, в более ранней работе Канга, затрагивающей общую специфику использования технологии цвета в устройствах для работы с изображениями, объясняется, как упростить интерполяцию. В неоднородной (non-uniform) решетке при неравномерном квантовании, вместо работы с неоднородными размерами куба и линейным вводом, перед интерполяцией к изображению применяется искажение, и 3D-LUT поддерживается однородным [4]. Этот подход требует трех дополнительных 1D-LUT (по одной на каждый цветовой канал), но значительно упрощает интерполяцию.

2.2. Реализация метода и результаты

Авторы статьи [1] пришли к идее оптимизировать 3D-LUT путем неравномерного распределения его вершин, чтобы уменьшить общую ошибку при заданном размере LUT. Другой вариант — уменьшить размер LUT при максимальном ограничении ошибки, совместив в себе подходы, описанные в статьях [3, 4]. Был создан алгоритм, преобразующий цветовые координаты для каждого уникального пикселя, тем самым меняющий структуру LUT.

Используя 3D-LUTы, оптимизированные данным алгоритмом, и исходные 3D-LUTы на дата-сете изображений четырех типов (насыщенные, затемненные, яркие и с естественным светом), исследователи выяснили, что при сравнении изначальных однородных LUT-ов и оптимизированных LUT-ов наилучшие показатели были у 3D-LUTов, применённых к затемненным изображениям и с естественным светом; сравнивались результаты с помощью переменной mean3std. Mean3std — это величина, рассчитанная с учетом JND=1, цветового различия (color difference) и цветовым пространством Dolby [1]. Главным результатом являлось то, что 3D-LUTы меньшего размера показали более качественный результат в работе с цветом, чем образцы большего размера.

Рассмотренные решения были использованы для реализации предлагаемого алгоритма. В процессе реализации была произведена оптимизация, которая позволила повысить качество получаемых изображений.

3. Эксперимент

3.1. Подготовка к проведению эксперимента

Для эксперимента и сбора данных было необходимо подготовить дата-сет из изображений. Тестовые изображения, ставшие основой дата-сета были взяты с битностью 32, поскольку это соответствует HDR изображениям. К ним были применены LUT-ы с разным числом точек по каждой оси (что и считается размером LUT). Данное число уменьшалось с целью сокращения размера тестовых изображений и снижения количества сопоставляемых цветов изображения со значениями, хранящимися в LUT, последнее было необходимо, чтобы также посмотреть, приведет ли уменьшение числа точек к появлению заметных визуальных артефактов. Всего было создано четыре разных LUT (дата-сет строился на основе четырех изображений, для каждого была сформирована собственная таблица преобразования цветов), для каждого использованы четыре разновидности — LUT размером 8, 16, 25 и 32 точки по каждой оси RGB. LUT-ы были созданы вручную, используя программное обеспечение 3D LUT CREATOR, где присутствуют все необходимые настройки для создания собственной таблицы преобразования цветов (рис. 1).

Рис. 1. Программное средство для работы с LUT - 3D LUT CREATOR

Помимо разных размеров LUT были сформированы разные сценарии их использования для изображений. Учитывались свойства тестовых изображений — HDR изображения имеют определенную уязвимость при обработке, особенно она заметна в светлых и темных местах. Таким образом, были взяты следующие сценарии:

  1. Для затемненного изображения применяется LUT, который его осветляет.
  2. Для светлого изображения применяется LUT, который его затемняет.

Для обоих случаев представлены также два подсценария — объекты на изображении находятся вдалеке или небольшого размера и объекты крупного размера (сфотографированы крупным планом). Изображения дата-сета представлены на рисунке 2.

Рис. 2. Дата-сет HDR изображений эксперимента

Исходя из свойства LU, состоящего в том, что чем больше его размер, тем лучше будет цветопередача и меньше искажений при обработке, было необходимо установить на практике, играет ли какую-то роль размер LUT в выборе респондентов и видна ли им разница между обработанными изображениями. Для этого были сформулирована гипотеза для каждой группы: в качестве наилучшего решения для конкретной задачи (осветление/затемнение) респонденты будут чаще всего выбирать изображение с наивысшим размером таблицы преобразования (25х25х25).

3.2. План опроса для сбора данных

Был разработан предварительный план опроса, где собирались данные. Он содержит в себе несколько блоков вопросов:

  1. Блок общих вопросов. Задаются персональные вопросы (пол, возраст, с какого устройства проходит респондент опрос, увлечение фотосъемкой и знание респондента о LUT) для учета внешних факторов на результаты эксперимента.
  2. Основной блок вопросов о группе изображений. Респонденты сравнивают между собой изображения внутри группы, отмечают различие между всеми изображениями и оценку каждого изображения по шкале Ликерта. Главный вопрос звучит следующим образом: «Выберите одно из трех изображений, которое, по вашему мнению, наилучшим образом справилось с его затемнением / осветлением». По нему в большей степени и проверяется основная гипотеза. Также респондентам предложено оценить разницу между изображением-эталоном и выбранным изображением.
  3. Блок вопросов о проведении опроса.

Стоит также отметить, что изображения с разными размерами LUT были закодированы. Изображение с LUT размером 8 представляет из себя четырехзначное число, в котором сумма чисел равна 7 (например, в первой группе изображений закодировано как 1231). Аналогичная операция была произведена для изображений с другими размерами LUT: для LUT размером 16 число при сложении было 8, для LUT размером 25 — число 9. Предложенные изображения также были перемешаны и показывались для респондентов в разном порядке.

3.3. Работа над алгоритмом и программной реализацией

Поскольку исследование затрагивает изображения расширенного динамического диапазона HDR, необходимо было в первую очередь преобразовать цветовые координаты для каждого цвета из цветового пространства RGB в цветовое пространство ICtCp. ICtCp — это цветовое пространство, используемое как часть контура цветного изображения в системах видео и цифровой фотографии для изображений с высоким динамическим диапазоном (HDR) и широкой цветовой гаммой (WCG), оно описано в Рек. 2100 [5]. I — компонент яркости, закодированный с использованием нелинейности квантователей Perceptual (PQ) или (HLG) — гибридный логарифмический гамма. Компоненты CT и CP — сине-желтые (названные из тританопии) и красно-зеленые (названные из протанопии) компоненты цветности. LMS, в свою очередь, также является цветовым пространством. Коэффициенты L′, M′ и S′ рассчитываются с помощью EOTF (отвечает за показатели яркости в изображении). После преобразования цветового пространства была посчитана метрика точности передачи цвета. Программная реализация алгоритма была написана в среде Google Collab на языке Python, на рисунке 3 представлено преобразование в необходимое цветовое пространство в виде кода.

Рис. 3. Фрагмент кода преобразования в цветовое пространство ICtCp

В качестве данных, обрабатываемых алгоритмов, использовались данные файлов формата .cube, сформированные в программном обеспечении 3D LUT Creator после создания LUT. Пример представлен на рисунке 4. В начале работы алгоритма вводится число ns — это число подгрупп в общей группе координат. Таким образом, общая группа цветов разделена на подгруппы с одинаковым количеством цветов в каждой. Каждая группа обрабатывается алгоритмом, происходит изменение числовых значений (т.е.) координат цветов с учетом ∆ICtCp и порогового значения threshold = 1. Для каждой группы также рассчитывается коэффициент ошибки и на основе сравнения коэффициентов выбирается, в какую из подгрупп будет лучше всего поместить текущую точку (цвет). Такая последовательность действий происходит для каждой точки. Переменная threshold необходима для исключения выхода за границы промежутка значений, которые могут принимать цветовые координаты и во избежание сильного рассеяния и отклонения этих координат от первоначального местоположения.

Рис. 4. Полученные данные о цветовых координат LUT

На выходе после работы алгоритма формируется новый файл с измененными цветовыми координатами для каждого цвета. Полученную новую таблицу преобразования цветов применяют к изображению. На рисунке 5 представлены изображения после применения не обработанной таблицей LUT и таблицей преобразованной предлагаемым алгоритмом.

Рис. 5. Сравнение фрагмента изображения до и после изменения LUT алгоритмом

3.4. Результаты эксперимента

В эксперименте приняло участие 45 респондентов. Больше половины респондентов занимается фотосъемкой (в сумме 62%), но большая часть респондентов не знакома с понятием LUT (80%).

По полученным данным были построены круговые диаграммы, где можно увидеть, что LUT размером 25 действительно выбирался чаще всего (рис. 6–9), а также столбчатая диаграмма (рис. 10), где отображена частота выбора изображений c LUT 25 и LUT других размеров среди всех четырех групп. Значит, LUT размером 25 действительно выбирается чаще всего и изображение с ним считается наиболее успешным.

 

Рис. 6-9. Распределение выбранных изображений по четырем группам

На диаграмме (рис. 10) представлено количество выбранных респондентами изображений с LUT 25 и LUT других размеров (8 и 16).

Рис. 10. Частота выбора изображений респондентами

Заключение

Таким образом, после обработки данных с помощью одновыборочного биномиального теста для первой группы изображений p-value = 0,0002, α = 0,83%; для второй группы p-value = 0,29, α = 1,25%; для третьей группы p-value = 0,56, α = 1,67%; для четвертой группы p-value = 0,03, α = 1%. Во всех группах гипотезы считаются статистически значимыми. Проверялись также две гипотезы о корреляции между знанием респондентов о LUT и разницей, которую они заметили между эталонным изображением и выбранным изображением для 1-ой и 3-ей группы, обе гипотезы пока что считаются статистически незначимыми, так как p-value в обоих случаях превысило α, а в случае для 1-ой группы изображений корреляция из положительной стала отрицательной.

В ходе расчета фактической мощности получилось следующее: для первой группы изображений мощности из пилотного и основного экспериментов являются близкими значениями (97,20% и 90,87% соответственно), для второй группы различны (70,00% и 99,00%), для третьей группы различны(99,00% и 71,51%) и для четвертой группы значения близки (70,00% и 71.51%).

Необходимо продолжить сбор данных, а также в случае дополнительного эксперимента учитывать, насколько знакомы респонденты с LUT еще до прохождения опроса.

Bibreference

International

Mejenin, A.V., Pauk, M.A, (2023) Reducing Visual Artifacts When Using 3D-LUT with Usage of High Dynamic Range Technology. Culture and technologies studies. Vol. 8, № 4. P. 204-211. Available at:  http://cat.itmo.ru/en/2023/v8-i4/444, DOI: 10.17586/2587-800X-2023-8-4-204-211

Russian

Mejenin, A.V., Pauk, M.A, Reducing Visual Artifacts When Using 3D-LUT with Usage of High Dynamic Range Technology // Culture and technologies studies. 2023. Vol.  8. № 4. P. 204-211. DOI: 10.17586/2587-800X-2023-8-4-204-211

DOI
10.17586/2587-800X-2023-8-4-204-211
References
  1. Andriani S., Zabot A., Calvagno G., Vandenberg J.D. 3D-LUT Optimization for High Dynamic Range and Wide Color Gamut Color Processing //  Electronic Imaging. 2021. Vol. 33. art00002. P. 221-1-221-7. DOI: 10.2352/ISSN.2470-1173.2021.16.COLOR-221.
  2. Vandenberg J.D., Andriani S. A Review of 3D-LUT Performance in 10-Bit and 12-Bit HDR BT.2100 PQ // SMPTE Motion Imaging Journal. 2020. Vol. 129. Iss. 2. P. 59-70. DOI: 10.5594/JMI.2020.2965022.
  3. Monga V., Bala R. Algorithms for color Look-Up-Table (LUT) design via joint optimization of node location and output values // Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2010. P. 998–1001.
  4. Kang H.R. Color technology for electronic imaging devices.  Washington: SPIE Optical Engineering Press, 1997. P. 55–63.
  5. “What Is ICTCP?”. URL: https://www.dolby.com/us/en/technologies/dolby-vision/ICtCp-white-paper… (дата обращения: 05.02.2024).
English