Глава 297: Rainbow DQN для трейдинга

Введение: Rainbow - объединение шести улучшений DQN

Глубокие Q-сети (DQN) стали прорывом в применении обучения с подкреплением к сложным задачам принятия решений. Однако оригинальный алгоритм DQN страдает от нескольких хорошо задокументированных ограничений: смещение переоценки, низкая эффективность выборки, нестабильная эксплорация и неспособность уловить полное распределение доходностей. На протяжении нескольких лет исследователи предложили шесть независимых улучшений, каждое из которых решает конкретную проблему. Rainbow DQN, представленный Hessel et al. (2018), объединяет все шесть улучшений в единого агента, который значительно превосходит любое индивидуальное улучшение.

Для алгоритмического трейдинга Rainbow DQN особенно привлекателен. Финансовые рынки представляют среду с частичной наблюдаемостью, нестационарной динамикой, отложенными наградами и распределениями доходности с тяжёлыми хвостами. Каждый из шести компонентов Rainbow решает проблему, которая особенно остра в трейдинге:

Double DQN - Уменьшает переоценку ценности действий, критично когда одна плохая сделка может быть катастрофической
Dueling Networks - Разделяет ценность состояния и преимущество действия, полезно когда многие рыночные состояния имеют схожую ценность независимо от действия
Prioritized Experience Replay - Фокусирует обучение на наиболее информативных переходах, важно на рынках где смены режимов редки, но критичны
N-step Returns - Обеспечивает лучший компромисс смещения-дисперсии для атрибуции вознаграждений на торговых горизонтах
Distributional RL (C51) - Моделирует полное распределение доходностей, а не только математическое ожидание, захватывая профиль риска сделок
Noisy Networks - Заменяет epsilon-greedy эксплорацию обучаемым параметрическим шумом, обеспечивая зависящие от состояния стратегии исследования

В этой главе мы разрабатываем полного агента Rainbow DQN на Rust, интегрируем его с рыночными данными Bybit и демонстрируем через ablation-исследования, как каждый компонент вносит вклад в торговую производительность.

Математические основы

1. Double DQN

Стандартный DQN использует одну и ту же сеть как для выбора, так и для оценки действий, что приводит к систематической переоценке. Целевое значение Q-обучения:

y_DQN = r + gamma * max_a' Q(s', a'; theta_target)

Double DQN разделяет выбор и оценку. Онлайн-сеть выбирает лучшее действие, а целевая сеть его оценивает:

a* = argmax_a' Q(s', a'; theta_online)
y_DDQN = r + gamma * Q(s', a*; theta_target)

В трейдинге смещение переоценки может заставить агента считать определённые сделки более прибыльными, чем они есть на самом деле, что приводит к чрезмерному принятию рисков. Double DQN смягчает это, предоставляя более точные оценки ценности.

2. Архитектура Dueling Network

Dueling-архитектура декомпозирует Q-функцию на функцию ценности состояния V(s) и функцию преимущества A(s, a):

Q(s, a) = V(s) + A(s, a) - mean_a'(A(s, a'))

Общий экстрактор признаков подаёт данные в два отдельных потока:

Поток ценности: Оценивает, насколько хорошо находиться в состоянии s (независимо от действия)
Поток преимущества: Оценивает относительную выгоду каждого действия

Для трейдинга эта декомпозиция естественна. Поток ценности захватывает общий рыночный режим (бычий/медвежий/боковой), в то время как поток преимущества фокусируется на маржинальной выгоде конкретных действий (покупка/удержание/продажа) при данном режиме. Во многих рыночных состояниях выбор действия мало что меняет (например, плоские рынки без чёткого сигнала), и dueling-архитектура эффективно это изучает.

3. Приоритизированный опыт воспроизведения (PER)

Вместо равномерной выборки из буфера воспроизведения PER назначает приоритеты на основе ошибки временной разности (TD):

p_i = |delta_i| + epsilon
P(i) = p_i^alpha / sum_k(p_k^alpha)

где delta_i - TD-ошибка для перехода i, alpha контролирует силу приоритизации (0 = равномерная, 1 = полная приоритизация), и epsilon - малая константа для обеспечения ненулевой вероятности.

Для коррекции смещения, вызванного неравномерной выборкой, применяются веса выборки по важности:

w_i = (N * P(i))^(-beta) / max_j(w_j)

где beta постепенно увеличивается от начального значения до 1 в ходе обучения.

Структура данных sum-tree обеспечивает выборку за O(log N) и обновление приоритетов за O(log N). Каждый лист хранит приоритет, а каждый внутренний узел - сумму приоритетов своих потомков.

Для трейдинга PER неоценим, потому что смены рыночных режимов, внезапные обвалы и необычные всплески волатильности редки, но несут огромную информационную ценность. PER гарантирует, что агент многократно учится на этих критических переходах.

4. N-step Returns

Вместо одношаговых TD-целей n-step returns используют фактические награды за n шагов перед бутстрэппингом:

G_t^(n) = sum_{k=0}^{n-1} gamma^k * r_{t+k} + gamma^n * Q(s_{t+n}, a*)

Это обеспечивает спектр между TD-обучением (n=1) и методами Монте-Карло (n=бесконечность). Типичные значения n=3 до n=5 работают хорошо.

В трейдинге n-step returns помогают с атрибуцией вознаграждений. Истинное влияние торгового решения часто раскрывается на нескольких временных шагах. Например, открытие позиции может не показать прибыль или убыток в течение нескольких свечей. N-step returns распространяют эту информацию более эффективно, чем одношаговые обновления.

5. Distributional RL (C51)

Вместо изучения ожидаемого Q-значения C51 изучает полное распределение доходностей. Распределение доходности Z представлено как дискретное распределение по N_atoms (обычно 51) равномерно расположенным атомам:

z_i = V_min + i * (V_max - V_min) / (N_atoms - 1),  i = 0, ..., N_atoms-1

Сеть выводит распределение вероятностей p(s, a) по этим атомам для каждого действия. Обновление Беллмана проецирует целевое распределение на фиксированный носитель:

T_z_i = clip(r + gamma * z_i, V_min, V_max)
b_i = (T_z_i - V_min) / delta_z

Спроецированная масса вероятности распределяется между соседними атомами:

m_l += p_j * (u - b_i)    // нижний сосед
m_u += p_j * (b_i - l)    // верхний сосед

Функция потерь - кросс-энтропия между спроецированным целевым распределением и предсказанным распределением.

Для трейдинга distributional RL, возможно, является наиболее важным компонентом. Рынки имеют распределения доходности с тяжёлыми хвостами, и средние доходности сами по себе недостаточны для управления рисками. Моделируя полное распределение доходности, агент может:

Оценивать хвостовой риск (VaR, CVaR) для каждого действия
Различать действия со схожими средними, но разными дисперсиями
Принимать решения с учётом риска, соответствующие ограничениям портфеля

6. Noisy Networks (Шумные сети)

Шумные сети заменяют стандартные линейные слои шумными линейными слоями, включающими обучаемые возмущения:

y = (mu_w + sigma_w * epsilon_w) * x + (mu_b + sigma_b * epsilon_b)

Используя факторизованный гауссов шум для эффективности:

epsilon_w = f(epsilon_i) * f(epsilon_j)^T
f(x) = sign(x) * sqrt(|x|)

где epsilon_i и epsilon_j - независимые векторы шума из N(0, 1).

Это заменяет epsilon-greedy эксплорацию зависящей от состояния, обучаемой эксплорацией. Сеть учится когда и где исследовать, основываясь на своей неопределённости.

Для трейдинга шумные сети обеспечивают адаптивную эксплорацию. В режимах рынка с высокой неопределённостью параметры шума естественным образом увеличиваются, приводя к большей эксплорации. В хорошо изученных режимах шум уменьшается, приводя к большей эксплуатации.

Почему комбинация превосходит индивидуальные улучшения

Ключевая идея Rainbow в том, что эти шесть улучшений взаимодополняющие, а не избыточные. Каждое решает свой тип проблемы:

Компонент	Решаемая проблема	Релевантность для трейдинга
Double DQN	Смещение переоценки	Предотвращает самоуверенные входы в сделки
Dueling	Декомпозиция состояние/действие	Разделяет рыночный режим и торговый сигнал
PER	Эффективность выборки	Обучение на редких рыночных событиях
N-step	Атрибуция вознаграждений	Связывает сделки с отложенным P&L
C51	Моделирование риска	Захватывает полное распределение доходности
Noisy Nets	Эксплорация	Адаптивное исследование рынка

Ablation-исследования Hessel et al. показали, что удаление любого компонента ухудшает производительность, причём приоритизированный повтор и distributional RL вносят наибольший вклад. В трейдинге мы наблюдаем аналогичную картину: C51 и PER обычно дают наибольший индивидуальный прирост, за ними следуют n-step returns и dueling-сети.

Комбинация создаёт синергии:

PER + C51: Приоритизация на основе distributional TD-ошибок более информативна, чем скалярные TD-ошибки
Double DQN + C51: Устраняет переоценку в distributional-настройке
Noisy Nets + Dueling: Зависящая от состояния эксплорация в отдельных потоках ценности/преимущества
N-step + PER: Многошаговые ошибки обеспечивают лучшие приоритеты для редких событий

Реализация на Rust

Наша реализация на Rust предоставляет продакшн-уровня агента Rainbow DQN. Ключевые архитектурные решения включают:

Sum-tree для приоритизированной выборки O(log N) из буфера воспроизведения
Факторизованный гауссов шум для эффективных шумных линейных слоёв
Категориальное распределение (C51) с 51 атомом для моделирования распределения доходности
Dueling-сеть с отдельными потоками ценности и преимущества
N-step буфер возврата для вычисления многошаговых целей

Реализация структурирована как библиотека (lib.rs) с торговым примером, который загружает реальные данные Bybit и демонстрирует обучение с ablation-исследованиями.

Интеграция с Bybit

Реализация загружает реальные рыночные данные через публичный API Bybit:

GET https://api.bybit.com/v5/market/kline?category=linear&symbol=BTCUSDT&interval=60&limit=200

Данные предварительно обрабатываются в вектор признаков для каждого временного шага:

Ценовые доходности: Логарифмические доходности за 1, 5 и 10 периодов
Волатильность: Скользящее стандартное отклонение доходностей
Соотношение объёма: Текущий объём относительно скользящей средней
RSI: Индекс относительной силы (14 периодов)
Сигнал MACD: Схождение-расхождение скользящих средних

Торговая среда предоставляет:

Пространство состояний: Вектор признаков рыночных индикаторов
Пространство действий: {Покупка (0), Удержание (1), Продажа (2)}
Награда: Доходность портфеля на каждом шаге с штрафом за транзакционные издержки
Отслеживание позиции: Текущая позиция (лонг/нейтральная/шорт) включена в состояние

Ключевые выводы

Rainbow DQN объединяет шесть ортогональных улучшений оригинального алгоритма DQN, каждое из которых решает отдельное ограничение. Комбинация больше суммы своих частей благодаря синергетическим взаимодействиям между компонентами.
Distributional RL (C51) и приоритизированный повтор опыта - наиболее эффективные компоненты для трейдинга. C51 захватывает тяжёлохвостовую природу финансовых доходностей, а PER обеспечивает эффективное обучение на редких, но информативных рыночных событиях.
Dueling-архитектура естественно отображается на трейдинг, где поток ценности захватывает качество рыночного режима, а поток преимущества - маржинальную выгоду конкретных торговых действий.
Noisy Networks обеспечивают превосходную эксплорацию по сравнению с epsilon-greedy в нестационарных торговых средах, автоматически корректируя исследование на основе неопределённости агента.
N-step returns улучшают атрибуцию вознаграждений для торговых решений, чьи последствия разворачиваются на нескольких временных шагах.
Реализация на Rust обеспечивает продакшн-развёртывание с детерминированным управлением памятью, абстракциями нулевой стоимости и производительностью, подходящей для систем реального времени.
Ablation-исследования необходимы при развёртывании Rainbow DQN для трейдинга. Специфические характеристики рынка могут изменить относительную важность каждого компонента.

Ссылки

Hessel, M., et al. (2018). “Rainbow: Combining Improvements in Deep Reinforcement Learning.” AAAI.
Van Hasselt, H., Guez, A., & Silver, D. (2016). “Deep Reinforcement Learning with Double Q-learning.” AAAI.
Wang, Z., et al. (2016). “Dueling Network Architectures for Deep Reinforcement Learning.” ICML.
Schaul, T., et al. (2016). “Prioritized Experience Replay.” ICLR.
Bellemare, M. G., Dabney, W., & Munos, R. (2017). “A Distributional Perspective on Reinforcement Learning.” ICML.
Fortunato, M., et al. (2018). “Noisy Networks for Exploration.” ICLR.