Перейти к содержимому

Глава 312: Планирующее RL для трейдинга

Введение

Традиционные подходы обучения с подкреплением (RL) без модели для трейдинга --- такие как DQN, PPO или SAC --- обучают политики непосредственно из взаимодействий с рыночной средой. Хотя они эффективны, они крайне неэффективны по выборке: требуют миллионов переходов для сходимости и не могут рассуждать о последствиях действий до их выполнения. В отличие от этого, RL на основе модели с явным планированием строит внутреннюю модель среды (“модель мира”) и использует её для симуляции будущих траекторий, оценки кандидатных последовательностей действий и выбора лучшего плана перед выполнением хотя бы одной реальной сделки.

Эта парадигма черпает вдохновение из того, как работают опытные трейдеры. Умелый трейдер не просто реагирует на текущую цену; он мысленно моделирует сценарии: “Если я размещу большой ордер на покупку здесь, рынок двинется против меня; если я распределю ордер на 10 минут, влияние будет меньше, но я рискую, что цена уйдёт.” Планирующее RL формализует этот цикл рассуждений.

Ключевые компоненты планирующего RL для трейдинга:

  1. Обучение модели мира — Нейронная сеть, предсказывающая следующее состояние рынка и вознаграждение по текущему состоянию и действию.
  2. Архитектура Dyna-Q — Агент, дополняющий реальный опыт симулированными прогонами из обученной модели мира.
  3. Управление с предиктивной моделью (MPC) — Алгоритм планирования, оптимизирующий последовательности действий путём симуляции будущих траекторий.
  4. Оценка неопределённости — Количественная оценка уверенности модели для предотвращения катастрофических решений на основе неточных предсказаний.

Математические основы

Обучение модели мира

Модель мира состоит из двух обучаемых функций:

Модель переходов: $$\hat{s}{t+1} = f\theta(s_t, a_t)$$

Модель вознаграждений: $$\hat{r}t = g\phi(s_t, a_t)$$

где $s_t$ --- состояние рынка в момент $t$ (цены, объёмы, индикаторы), $a_t$ --- торговое действие (покупка/продажа/удержание с размером позиции), а $\theta, \phi$ --- обучаемые параметры.

Модель переходов обучается минимизацией: $$\mathcal{L}{\text{trans}}(\theta) = \mathbb{E}{(s_t, a_t, s_{t+1}) \sim \mathcal{D}} \left[ | s_{t+1} - f_\theta(s_t, a_t) |^2 \right]$$

Модель вознаграждений обучается аналогично: $$\mathcal{L}{\text{reward}}(\phi) = \mathbb{E}{(s_t, a_t, r_t) \sim \mathcal{D}} \left[ (r_t - g_\phi(s_t, a_t))^2 \right]$$

где $\mathcal{D}$ --- буфер воспроизведения реальных переходов.

Архитектура Dyna-Q

Dyna-Q, представленная Саттоном (1991), дополняет стандартное Q-обучение прогонами на основе модели. Алгоритм чередует:

  1. Реальный опыт: Выполнение действия $a_t$ в реальной среде, наблюдение $(s_t, a_t, r_t, s_{t+1})$ и обновление Q-значений.
  2. Симулированный опыт: Выборка $k$ ранее посещённых состояний, генерация синтетических переходов с помощью модели мира и обновление Q-значений на них.

Обновление Q-значений (для реальных и симулированных переходов): $$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_t + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \right]$$

Выполняя $k$ симулированных обновлений на каждый реальный шаг, Dyna-Q достигает $k$-кратного улучшения эффективности по выборке. Для трейдинга, где каждое реальное взаимодействие связано с реальным капиталом, этот выигрыш в эффективности критически важен.

Управление с предиктивной моделью (MPC)

MPC --- это алгоритм планирования, оптимизирующий на конечном горизонте $H$:

$$a_t^* = \arg\max_{a_{t:t+H}} \sum_{h=0}^{H-1} \gamma^h \hat{r}_{t+h}$$

где $\hat{r}{t+h}$ и $\hat{s}{t+h+1}$ генерируются прогоном модели мира:

$$\hat{s}{t+h+1} = f\theta(\hat{s}{t+h}, a{t+h}), \quad \hat{r}{t+h} = g\phi(\hat{s}{t+h}, a{t+h})$$

Выполняется только первое действие $a_t^*$; процесс повторяется на следующем временном шаге (скользящий горизонт).

MPC со случайной стрельбой: Выборка $N$ случайных последовательностей действий длины $H$, оценка каждой прогоном модели мира, выбор последовательности с максимальным накопленным вознаграждением.

Метод перекрёстной энтропии (CEM): Итеративное уточнение случайной стрельбы:

  1. Инициализация гауссового распределения по последовательностям действий: $\mu_0, \sigma_0$.
  2. Выборка $N$ последовательностей действий из $\mathcal{N}(\mu, \sigma)$.
  3. Оценка каждой последовательности прогонами модели мира.
  4. Выбор лучших $K$ (элитных) последовательностей.
  5. Переобучение $\mu, \sigma$ на элитном множестве.
  6. Повторение $M$ итераций.

CEM сходится к лучшим решениям, чем чистая случайная стрельба, особенно в многомерных пространствах действий.

Оценка неопределённости модели

Одна детерминированная модель мира может давать чрезмерно уверенные предсказания в незнакомых областях пространства состояний. Для решения этой проблемы используется ансамбль из $B$ моделей мира ${f_{\theta_1}, \ldots, f_{\theta_B}}$, а неопределённость оценивается как:

$$\text{Var}[\hat{s}{t+1}] = \frac{1}{B} \sum{b=1}^{B} \left( f_{\theta_b}(s_t, a_t) - \bar{f}(s_t, a_t) \right)^2$$

где $\bar{f}$ --- среднее ансамбля. Когда неопределённость превышает порог, агент должен предпочитать консервативные действия или переключаться на поведение без модели.

Применение в трейдинге

Многошаговое планирование сделок

Планирующее RL позволяет реализовать сложные многошаговые стратегии:

  • Оптимизация входа/выхода: Вместо изолированных решений о покупке/продаже агент планирует полный жизненный цикл сделки: точку входа, масштабирование позиции, цели по прибыли и установку стоп-лосса.
  • Ребалансировка портфеля: Агент моделирует влияние действий по ребалансировке на несколько шагов вперёд для минимизации транзакционных издержек при следовании целевым аллокациям.
  • Спред-трейдинг: Планирование по коррелированным активам для выявления и использования временных ценовых расхождений.

Моделирование рыночного воздействия

Для ордеров институционального размера модель мира явно учитывает рыночное воздействие:

  • Временное воздействие: Немедленное смещение цены от ордера, пропорциональное $\sqrt{V/\text{ADV}}$, где $V$ --- объём ордера, ADV --- средний дневной объём.
  • Постоянное воздействие: Устойчивый сдвиг равновесной цены из-за утечки информации.
  • Динамика затухания: Как временное воздействие затухает со временем.

Включая воздействие в модель мира, планировщик MPC может оптимизировать графики исполнения (аналогично Almgren-Chriss, но адаптивно и обучено на данных).

Планирование с учётом режимов

Модель мира может обучиться динамике, зависящей от режима:

  • В трендовых рынках планировать стратегии следования за моментумом с более длинными горизонтами.
  • В рынках с возвратом к среднему планировать контртрендовые входы с более короткими горизонтами.
  • В режимах высокой волатильности сокращать горизонт планирования и размер позиции.

Реализация на Rust

Реализация в rust/src/lib.rs предоставляет:

  • WorldModel: Модель переходов и вознаграждений, вдохновлённая нейронными сетями, с обучением на основе обратного распространения.
  • DynaQAgent: Табличный агент Q-обучения, дополненный прогонами на основе модели через модель мира.
  • MPCPlanner: Планировщик MPC, поддерживающий как случайную стрельбу, так и оптимизацию CEM.
  • ModelEnsemble: Ансамбль моделей мира для оценки неопределённости.
  • BybitClient: HTTP-клиент для получения данных о свечах с биржи Bybit.

Архитектура

Рыночные данные (Bybit API)
|
v
Обучение модели мира
|
v
Планирование (MPC / Dyna-Q)
|
v
Выбор действия
|
v
Исполнение и обратная связь

Модель мира обучается на исторических переходах (состояние, действие, вознаграждение, следующее_состояние), построенных из данных OHLCV. Состояния включают нормализованные доходности цен, соотношения объёмов и технические индикаторы. Действия дискретизированы в {Покупка, Удержание, Продажа} с непрерывным размером позиции.

Интеграция с Bybit

Реализация подключается к публичному REST API Bybit для получения исторических данных свечей:

GET https://api.bybit.com/v5/market/kline?category=linear&symbol=BTCUSDT&interval=60&limit=200

Ответ предоставляет данные OHLCV, которые преобразуются в торговые состояния:

  • Ценовые признаки: Доходности, лог-доходности, пересечения скользящих средних
  • Объёмные признаки: Объём относительно скользящей средней
  • Признаки волатильности: Скользящее стандартное отклонение доходностей

Эти реальные данные питают как конвейер обучения модели мира, так и оценку запланированных действий относительно фактических рыночных результатов.

Запуск примера

Окно терминала
cd 312_planning_rl_trading/rust
cargo build
cargo run --example trading_example

Пример:

  1. Загружает часовые данные BTCUSDT с Bybit
  2. Строит представления состояний из данных OHLCV
  3. Обучает модель мира на исторических переходах
  4. Запускает планирование MPC для выбора оптимальных действий
  5. Сравнивает планирование на основе модели с подходом без модели
  6. Сообщает накопленные доходности и коэффициенты Шарпа

Ключевые выводы

  1. Эффективность по выборке: RL на основе модели с планированием может достигать той же производительности, что и методы без модели, при 10-100 раз меньшем количестве реальных взаимодействий со средой. Для трейдинга, где каждое взаимодействие связано с реальными деньгами, это трансформационное преимущество.

  2. Способность к прогнозированию: MPC позволяет агенту рассуждать о многошаговых последствиях перед действием. Это особенно ценно для оптимизации исполнения и предотвращения негативного рыночного воздействия.

  3. Dyna-Q как мост: Архитектура Dyna обеспечивает естественный мост между RL без модели и на основе модели. Настраивая количество симулированных прогонов на реальный шаг, практики могут плавно обменивать вычисления на эффективность по выборке.

  4. Неопределённость важна: Оценка неопределённости на основе ансамбля не опциональна --- она необходима. Без неё ошибки модели накапливаются при прогонах, приводя к катастрофически чрезмерно уверенным планам.

  5. Компромисс горизонта планирования: Более длинные горизонты планирования позволяют более сложные стратегии, но более чувствительны к ошибкам модели. На практике горизонты в 5-20 шагов хорошо работают для часовой торговли; более короткие горизонты предпочтительны для более высоких частот.

  6. Интеграция рыночного воздействия: Одно из самых перспективных применений планирующего RL --- включение обученных моделей рыночного воздействия в цикл планирования, что позволяет интеллектуальное исполнение, недостижимое для методов без модели.

  7. Адаптивность к режимам: Модель мира естественно учитывает динамику, зависящую от режима. По мере обновления модели свежими данными поведение планировщика адаптируется к текущему рыночному режиму без явного детектирования режимов.

Ссылки

  • Sutton, R. S. (1991). “Dyna, an Integrated Architecture for Learning, Planning, and Reacting.” SIGART Bulletin.
  • Chua, K., et al. (2018). “Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models.” NeurIPS.
  • Hafner, D., et al. (2020). “Dream to Control: Learning Behaviors by Latent Imagination.” ICLR.
  • Almgren, R. & Chriss, N. (2001). “Optimal Execution of Portfolio Transactions.” Journal of Risk.
  • Schrittwieser, J., et al. (2020). “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model.” Nature.