Глава 306: Имитационное обучение для трейдинга

Эта глава исследует имитационное обучение (IL) — семейство методов обучения торговых агентов путём наблюдения за демонстрациями экспертов, а не проектирования функций вознаграждения. Мы сравниваем четыре основных подхода: Behavioral Cloning (BC), DAgger, GAIL и Inverse Reinforcement Learning (IRL), предоставляя единый математический аппарат, практические рекомендации по выбору метода и полную реализацию на Rust с интеграцией рыночных данных Bybit.

Введение в имитационное обучение

Имитационное обучение (IL) решает фундаментальную задачу в алгоритмическом трейдинге: как обучить агентов воспроизводить успешное торговое поведение, если мы не можем легко задать функцию вознаграждения? Традиционное обучение с подкреплением требует тщательно спроектированного сигнала вознаграждения, но в финансах определение “хорошей” торговли включает тонкие компромиссы между доходностью, риском, транзакционными издержками, рыночным воздействием и регуляторными ограничениями, которые чрезвычайно трудно формализовать.

IL обходит эту проблему, обучаясь непосредственно на демонстрациях экспертного поведения. Имея набор пар состояние-действие от успешного трейдера (человека или алгоритма), методы IL пытаются восстановить политику, воспроизводящую или даже улучшающую поведение эксперта.

Зачем имитационное обучение для трейдинга?

Несколько свойств финансовых рынков делают IL особенно привлекательным:

Экспертные данные обильны: данные институционального потока ордеров, раскрытия хедж-фондов (13F), рекомендации аналитиков и бэктесты успешных стратегий предоставляют богатые источники демонстраций.
Спецификация вознаграждения сложна: истинная цель портфельного менеджера включает многогоризонтную доходность, бюджеты риска, ограничения на просадку, факторные экспозиции и мандаты клиентов — слишком сложно для скалярного вознаграждения.
Онлайн-исследование дорого: в отличие от игр или симуляций, исследование плохих стратегий на реальных рынках влечёт реальные финансовые потери.
Интерпретируемость важна: политики IL можно проверять, анализируя, какое экспертное поведение они усвоили.

Проблема экспертных демонстраций

Формально мы предполагаем доступ к набору экспертных демонстраций:

$$\mathcal{D} = {(s_1, a_1), (s_2, a_2), \ldots, (s_N, a_N)}$$

где $s_t$ — состояние рынка (цены, объёмы, технические индикаторы), а $a_t$ — торговое действие эксперта (покупка, продажа, удержание). Цель — обучить политику $\pi_\theta(a|s)$, имитирующую процесс принятия решений эксперта.

Таксономия подходов

Метод	Нужен доступ к эксперту?	Обучает вознаграждение?	Решает сдвиг распределения?	Сложность
BC	Нет (только офлайн-данные)	Нет	Нет	Низкая
DAgger	Да (интерактивный)	Нет	Да	Средняя
IRL	Нет (только офлайн-данные)	Да	Частично	Высокая
GAIL	Нет (только офлайн-данные)	Неявно	Да (через RL)	Высокая

Математические основы

Формулировка марковского процесса принятия решений

Мы моделируем трейдинг как MDP $\mathcal{M} = (\mathcal{S}, \mathcal{A}, T, R, \gamma)$ где:

$\mathcal{S}$: пространство состояний (рыночные признаки, состояние портфеля)
$\mathcal{A}$: пространство действий (торговые решения)
$T(s’|s, a)$: динамика переходов (эволюция рынка)
$R(s, a)$: функция вознаграждения (неизвестна в IL)
$\gamma \in [0, 1)$: коэффициент дисконтирования

Behavioral Cloning

Behavioral Cloning (BC) трактует IL как задачу обучения с учителем. Для экспертных демонстраций $\mathcal{D} = {(s_i, a_i)}_{i=1}^N$ BC минимизирует функцию потерь:

$$\mathcal{L}{BC}(\theta) = \frac{1}{N} \sum{i=1}^{N} | \pi_\theta(s_i) - a_i |^2$$

Критическое ограничение — накопление ошибок: во время тестирования обучаемый встречает состояния, не наблюдавшиеся при обучении. Малые ошибки накапливаются квадратично: $O(T^2 \epsilon)$.

DAgger: агрегация датасетов

DAgger решает проблему накопления ошибок итеративным сбором экспертных меток на состояниях, посещённых обучаемым, достигая линейной границы ошибки: $O(T \epsilon)$.

Обратное обучение с подкреплением

IRL максимальной энтропии восстанавливает неявную функцию вознаграждения эксперта:

$$R_\psi(s, a) = \psi^T \phi(s, a)$$

Условие совпадения признаков:

$$\mathbb{E}{\pi^*}[\phi(s, a)] = \mathbb{E}{\pi_\psi}[\phi(s, a)]$$

IRL раскрывает что оптимизирует эксперт — восстановленная функция вознаграждения может показать неявные штрафы на волатильность или предпочтения по риску.

GAIL: генеративно-состязательное имитационное обучение

GAIL формулирует IL как игру между политикой (генератором) и дискриминатором:

$$\min_\pi \max_D \mathbb{E}{\pi}[\log D(s, a)] + \mathbb{E}{\pi^*}[\log(1 - D(s, a))] - \lambda H(\pi)$$

Теория мер заполнения

Мера заполнения $\rho_\pi(s, a)$ — дисконтированное распределение пар состояние-действие, посещаемых политикой:

$$\rho_\pi(s, a) = \pi(a|s) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi)$$

Все методы IL могут быть объединены через меры заполнения: нахождение политики с мерой заполнения, совпадающей с экспертной, эквивалентно оптимизации при наихудшем вознаграждении, совместимом с данными эксперта.

Когда использовать каждый подход

Доступность данных

Только офлайн-данные (нет доступа к эксперту):

BC — когда демонстраций много и горизонт короткий (внутридневная торговля)
IRL — когда нужна интерпретируемая функция вознаграждения
GAIL — когда нужно точное совпадение распределений

Интерактивный доступ к эксперту:

DAgger — когда эксперт может давать обратную связь в реальном времени

Руководство по выбору

Сценарий	Рекомендуемый метод	Обоснование
Исторические 13F-отчёты	BC или IRL	Офлайн-данные, квартальная частота
База ордеров	IRL затем GAIL	Богатые данные, нужны инсайты
Наставничество на торговом деске	DAgger	Эксперт доступен для запросов
Репликация бэктестированной стратегии	BC	Чистые демонстрации
Кросс-рыночный трансфер	IRL	Вознаграждение переносимо

Финансовые приложения

Обучение на институциональном потоке ордеров

Институциональные инвесторы исполняют миллиарды сделок ежедневно. Их поток ордеров кодирует взгляды на рыночное направление, факторные экспозиции и управление рисками. Агент IL может обучиться реплицировать качество институционального исполнения.

Репликация сигналов аналитиков

Аналитики генерируют непрерывный поток торговых сигналов. Применяя IRL к рекомендациям аналитиков, мы можем восстановить их неявную систему оценки.

Мультистратегическая имитация

Портфель агентов IL, каждый обученный на отдельном эксперте (моментум-трейдер, специалист по возврату к среднему), обеспечивает диверсификацию:

$$\pi_{ensemble}(a|s) = \sum_{k=1}^{K} w_k(s) \cdot \pi_k(a|s)$$

Маркет-мейкинг на основе демонстраций

BC хорошо работает для маркет-мейкинга, так как оптимальный спред зависит в основном от текущих рыночных условий, что снижает проблему сдвига распределения.

Реализация на Rust

Реализация предоставляет единый фреймворк для сравнения BC и IRL подходов. Крейт структурирован вокруг общего трейта ImitationLearner.

Ключевые компоненты

BehavioralCloner: обучение с учителем с настраиваемыми функциями потерь
MaxEntropyIRL: восстановление весов вознаграждения через градиентный подъём
ExpertPolicy: настраиваемый симулятор эксперта (моментум, возврат к среднему, гибрид)
Evaluator: метрики точности, PnL, коэффициент Шарпа

cd 306_imitation_learning_trading/rust
cargo build
cargo test
cargo run --example trading_example

Интеграция с Bybit

Реализация включает клиент Bybit API для получения OHLCV данных в реальном времени. Пайплайн:

Загрузка BTCUSDT OHLCV данных с Bybit
Вычисление признаков: доходности, волатильность, RSI, пересечения скользящих средних
Применение экспертной политики для генерации пар состояние-действие
Разделение на обучающую и тестовую выборки
Обучение моделей BC и IRL
Сравнение производительности на тестовой выборке

Ключевые выводы

Имитационное обучение — альтернатива проектированию вознаграждений для обучения торговых агентов.
BC — простейшая отправная точка, но страдает от накопления ошибок на длинных горизонтах.
DAgger решает проблему накопления ошибок, но требует интерактивного доступа к эксперту.
IRL восстанавливает интерпретируемые функции вознаграждения, объясняющие, что оптимизирует эксперт.
GAIL обеспечивает сильнейшие теоретические гарантии через совпадение мер заполнения.
Выбор метода зависит от доступности данных и эксперта.
Институциональный поток ордеров и сигналы аналитиков — естественные источники экспертных демонстраций.
Теория мер заполнения объединяет все методы IL в единый математический фреймворк.

Ссылки

Ross, S., Gordon, G., & Bagnell, D. (2011). A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS.
Ng, A. Y., & Russell, S. J. (2000). Algorithms for Inverse Reinforcement Learning. ICML.
Ziebart, B. D., et al. (2008). Maximum Entropy Inverse Reinforcement Learning. AAAI.
Ho, J., & Ermon, S. (2016). Generative Adversarial Imitation Learning. NeurIPS.