Глава 260: Торговля на основе графов знаний
Графы знаний (Knowledge Graphs, KG) кодируют сущности и их связи в виде структурированной сети, позволяя моделям машинного обучения рассуждать над взаимосвязанной финансовой информацией. В отличие от табличных признаков, которые обрабатывают каждый вход независимо, графы знаний фиксируют межсущностные зависимости — такие как цепочки поставок между компаниями, принадлежность к секторам, пересечения советов директоров и макроэкономические воздействия — обеспечивая более богатый контекст для торговых решений.
Ключевые концепции
Основы графов знаний
Граф знаний $G = (V, E, R)$ состоит из:
- Вершины $V$: сущности (компании, секторы, товары, люди, события)
- Рёбра $E \subseteq V \times R \times V$: направленные связи между сущностями
- Типы отношений $R$: семантические метки (например,
поставляет_для,конкурирует_с,член_группы)
Каждый факт хранится как тройка $(h, r, t)$, где $h$ — головная сущность, $r$ — отношение, а $t$ — хвостовая сущность. Например: (AAPL, поставляет_для, TSLA) или (NVDA, член_группы, S&P500).
Эмбеддинги графов знаний
Модели эмбеддингов KG обучают непрерывные векторные представления сущностей и отношений, оптимизируя функцию оценки $f(h, r, t)$ на наблюдаемых тройках.
TransE моделирует отношения как трансляции в пространстве эмбеддингов:
$$f(h, r, t) = -|\mathbf{h} + \mathbf{r} - \mathbf{t}|$$
Функция потерь поощряет $\mathbf{h} + \mathbf{r} \approx \mathbf{t}$ для положительных троек и $\mathbf{h} + \mathbf{r} \not\approx \mathbf{t}’$ для искажённых троек.
DistMult использует билинейную функцию оценки:
$$f(h, r, t) = \mathbf{h}^\top \text{diag}(\mathbf{r}) , \mathbf{t} = \sum_i h_i \cdot r_i \cdot t_i$$
ComplEx расширяет DistMult до комплекснозначных эмбеддингов, обрабатывая асимметричные отношения:
$$f(h, r, t) = \text{Re}\left(\sum_i h_i \cdot r_i \cdot \bar{t}_i\right)$$
Графовые нейронные сети на KG
Реляционные графовые свёрточные сети (R-GCN) агрегируют информацию от соседей через типизированные рёбра:
$$\mathbf{h}i^{(l+1)} = \sigma\left(\sum{r \in R} \sum_{j \in \mathcal{N}i^r} \frac{1}{c{i,r}} \mathbf{W}_r^{(l)} \mathbf{h}_j^{(l)} + \mathbf{W}_0^{(l)} \mathbf{h}_i^{(l)}\right)$$
где $\mathcal{N}i^r$ — множество соседей вершины $i$ по отношению $r$, $c{i,r}$ — нормализующая константа, а $\mathbf{W}_r^{(l)}$ — матрицы весов, специфичные для каждого отношения.
Темпоральные графы знаний
Финансовые графы знаний эволюционируют во времени. Темпоральные модели KG расширяют статические эмбеддинги временной компонентой:
$$f(h, r, t, \tau) = \mathbf{h}\tau^\top \text{diag}(\mathbf{r}\tau) , \mathbf{t}_\tau$$
где эмбеддинги сущностей и отношений являются функциями времени $\mathbf{h}_\tau = g(\mathbf{h}, \tau)$, отражая изменения корпоративных связей, секторного распределения и цепочек поставок.
Подходы МО для торговли
Альфа-сигналы на основе сущностей
Эмбеддинги KG предоставляют признаки сущностей, дополняющие традиционные факторные модели. Для эмбеддинга акции $\mathbf{e}_i$ обучается классификатор:
$$P(\text{up}_i \mid \mathbf{e}_i, \mathbf{x}_i) = \sigma(\mathbf{w}^\top [\mathbf{e}_i | \mathbf{x}_i] + b)$$
где $\mathbf{x}_i$ — традиционные признаки (моментум, стоимость, качество), а $|$ обозначает конкатенацию.
Реляционное распространение риска
Связи в цепочках поставок и кредитные зависимости распространяют риск между связанными сущностями. Оценка влияния сущности $j$ на $i$ через путь $p$:
$$\text{Influence}(j \to i) = \sum_{p \in \text{Paths}(j,i)} \prod_{(u,r,v) \in p} w_{u,r,v}$$
где $w_{u,r,v}$ — веса рёбер, отражающие силу каждого отношения.
Распространение событий по KG
Финансовые события (неожиданные прибыли, регуляторные действия, объявления о слияниях и поглощениях) распространяются по графу знаний. Распространённое воздействие на сущность $i$ от события в сущности $j$:
$$\text{Impact}i = \sum{j \in \text{EventSources}} \alpha_{ij} \cdot \text{EventScore}_j$$
где $\alpha_{ij}$ — взвешенное вниманием влияние, полученное из структуры графа.
Инженерия признаков
Признаки центральности сущностей
- Центральность по степени: Количество связей (больше степень = больше системная важность)
- Центральность по посредничеству: Доля кратчайших путей, проходящих через сущность
- PageRank: Рекурсивная мера важности на основе качества входящих связей
- Центральность по собственному вектору: Мера влияния на основе связей с другими влиятельными вершинами
Признаки на основе отношений
- Глубина цепочки поставок: Расстояние до конечного потребителя или источника сырья
- Секторная концентрация: Разнообразие межсекторных связей
- Сходство с аналогами: Косинусное сходство эмбеддингов KG между компаниями
- Оценка заражения: Взвешенная сумма метрик риска соседних компаний в трудном положении
Темпоральные графовые признаки
- Скорость формирования связей: Скорость появления новых отношений
- Стабильность отношений: Продолжительность существующих связей
- Изменение плотности графа: Временная эволюция локального коэффициента кластеризации
Применения
Альфа из цепочки поставок
Графы знаний, отображающие связи поставщик-покупатель, позволяют строить торговые стратегии на основе опережения-запаздывания. Когда крупный поставщик публикует сильную отчётность, связанные компании-потребители часто испытывают отложенную положительную реакцию цен, создавая эксплуатируемые альфа-сигналы.
Управление рисками с учётом заражения
Распространяя кредитный риск по KG, портфельные менеджеры могут выявить скрытые экспозиции. Казалось бы, диверсифицированный портфель может иметь концентрированный риск цепочки поставок, который становится видимым только через анализ графа.
Торговля на событиях
KG позволяют систематически распространять сигналы событий. Одобрение FDA для фармацевтической компании распространяется на её поставщиков, конкурентов и компании-партнёры с количественно определёнными весами воздействия, полученными из структуры графа.
Реализация на Rust
Реализация на Rust предоставляет пять основных компонентов:
- KnowledgeGraph: Хранилище троек с индексацией сущностей и отношений, поиском соседей и путей
- TransEModel: Модель эмбеддингов TransE с ранжирующей функцией потерь и обучением SGD
- GraphFeatureExtractor: Вычисление признаков центральности (степень, PageRank) и сходства аналогов из KG
- TradingSignalGenerator: Комбинирование эмбеддингов KG с рыночными признаками для генерации сигналов купли/продажи
- BybitClient: Асинхронный клиент рыночных данных для Bybit V5 API (свечи и стакан заявок)
Интеграция с Bybit API
Реализация загружает данные рынка в реальном времени с Bybit:
- Эндпоинт свечей:
/v5/market/kline— данные OHLCV для вычисления признаков - Эндпоинт стакана:
/v5/market/orderbook— уровни bid/ask в реальном времени для признаков спреда
Поддерживаются как символы фондового рынка (через маппинг сущностей KG), так и криптопары (BTCUSDT, ETHUSDT).
Ссылки
- Bordes, A., et al. “Translating Embeddings for Modeling Multi-relational Data.” NeurIPS, 2013.
- Schlichtkrull, M., et al. “Modeling Relational Data with Graph Convolutional Networks.” ESWC, 2018.
- Cheng, D., et al. “Knowledge Graph-Based Event Embedding Framework for Financial Quantitative Investments.” AAAI, 2020.
- Feng, F., et al. “Temporal Relational Ranking for Stock Prediction.” ACM TOIS, 2019.
- Ding, X., et al. “Knowledge-Driven Stock Trend Prediction and Explanation via Temporal Convolutional Network.” WWW, 2019.