特征提取是量化投資中又一環節,做好特征提取能節省大量后續環節的工作。什么是特征?特征提取有著哪些全新發展趨勢?本期欄目將圍繞這些問題展開。
Q49:什么是特征?
在機器學習領域,特征指“被觀測對象的可測量性能或特性”,通常是數值型的,但語法模式識別可以使用結構特征(如字符串和圖)。
Q50:特征和因子的區別是什么?
因子指“對個股收益差異有解釋作用的特征”,其中Alpha因子更為強調其對未來個股相對收益的預測能力。“特征”更側重符合數理統計規律的信息,“因子”相對更側重邏輯性和可解釋性。一般來講,中低頻數據能直接提取Alpha因子,不少低頻指標本身就具有選股能力;而原始的高頻行情數據一般不能直接用作Alpha因子,需要通過信號變換、時間序列分析、機器學習等方法從高頻數據中構建特征,才能構建選股因子。
Q51:特征提取的作用和發展趨勢有哪些?
一般而言,量化投資可粗略分為六大環節:收集數據、數據清洗、特征提取、模型開發、組合優化、交易執行。其中“特征提取”環節,各家稱呼并不相同,簡單的Alpha因子和簡單的特征工程處理都在這一環節進行。
在機器學習領域,“特征工程處理”是指在給定數據、模型和任務的情況下設計出最合適特征的過程,相當于梳理數據并結合業務需要提取有意義的信息,以干凈整齊的形態進行組織。
做好特征提取能節省大量后續環節的工作:以D. E. Shaw為代表的部分海外頂級機構,并未特別強調深度學習模型的復雜性,但由于Alpha因子質量較高,即使并不復雜的模型也能獲得出色的建模效果。這也是為何業內并不會片面強調因子數量,而因子的質量(即存在多少獨立的Alpha)才是關鍵。不同的方法論會得到不同的成果,從邏輯出發的因子質量比較高,暴力方式得到的因子數量比較多。
近年來,A股市場更為有效、機構化趨勢明顯,量化私募從市場獲取超額收益的難度增加,因子開發也面臨著數據維度更高、信息密度更低、噪聲含量更高的挑戰。機器學習等擅長處理海量數據和高維特征的方法得以快速應用到量化投研流程中。其中深度學習模型具有靈活多樣的網絡結構,適合不同情景的建模問題,本身具有自動學習特征的能力。隨著網絡層數增加,模型的線性和非線性表達能力也會在一定范圍內明顯增強。
隨著人工神經網絡的進一步發展,除了選擇分析已經提取好特征的信號,還可以直接分析原始數據而不需要提取特征。該做法能避免人為選擇導致的信息丟失,保留全部信息,最終有助于獲得相關性極低的α。
Q52:量化機構的迭代方向有哪些?
第一類:追求更新的方法論
例如在特征工程方面,增進對數據的深刻理解,“把對市場的深刻理解和最先進的科學技術相結合”。簡單的因子提取和連接并不能增加收益,不同維度的多元化拓展是未來努力的方向——雖然目前另類數據在中國A股的應用并不廣泛,也未能大幅增加策略的超額收益,但發展前景廣闊,仍值得持續積累并投入研究。與自然語言學習不同,股票市場本身的數據點不夠多,只堆砌數據必定導致過擬合。優秀的研究員從理解出發,依靠邏輯型的因子(如事件驅動因子)也能進行數據分析,發掘他人想不到的東西。
第二類:側重更新的模型、更高的算力——依靠模擬和近似人的行為試圖替代人的理解
2017 年,Google 的研究者提出 Transformer 的神經網絡模型,這啟發了全球量化機構在投研中加強新科技的應用。如果應用更新的模型,Alpha挖掘能力可能比以前提升幅度更大。以深度學習為代表的“暴力”方式非常重要,在諸如神經網絡做幾層、怎樣做才不會過擬合的細節問題上即是不同機構的分野,這也是“采用同一個模型,業績卻千變萬化”的原因。
除了對基礎設施等硬件進行資金投入外,量化私募還需要努力營造有利于高效產出的投研環境,為優秀頂尖人才提供相對較優的福利待遇,兼顧硬實力的提升和軟環境的升級。
(CIS)
校對:姚遠