想像一下,你是一位股市投資好手,早上起床喝杯咖啡,原本習慣讀財金新聞早報的你,改看匯集眾多新聞後給的1個數字…
「台積電(2330)近 5 日情緒指標 80% ,恩… 今天這支應該會漲!」你獨自忖度著。果不其然,台積電收了根大紅K棒。真的有這麼神奇的數字,可以取代報紙新聞,用來預測股市漲跌?有的!我們稱它「情緒指標」或「淨樂觀程度」,英文為 Sentiment Ratio(SR),而且它不是未來式,它是現在進行式,國外美聯社、路透社等媒體巨擘早已搶進該領域,國內也有兆毅資訊、聯合報系投入研發。
Big Data 的新應用!分析網路文字,計算鄉民的情緒!
股市分析包含基本面、技術面、籌碼面與消息面等分析方式,大多投資人專注於基本面、技術面與籌碼面,因為這三者具有量化指標,投資人可依據明確指標分析股市;而消息面資訊雜亂,大多投資人缺乏足夠時間整理新聞資訊,最重要的是,新聞由文字組成,要量化計算文字相當困難,因此消息面分析容易流於主觀,給人較不精確的印象。
隨著大數據(Big Data)應用趨勢成形,越來越多人嘗試分析海量雲端資料,找出其中的準則與商機,也就是「資料探勘(Data Mining)」。
資料可分為「結構性資料」與「非結構性資料」,結構性資料是數字、可運算的資料,一般 Big Data 分析處理結構性資料,因為計算數字較為容易,例如:對某商品的喜好程度;非結構性資料則處理非數字資訊,例如:新聞內容、FB 貼文、PTT 貼文等。非結構性資料難以運算,因此常需經過特別處理,才能進行分析,這樣的技術稱作「文辭探勘」。
台灣已有專為客戶分析非結構性資料的企業,例如 Qsearch 透過監測臉書等社群網站,幫助台北市長柯文哲分析 MG149 案件的網路民意走向;網路溫度計(Daily View)也用 Big Data 分析網路時勢、商品的正負面討論度。
Big Data 既然能監測民意,自然也就可以預測股價,由於股價很大一部分取決於投資人對公司未來價值的信心,透過分析新聞、社群討論等非結構性資料,得出投資人對公司的樂觀程度,就可能早一步反映股價漲跌。
先教機器「認字」,機器就能快速分析新聞情緒
在分析新聞、社群討論這類無法量化的非結構性資料,也就是「新聞探勘」時,首先得建立「語意資料庫」,紀錄特定詞彙代表的意義,例如:上漲代表樂觀、下跌代表悲觀、成長代表樂觀、虧損代表悲觀;此外,若字詞前有否定詞,該字詞代表的意義便會反轉,例如:成長表示樂觀,但「沒有」成長即表示悲觀;的、個、嗎等無意義的字詞會被從資料庫刪除。特別要注意的是,西方建立語意資料庫時,bigram、unigram 的表示法都可以,但中文只能使用 bigram,因為中文許多字詞單一字是沒有意義的,如蝴蝶的蝴便沒有任何意義,不適合納入語意資料庫。
建立語意資料庫後,就能藉由資料庫,讓電腦自動判讀一則財金新聞「看多」或者「看空」,當新聞樂觀字詞多於悲觀字詞時,會被視為看多,股市可能上漲;相反的,若新聞悲觀字詞多於樂觀字詞,則被視為看空,股價可能下跌。研究者將分析樂觀與悲觀的結果以數字量化呈現,稱為「淨樂觀程度指標(Sentiment Ratio,SR)」。學者 Demers 與 Vega 在研究時便採用 SR,SR 介於 -100~100% 之間,一家公司在一段期間內 SR 越接近100%,代表期間內的新聞內容越看多,股價就越可能上漲。
如下圖:建立語意資料庫後,電腦可判讀新聞中的樂觀詞語悲觀詞,再依據兩者的數量差距給予 SR 評分。此篇大立光新聞 SR = 42.8571
國內外大媒體路透社、美聯社搶做新聞探勘
利用新聞探勘預測股價,可能翻轉整個投資生態,帶來龐大獲利能力,因此讓華爾街趨之若鶩!
掌握新聞的美聯社(Associated Press)便開始生產電腦機器可讀的新聞產品(machine-readable news products,MRN),販售給投資銀行。同樣掌握新聞產製的路透社(Reuters)研發的投資軟體 MetaStock,具新聞發現(News Discovery)與社群監控(Social Media Monitor)功能,能對個股進行多空判斷,並會彙整社群(Twitter)對該股票的正負面討論,進而給予市場看好或看壞的評分。
如下圖:MetaStock 的 Social Media Monitor 監控 Twitter 上,對 2015 年 12 月美股大盤 S&P500 的 SR(圖左針對重要社群討論給予紅底白字的分數,分數越高越樂觀),畫出 SR 線圖(紅線),線圖趨勢大致與股價(藍線)走向一致。
註:12/25~27美國聖誕連假不開盤,不過仍有 SR 分數,雖然此期間 SR 波動大,但因沒開盤不影響股市。
再舉一個例子,下圖為 2015 年 12 月 Apple 的 SR 與股價變動圖(圖左針對重要社群討論給予紅底白字的分數,分數越高越樂觀),SR 線圖(綠線)大致與股價(藍線)走向一致。
註 1:12/10、16、23 SR 與股價走勢相反,SR 下降但股價上升,推測儘管這三天相關新聞與討論呈現悲觀,但當日美股漲幅較大,向上拉抬 Apple 股價。
註 2:12/25~27 聖誕連假不開盤,因此 SR 變動不影響股價。
整體而言,MetaStock 的 Social Media Monitor 畫出的 SR 與股價走勢相符,可做為趨勢判斷參考,但要注意個股可能受到本身以外的因素(如大盤)干擾。另外,大型股票的 SR 較具參考價值,小型股票難繪製 SR,這點我會在後面說明。
除了統整性的社群監控,MetaStock 也有 News Discovery 的功能,能計算每一篇新聞的 SR,下圖為一篇關於 Dell 新聞的 SR,顯示於新聞標題上方的一條長線,綠色越長代表越看多,紅色越長越看空。
上圖點入後,可看到 News Discovery 右下角針對這篇關於 Dell 的新聞,監測 Twitter 討論動向,並給予紅底白字的分數,分數越高表越樂觀。
目前 MetaStock 只進行 Twitter 與新聞的大數據分析,但因為亞洲地區少用 Twitter ,MetaStock 難取得亞洲股票討論資料,而現有分析的精確度也有提升空間。若想提高廣度與準確性,未來 MetaStock 可納入其他資料來源,例如不同的社群網站 FB、微博,或者各投行的券商報告,都有助於改善 SR 計算品質。
台灣有兆毅資訊、聯合報系投入新聞探勘!
台灣有兆毅資訊研發的「eyeProphet」與聯合報系的「台股新聞情緒指標」,投入新聞探勘、預測股價的領域。台股新聞情緒指標由聯合報系與銘傳大學合作開發,除了統計個股的 SR 外,也計算「危機發生指標(Intensity of Default-Corpus,ITDC)」,以衡量公司發生財務危機之機率。eyeProphet 是一款手機 APP ,下載後可直接比對股價漲跌與近五日情緒指標,清楚看出投資人情緒對股價的影響。
如下圖:上方為台積電(2330)股價成交量圖,下方為台股新聞情緒指標的台積電(2330)SR 圖,可以看出股價與 SR 走勢一致。
如下圖:eyeProphet 比對股價漲跌與五日 SR
新聞探勘面臨困境:準確率有待加強
1. 80% 以上個股單日無新聞
新聞探勘無法 100% 精準預測股價波動,目前開發的軟體準確率通常不高。根據魏裕珍與陳嵩翰的《台灣股票市場的日內新聞效果與日內報酬及波動度變化間相關性》統計結果,新聞多鎖定大型股,80% 以上個股單日沒有新聞,樣本數少的情況下,準確度自然降低。
下圖是美國一家企業解決方案提供商 Document Security Systems(DSS)的 SR 與股價變動圖,黃線為 SR、藍線為股價。由於 DSS 非大公司,不會每天有新聞與社群討論,SR 會一段時間停滯在某個數字,和股價的連動關係大為減弱,此時 SR 便不具參考價值。
2. 機器判讀悲觀、中立新聞的正確率偏低
樂觀字詞與悲觀字詞數量的差距,不見得能完全看對新聞的樂觀程度。根據王中楚於《情緒語料庫建構資料之研究──以財金新聞為例》所做研究,聯合報系軟體機器讀對樂觀新聞的正確率高達 6%,但悲觀新聞僅 35.4%,中立新聞(樂觀詞彙與悲觀詞彙數量相同)只有 11.7%,可能造成這樣的原因包括樂觀詞出現頻繁、文章過短等。另外,有些字詞表達語意的程度較高,一般處理方式為出現頻率較高的字詞(詞頻),在計算樂觀、悲觀程度時,會特別加權以強調重要性。
3. 股價同時受新聞量、發布時間影響
即使機器看對新聞了,SR 不見得能完全反映在股價上,股價還受到新聞揭露時間、新聞數量影響。《台灣股票市場的日內新聞效果與日內報酬及波動度變化間相關性》指出,盤中揭露新聞比開盤前、收盤後,對股價正面效果較強烈; SR 在開盤時與股價波動大多呈顯著正相關,其他時間點關聯性不強,但若以整體股價波動來看,兩者確實呈現顯著正相關。另外,盤中不論任何時間點,SR 與新聞的數量都呈正相關,代表新聞揭露多是發布好消息,報喜不報憂。
4. SR 可能是散戶反指標
看新聞資訊投資的多半是散戶,大戶、主力、法人都比散戶早一步接收資訊,因此 SR 偏向觀察散戶的市場情緒,但散戶通常是反指標,當散戶非常樂觀時,常常已是股價反轉點;當散戶悲觀時,股價可能正要起飛,所以要用近幾天的散戶情緒預測股價,可能會有測得反向指標的矛盾。
新聞探勘的下一步:翻轉媒體、金融業
雖然目前台灣已有許多公司將社群探勘商業化,做為公司了解消費者、政府傾聽民意的管道,但新聞探勘的領域雖有眾多研究資料,真正商業化的幾乎沒有,更別說運用在股價預測與金融業,聯合報系的台股新聞情緒指標已不再運作,EyeProphet 正在提高預測精準度,因此其軟體也尚未普及。
從國外 Associated Press、Reuters 投入新聞探勘領域來看,媒體業者因為握有新聞內容產製,具新聞探勘優勢,國內媒體可學習外媒,產製機器易讀的財金新聞,再計算呈情緒指標,以減少投資人閱讀新聞所花的時間。提高精準度後,亦可賣給金融業做為投資工具,未來的新聞將不再是新聞,而能成為預測股價的指標之一,大幅提升了新聞的附加價值,將是媒體轉型的絕佳機會。
但反過來說,一旦新聞探勘技術成熟,原先的新聞閱聽者便會直接觀察指數,真正看新聞的人變少,媒體業者的廣告收入也會跟著下降。因此,新聞探勘對未來媒體而言,是危機,也是轉機!
對金融業來說,情緒指標雖說是市場消息面的綜合指數,但亦包含基本面、技術面、籌碼面的資訊(你會看到某公司營收高於預期、法人搶進、KD 黃金交叉等新聞),若市場的所有分析方法都能用一個數字表達,勢必對負責分析市場的金融研究員造成衝擊。如果我們看一個數字就能買股票,還需要分析師告訴我們哪支股票會漲、哪支股票會跌嗎?
本文轉載自合作夥伴:維京人酒吧 Viking Bar,作者:Stanley Chen