基于?;幕ヂ?lián)網(wǎng)金融大數(shù)據(jù)分析
時(shí)間:2022-05-22 08:21:01
導(dǎo)語(yǔ):基于?;幕ヂ?lián)網(wǎng)金融大數(shù)據(jù)分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
摘 要:隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)正日益滲透到各行各業(yè)。基于數(shù)據(jù)挖掘技術(shù)挖掘出掌柜錢(qián)包的基本面數(shù)據(jù),其目的是為了獲取投資的標(biāo)量信息。隨后建立支持向量機(jī)的指數(shù)回歸預(yù)測(cè)模型,通過(guò)模型回測(cè)判斷預(yù)測(cè)效果良好。為了更好的判斷未來(lái)價(jià)量信息的走向,因此采用基于模糊信息化的支持向量機(jī)指數(shù)預(yù)測(cè)模型,以每周信息為一個(gè)信息點(diǎn),所得到結(jié)果準(zhǔn)確。
關(guān)鍵詞:大數(shù)據(jù);信息?;?;支持向量機(jī);指數(shù)預(yù)測(cè)
1 引言
“掌柜錢(qián)包”是興業(yè)全球基金與興業(yè)銀行聯(lián)合推出的互聯(lián)網(wǎng)的理財(cái)存取業(yè)務(wù),該業(yè)務(wù)于2014年3月10日上線運(yùn)行,自上線以來(lái)在同類(lèi)104只貨幣基金多次排前兩名,截至2018年12月,資金規(guī)模達(dá)460億元,在貨幣基金市場(chǎng)排名第五。在掌柜錢(qián)包廣受歡迎的同時(shí),我們也要對(duì)其進(jìn)行預(yù)警研究,而本文使用的技術(shù)分析就是一種比較有效的方式。技術(shù)分析注重對(duì)金融市場(chǎng)歷史數(shù)據(jù)的研究,通過(guò)圖表展現(xiàn)預(yù)測(cè)價(jià)格走勢(shì)和投資策略分析。在理論上,技術(shù)分析只考慮市場(chǎng)或金融工具的實(shí)際價(jià)格行為,并認(rèn)為價(jià)格會(huì)通過(guò)其他渠道反映所有投資者的相關(guān)因素。技術(shù)分析是一種證券交易的基本分析方法,也是實(shí)際操作是最大的分析方法。關(guān)于技術(shù)分析的運(yùn)用和市場(chǎng)交易的有效性,學(xué)術(shù)界和實(shí)務(wù)界一直存在爭(zhēng)議。但從實(shí)踐角度,為了更好地理解和運(yùn)用技術(shù)分析,實(shí)現(xiàn)投資收益,減少被動(dòng)風(fēng)險(xiǎn)其研究也是非常有意義的。一個(gè)衡量風(fēng)險(xiǎn)的指標(biāo)是MSE,而本文運(yùn)用的SVM能夠有效性的檢驗(yàn)誤差。
2 文獻(xiàn)綜述
隨著金融市場(chǎng)的擴(kuò)張、金融風(fēng)險(xiǎn)預(yù)警的發(fā)展,技術(shù)分析較傳統(tǒng)投資優(yōu)勢(shì)逐漸顯現(xiàn)。Markowitz在1952年發(fā)表的《投資組合選擇理論》中提出了均值-方差模型,開(kāi)創(chuàng)了現(xiàn)資組合理論。緊接著William Sharpe1964年對(duì)資產(chǎn)組合模型進(jìn)行了簡(jiǎn)化,提出了資本資產(chǎn)定價(jià)CAPM模型,闡釋了單一投資回報(bào)率與標(biāo)準(zhǔn)投資組合的投資回報(bào)率之間的相關(guān)性。隨后Stephen Ross在1976年提出了套利定價(jià)APT模型,認(rèn)為如果市場(chǎng)未達(dá)到均衡狀態(tài)并且不考慮交易成本等中間因素,就會(huì)存在無(wú)風(fēng)險(xiǎn)套利機(jī)會(huì)。從而將資本資產(chǎn)定價(jià)理論推向了一個(gè)新的研究階段。近些年,機(jī)器學(xué)習(xí)技術(shù)在技術(shù)投資領(lǐng)域得到了快速發(fā)展,SVM作為一個(gè)常用的技術(shù)有了大量的研究。MAH Farquad提出在解決財(cái)務(wù)問(wèn)題的銀行信用卡客戶(hù)的流失預(yù)測(cè)和保險(xiǎn)中的欺詐檢測(cè),SVM能夠敏感性的判斷,實(shí)證結(jié)果表明,所提出的改進(jìn)的基于主動(dòng)學(xué)習(xí)的SVM方法產(chǎn)生了最佳靈敏度,并且減少了規(guī)則的長(zhǎng)度和數(shù)量,從而提高了可理解性。L.Zhang提出SVM在供應(yīng)鏈金融管理供應(yīng)商和客戶(hù)管理之間的需求,建立一個(gè)認(rèn)證管理系統(tǒng),從而提高了中小企業(yè)融資過(guò)程的信用評(píng)級(jí)狀況。胡海清等提出了供應(yīng)鏈金融模式下的信用風(fēng)險(xiǎn)管理,利用SVM建立風(fēng)險(xiǎn)評(píng)估體系,證實(shí)了風(fēng)險(xiǎn)評(píng)估的有效性。Hsu,Ming-Wei等提出將機(jī)器學(xué)習(xí)方法應(yīng)用到金融時(shí)間序列預(yù)測(cè)上,金融市場(chǎng)的可預(yù)測(cè)性和基于模型的盈利交易的可行性受到市場(chǎng)成熟度、所采用的預(yù)測(cè)方法、預(yù)測(cè)產(chǎn)生的時(shí)間范圍以及評(píng)估模型和模擬模型交易的方法的顯著影響,且SVM預(yù)測(cè)所得到的效果顯著。Shom Prasad Das等提出SVM-TLBO模型避免了用戶(hù)指定的控制參數(shù),通過(guò)預(yù)測(cè)COMDEX商品期貨指數(shù)的每日收盤(pán)價(jià)來(lái)評(píng)估該混合模型的可行性和效率。實(shí)驗(yàn)結(jié)果表明,該模型是有效的,并且比粒子群優(yōu)化(PSO)+SVM混合和標(biāo)準(zhǔn)SVM模型表現(xiàn)更好。例如,與標(biāo)準(zhǔn)SVM回歸相比,該模型將平均絕對(duì)誤差提高了65.87%(提前1天預(yù)測(cè)),55.83%(提前3天預(yù)測(cè))和67.03%(提前5天預(yù)測(cè))。更多的,Johana等人分析了59篇關(guān)于SVM和金融時(shí)間序列的分析進(jìn)展,結(jié)論表明SVM比傳統(tǒng)的時(shí)間序列方法更準(zhǔn)確。
3 粒化支持向量機(jī)理論介紹
3.1 相關(guān)理論,20世紀(jì)90年代初Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出了一種新的機(jī)器學(xué)習(xí)方法,即SVM方法。該方法以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為理論基礎(chǔ),通過(guò)適當(dāng)?shù)剡x擇函數(shù)子集及該子集中的判別函數(shù),使學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)達(dá)到最小,保證了通過(guò)有限訓(xùn)練樣本得到的小誤差分類(lèi)器,對(duì)獨(dú)立測(cè)試集的測(cè)試誤差仍然較小。在支持向量和輸入空間抽取的向量之間的內(nèi)積核是構(gòu)造支持向量機(jī)學(xué)習(xí)算法的關(guān)鍵。其中支持向量機(jī)是由算法從訓(xùn)練數(shù)據(jù)中抽取的小子集構(gòu)成。其種類(lèi)主要有:線性核函數(shù):K(x,xi)=xTxi;多項(xiàng)式核函數(shù):K(x,xi)=(γxTxi+r)p,γ>0;徑向基核函數(shù):K(x,xi)=exp(-γ||x-xi||2),γ>0;兩層感知器核函數(shù):K(x,xi)=tanh(γxTxi+r)通過(guò)對(duì)比發(fā)現(xiàn),雖然對(duì)掌柜錢(qián)包進(jìn)行了回歸預(yù)測(cè),但是大多數(shù)時(shí)候無(wú)法對(duì)指數(shù)進(jìn)行精確預(yù)測(cè),如果能夠?qū)﹂_(kāi)盤(pán)指數(shù)和變化空間進(jìn)行預(yù)測(cè)就顯得很重要。利用SVM對(duì)進(jìn)行模糊信息?;蟮拿咳臻_(kāi)盤(pán)指數(shù)進(jìn)行變化趨勢(shì)和變化空間的預(yù)測(cè)。信息?;擅绹?guó)數(shù)學(xué)家Lotfi A.Zahdeh教授提出,是?;?jì)算和詞語(yǔ)計(jì)算的主要方面,研究信息?;男纬?、表示、粗細(xì)、語(yǔ)義解釋等。從本質(zhì)上講,信息粒化是通過(guò)不可區(qū)分性、相似性、功能相近性、函數(shù)性等來(lái)劃分對(duì)象的集合。是將一個(gè)整體分解為一個(gè)個(gè)相似的元素部分進(jìn)行研究,每個(gè)部分為一個(gè)信息粒。這種信息粒命題表達(dá)方式為:gΔ-(xisG) isλ或者gΔ-xisG其中x是論域U中取值的變量,G是U的模糊子集,由隸屬函數(shù)μG來(lái)刻畫(huà)。λ表示可能性概率。一般假設(shè)U為實(shí)數(shù)集合R R()',G是U的凸模糊子集,λ是單位區(qū)間的模糊子集。3.2 “掌柜錢(qián)包”,技術(shù)分析模型構(gòu)建,選取數(shù)據(jù):每一行表示每一個(gè)交易日的掌柜錢(qián)包指數(shù)各種指標(biāo),6列分別表示當(dāng)天指數(shù)的開(kāi)盤(pán)指數(shù),指數(shù)最高,指數(shù)最低值,收盤(pán)指數(shù),當(dāng)日交易量,當(dāng)日交易額。模型目的:利用SVM建立的回歸模型對(duì)指數(shù)每日的開(kāi)盤(pán)數(shù)進(jìn)行回歸擬合模型假設(shè):指數(shù)每日的開(kāi)盤(pán)數(shù)與前一日的開(kāi)盤(pán)指數(shù),指數(shù)最高值,指數(shù)最低價(jià),收盤(pán)指數(shù),交易量和交易額相關(guān),即把前一日的開(kāi)盤(pán)指數(shù),指數(shù)最高值,指數(shù)最低價(jià),收盤(pán)指數(shù),交易量和交易額作為當(dāng)日開(kāi)盤(pán)指數(shù)的自變量,當(dāng)日的開(kāi)盤(pán)指數(shù)為因變量。在給定的訓(xùn)練樣本x1,y()1,...,xn,y(){}n,i=1,2,...,n,采用不敏感損失函數(shù)算法,尋找回歸函數(shù)f(x,α)=wx+b中的參數(shù)w,b,將問(wèn)題轉(zhuǎn)化為:min12w2+C∑ni=1ξi+ξ*is.t.(wxi+b)-yi!ε+ξiyi-(wTxi+b)!ε+ξ*iξi,ξ*i0,i=1,2...烅烄烆n引入拉格朗日函數(shù)可以得到對(duì)偶規(guī)劃min12∑ni,j=1α*i(-α)iα*j(-α)jx(ix)j+ε∑ni=1α*i(+α)i∑nj=1yiα*j(-α)js.t.∑ni=1(α*i-αi)=00!αi,α*i!C,i=1,2...烅烄烆n對(duì)于非線性回歸類(lèi)似,可以通過(guò)核函數(shù)來(lái)實(shí)現(xiàn)。目前比較常用的核函數(shù)類(lèi)型有:線性核函數(shù):K(x,xi)=xTxi;多項(xiàng)式核函數(shù):K(x,xi)=(gxTxi+r)d;高斯核函數(shù):K(x,xi)=exp(-g‖x-xi‖2);Sigmoid核函數(shù):K(x,xi)=tanh(gxTxi+r)支持向量機(jī)的核函數(shù)以及參數(shù)的選取對(duì)其目標(biāo)的預(yù)測(cè)性能有很大的影響,從現(xiàn)有的研究成果來(lái)看,大多數(shù)情況下最常用的核函數(shù)-高斯核函數(shù)都獲得了較好的預(yù)測(cè)效果,因此本文借鑒已有的研究成果采用高斯核函數(shù)進(jìn)行研究。此時(shí)的支持向量機(jī)存在兩個(gè)需要調(diào)節(jié)的參數(shù):懲罰參數(shù)c和高斯核函數(shù)參數(shù)g。 算法流程圖對(duì)于掌柜錢(qián)包的有效預(yù)測(cè)可以從整體上觀測(cè)股市的變化提供強(qiáng)有力的信息,所有對(duì)掌柜錢(qián)包的預(yù)測(cè)很有意義,通過(guò)對(duì)掌柜錢(qián)包的開(kāi)盤(pán)至今的每日開(kāi)盤(pán)數(shù)據(jù)進(jìn)行回歸分析。
4 結(jié)果分析
通過(guò)使用核函數(shù)-高斯核函數(shù)的研究網(wǎng)絡(luò)搜索法來(lái)對(duì)高斯核函數(shù)g和懲罰參數(shù)c進(jìn)行優(yōu)化選擇實(shí)現(xiàn)。選擇回歸預(yù)測(cè)分析最佳的SVM參數(shù)c&g。利用上面得到的最佳參數(shù)c和g對(duì)SVM進(jìn)行訓(xùn)練,然后再對(duì)原始數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),得出圖1、圖2。利用回歸預(yù)測(cè)分析最佳的參數(shù)進(jìn)行SVM網(wǎng)絡(luò)訓(xùn)練。利用網(wǎng)格搜索法最終得到的擬合結(jié)果為:均方誤差MSE=0.000362,相關(guān)系數(shù)R=98.56%,在95%的置信區(qū)間下,預(yù)測(cè)的準(zhǔn)確率為93.98%,預(yù)測(cè)效果良好。利用高斯核函數(shù)的強(qiáng)大回歸,得到的效果良好。對(duì)上一個(gè)模型進(jìn)行改良的上面是對(duì)一個(gè)指標(biāo)進(jìn)行回歸預(yù)測(cè),而這里進(jìn)行的是對(duì)3個(gè)指標(biāo)(最低價(jià),平均價(jià),最高價(jià))進(jìn)行回歸預(yù)測(cè),得到的是一個(gè)區(qū)間進(jìn)行說(shuō)明,其準(zhǔn)確性更高。利用SVM對(duì)模糊粒子Low進(jìn)行回歸預(yù)測(cè)。基于上面尋得的參數(shù),利用支持向量機(jī)回歸預(yù)測(cè)。對(duì)于Low的擬合結(jié)果分析,利用上面得到的最佳參數(shù)訓(xùn)練和預(yù)測(cè),最終Low模型得到的擬合效果為:均方誤差MSE=0.0045相關(guān)系數(shù)R=85.90%接下來(lái)5個(gè)交易日的平均模糊粒子參數(shù):predict_low=1.3321再次利用SVM對(duì)R、Low進(jìn)行回歸預(yù)測(cè)。最終結(jié)果如下,求得的模糊粒子參數(shù)最低值Low,平均值r,最高值Up的預(yù)測(cè)值分別是:[Low,R,Up]=[1.3321,1.3652,1.4022]通過(guò)與接下來(lái)的幾天進(jìn)行實(shí)證分析其結(jié)果確實(shí)是在里面,證明回測(cè)成功。通過(guò)截取2019年1月2-4日的K線圖,可以證明擬合效果良好。表3 2019年1月結(jié)論及未來(lái)工作在粒化SVM建?;販y(cè)過(guò)程中沒(méi)有考慮手續(xù)費(fèi)和沖擊成本等因素,僅僅是一個(gè)大概的測(cè)試結(jié)果,其目的是為了說(shuō)明使用SVM交易策略建模的思想和過(guò)程。本節(jié)提出的模型也可以擴(kuò)展到小時(shí)級(jí)別,分鐘級(jí)別等其他頻率交易數(shù)據(jù)模型的構(gòu)建。雖然技術(shù)投資分析在我國(guó)尚處于發(fā)展起步階段,但2010年以來(lái)發(fā)展態(tài)勢(shì)快速,未來(lái)發(fā)展前景廣闊。近些年來(lái)機(jī)器學(xué)習(xí)的大力發(fā)展也為金融技術(shù)投資分析提供了理論基礎(chǔ),也讓技術(shù)投資不失為一種非常高效的金融分析方法。
值得注意的是,雖然技術(shù)投資是一種客觀、高效、無(wú)偏的投資方式,但投資者也不能過(guò)度依賴(lài),畢竟市場(chǎng)的多變性和有效性都會(huì)給技術(shù)投資帶來(lái)諸多挑戰(zhàn),因而需要充分發(fā)揮金融工程師的創(chuàng)造力,不斷挖掘創(chuàng)新投資模型。相信隨著大數(shù)據(jù)技術(shù)、人工智能的快速發(fā)展,技術(shù)投資在國(guó)內(nèi)會(huì)有更好的發(fā)展勢(shì)頭。
作者:郜燕群 單位:惠州經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院