Ïðîãíîçèðîâàíèå âîëàòèëüíîñòè ñ ïîìîùüþ àíàëèçà ìíåíèé èíâåñòîðîâ

Èññëåäîâàòåëè Òåõíîëîãè÷åñêîãî èíñòèòóòà â èíäèéñêîì ãîðîäå Êîèìáàòîð îïóáëèêîâàëè ðàáîòó, ïîñâÿùåííóþ èñïîëüçîâàíèþ ìåõàíèçìîâ àíàëèçà Big Data äëÿ îïðåäåëåíèÿ òîíàëüíîñòè îáùåñòâåííîãî ìíåíèÿ èñïîëüçîâàíèÿ ýòèõ äàííûõ äëÿ ñîçäàíèÿ ïðîãíîçîâ äâèæåíèé íà ôîíäîâîì ðûíêå.

 ÷àñòíîñòè, àíàëèçèðîâàëèñü ñîîáùåíèÿ è îòçûâû, êîòîðûå èíâåñòîðû è òðåéäåðû îñòàâëÿëè íà ñàéòàõ áèðæ è ôèíàíñîâûõ îðãàíèçàöèé.

 ïðîöåññå àíàëèçà íåîáõîäèìî áûëî ñîáðàòü äàííûå, à çàòåì âûäåëèòü èç íèõ ìàðêåðû, óêàçûâàþùèå íà òî, ïîëîæèòåëüíîå èëè íåãàòèâíîå ýòî âûñêàçûâàíèå. Ïðè ýòîì íåîáõîäèìî ó÷èòûâàòü îñîáåííîñòè åñòåñòâåííîãî ÿçûêà, êîòîðûå íåîáõîäèìî ó÷èòûâàòü äëÿ èçáåæàíèÿ îøèáîê — ê ïðèìåðó, ôðàçà «íåïëîõî» ÿâëÿåòñÿ ïîëîæèòåëüíîé õàðàêòåðèñòèêîé.



Ïîäîáíóþ êëàññèôèêàöèþ ìîæíî ïðîâîäèòü ðàçëè÷íûìè ñïîñîáàìè — íà óðîâíå äîêóìåíòà, ïðåäëîæåíèÿ èëè ôðàçû. Äëÿ ýòîãî òàêæå ìîãóò ïðèìåíÿòüñÿ ðàçëè÷íûå ìåõàíèêè ìàøèííîãî îáó÷åíèÿ — íàïðèìåð, àëãîðèòìû äëÿ îáó÷åíèÿ ñ «ó÷èòåëåì» è áåç ó÷èòåëÿ, êîòîðûå ïðîòèâîïîñòàâëÿþò äðóã äðóãó.

 ïîñëåäíåì ñëó÷àå äëÿ îïðååäåëåíèÿ îáùåé òîíàëüíîñòè âûñêàçûâàíèÿ ÷àñòî èñïîëüçóþò àíàëèç ëåêñèêîíà — ñèñòåìà èùåò ñëîâà, êîòîðûå âûðàæàþò ìíåíèå (opinion words), íàïðèìåð ïðèëàãàëüíûå.

 ñëó÷àå æå îáó÷åíèÿ ñ ó÷èòåëåì èñïîëüçóþòñÿ îáó÷àþùèå âûáîðêè, â êîòîðûõ ñîäåðæàòñÿ âõîäíûå äàííûå è æåëàåìûé ðåçóëüòàò àíàëèçà. Äëÿ ñðàâíåíèÿ ýòèõ äàííûõ ìîæíî èñïîëüçîâàòü íàèâíûé áàåéñîâñêèé êëàññèôèêàòîð èëè àëãîðèòì îïîðíûõ âåêòîðîâ.



Ëèíåéíûé êëàññèôèêàòîð ïî àëãîðèòìó îïîðíûõ âåêòîðîâ

Äàííûå î òîíàëüíîñòè âûñêàçûâàíèé èíâåñòîðîâ òàêæå ñîïîñòàâëÿþò ñ èñòîðè÷åñêèìè äàííûìè äëÿ îïðåäåëåíèÿ ôèíàíñîâîé âîëàòèëüíîñòè — ïîñëå ýòîãî ìîæíî âûðàáîòàòü ïðîãíîçû î òîì, êàêîé ýòà âåëè÷èíà ìîæåò áûòü â áóäóùåì. Ïîä âîëàòèëüíîñòüþ çäåñü ïîíèìàåòñÿ èçìåíåíèå ñòîèìîñòè ôèíàíñîâîãî àêòèâà çà îïðåäåëåííûé ïåðèîä âðåìåíè.

Äëÿ àíàëèçà âðåìåííûõ ðÿäîâ ïðèìåíÿþòñÿ ìîäåëè àâòîðåãðåññèîííîé óñëîâíîé ãåòåðîñêåäàñòè÷íîñòè (ARCH) — îíè ïðåäíàçíà÷åíû äëÿ àíàëèçà ïðîöåññà êëàñòåðèçàöèè âîëàòèëüíîñòè íà ôèíàíñîâûõ ðûíêàõ. Êîòîðàÿ âûðàæàåòñÿ â òîì, ÷òî ïåðèîäû âûñîêîé âîëàòèëüíîñòè ñìåíÿþòñÿ ïåðèîäàìè íèçêîé âîëàòèëüíîñòè. Ïðè ýòîì ñðåäíÿÿ âîëàòèëüíîñòü îñòàåòñÿ îòíîñèòåëüíî ñòàáèëüíîé — âñå ýòî ïîçâîëÿåò ïðîãíîçèðîâàòü, êàêîé âîëàòèëüíîñòü ìîæåò áûòü â áóäóùåì.

Ïðè ýòîì, ARCH-ìîäåëü ïðåäïîëàãàåò çàâèñèìîñòü óñëîâíîé äèñïåðñèè òîëüêî îò êâàäðàòîâ ïðîøëûõ çíà÷åíèé âðåìåííîãî ðÿäà. Ýòà ìîäåëü áûëà îáîáùåíà, êîãäà áûëî âûäâèíóòî ïðåäïîëîæåíèå, ÷òî óñëîâíàÿ äèñïåðñèÿ çàâèñèò òàêæå îò ïðîøëûõ çíà÷åíèé ñàìîéñåáÿ — â èòîãå ïîÿâèëàñü ìîäåëü GARCH (Generalised ARCH).


Ñõåìà ðàáîòû


Èññëåäîâàòåëè ðàçðàáîòàëè ñèñòåìó, êîòîðàÿ ïðèìåíÿåò àëãîðèòì îïîðíûõ âåêòîðîâ ê GARCH-ìîäåëè äëÿ ïðåäèêòèâíîãî àíàëèçà ñèòóàöèè íà ôîíäîâîì ðûíêå. Ðàáîòàåò îíà ïî ñëåäóþùåé ñõåìå:


 íà÷àëå ñ ïîïóëÿðíûõ ôèíàíñîâûõ ñàéòîâ ñêà÷èâàþòñÿ îáçîðû àíàëèòèêîâ, îòçûâû èíâåñòîðîâ è òðåéäåðîâ, à òàêæå ëîãè èõ îòêðûòûõ ÷àòîâ â ïðîöåññå òîðãîâ â òåêñòîâîì ôîðìàòå, êðîìå òîãî, â ñèñòåìó çàãðóæàþòñÿ íîâîñòè ñ ñàéòîâ êîìïàíèé, ÷üè àêöèè òîðãóþòñÿ íà áèðæàõ;
Ñ ïîìîùüþ àëãîðèòìà îïîðíûõ âåêòîðîâ îïðåäåëÿåòñÿ òîíàëüíîñòü âûñêàçûâàíèé (ýêñïåðèìåíòû ïîêàçàëè, ÷òî ýòîò àëãîðèòì ïîçâîëÿåò ñîçäàòü áîëåå òî÷íóþ êëàññèôèêàöèþ, ÷åì â ñëó÷àå ïðèìåíåíèå áàéåñîâñêîãî êëàññèôèêàòîðà);
Òàêæå çà òîò æå ïåðèîä âðåìåíè çàãðóæàþòñÿ èñòîðè÷åñêèå äàííûå çíà÷åíèé àíàëèçèðóåìîãî ôîíäîâîãî èíäåêñà — ýòà èíôîðìàöèÿ èñïîëüçóåòñÿ äëÿ âû÷èñëåíèÿ âîëàòèëüíîñòè ïî ìîäåëè GARCH;
Íà îñíîâå ïîëó÷åííûõ äàííûõ ãåíåðèðóþòñÿ ïðîãíîçû òðåíäû âîëàòèëüíîñòè äëÿ îòäåëüíûõ àêöèé (äëÿ àêöèé íåáîëüøèõ êîìïàíèé ìîäåëü ðàáîòàåò ëó÷øå, ÷åì äëÿ êðóïíûõ).


Ñèñòåìà äëÿ âûáîðà ïåðñïåêòèâíûõ àêöèé íà îñíîâå äàííûõ Twitter


Èññëåäîâàòåëè èç Ëîíäîíñêîãî Imperial College â ñâîþ î÷åðåäü îïóáëèêîâàëè ðàññêàç î ñîçäàíèè èíñòðóìåíòà äëÿ àíàëèçà ïóáëèêàöèé â ñîöñåòÿõ è âûÿâëåíèÿ êîððåëÿöèé ýòèõ äàííûõ ñ òðåíäàìè ôîíäîâîãî ðûíêà äëÿ ôîðìèðîâàíèÿ ïîðòôîëèî ïåðñïåêòèâíûõ àêöèé.

Ðàçëè÷íûå èññëåäîâàíèÿ, â òîì ÷èñëå ó÷åíûõ Ñòýíôîðäñêîãî óíèâåðñòèòåòà, äåìîíñòðèðóþò íàëè÷èå êîððåëÿöèè èíäåêñà Äîó-Äæîíñà è íàñòðîåíèé ïîëüçîâàòåëåé Twitter:



Àíàëèç ýòîé èíôîðìàöèè ïîçâîëÿåò âûðàáàòûâàòü ïðîãíîçû îòíîñèòåëüíî áóäóùèõ äâèæåíèé öåí. Àíãëèéñêèå èññëåäîâàòåëè ñîçäàëè ïðèëîæåíèå, êîòîðîå ñêà÷èâàåò òâèòû, êîòîðûå ñâÿçàíû ñ êîìïàíèÿìè, âõîäÿùèìè â èíäåêñ S&P 500, çàïóñêàåò Hadoop äæîá äëÿ ñîçäàíèÿ àãðåãèðîâàííîé îöåíêè òîíàëüíîñòè äëÿ êàæäîãî âûñêàçûâàíèÿ è íàáîðà àêöèé (ïîðòôîëèî), à çàòåì ðàíæèðóåò ïîðòôîëèî, ÷üè îöåíêè ïîçèòèâíîé òîíàëüíîñòè âûøå, ÷åì ó äðóãèõ.



Àðõèòåêòóðà ïðèëîæåíèÿ

Äåìî-ñèñòåìà ðàáîòàåò â êëàñòåðå Hadoop 1.1.2 è IBM GPFS 3.6. Êàæäûé óçåë îáîðóäîâàí âîñåìüþ ÷èïàìè Intel Xeon 2.5 GHz CPU, 8 GB ïàìÿòè è 250 GB õðàíèëèùà, ÎÑ — RedHat Linux.

Ïî ñëîâàì ñîçäàòåëåé ïðèëîæåíèÿ, èíâåñòîðû ìîãóò èñïîëüçîâàòü åãî äëÿ âûáîðà íàèáîëåå ïåðñïåêòèâíûõ â äàííûé ìîìåíò àêöèé äëÿ òîðãîâëè — ýòîò èíñòðóìåíò íå ïðåäíàçíà÷åí äëÿ òî÷íîãî ïðåäñêàçàíèÿ öåí àêöèé, íî ïîìîãàåò âûáðàòü òå, ïî êîòîðûì ìîæíî îæèäàòü äâèæåíèÿ â òó èëè èíóþ ñòîðîíó.