91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練模型技術(shù)在金融事件分析中有何作用

深度學(xué)習(xí)自然語言處理 ? 來源:瀾舟科技 ? 作者:馬永亮 ? 2022-09-02 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

金融事件分析背景

在金融領(lǐng)域,事件是理解信息的有效載體,如何更好的理解和分析事件一直是金融領(lǐng)域研究的熱點。預(yù)訓(xùn)練模型技術(shù)在翻譯、搜索、生成等領(lǐng)域都體現(xiàn)了它強大的能力,應(yīng)用在金融事件分析中也取得非常顯著的進步。

040271bc-29e5-11ed-ba43-dac502259ad0.png

圖 1

金融事件分析的主要任務(wù)有三塊:

第一塊是非結(jié)構(gòu)化數(shù)據(jù)智能解析。金融領(lǐng)域的信息多數(shù)以非結(jié)構(gòu)化的數(shù)據(jù)形式存在,比如PDF。從非結(jié)構(gòu)數(shù)據(jù)中解析出重要的、準確的、格式語義清楚的文本對后面的事件分析至關(guān)重要,它能有效減少噪音數(shù)據(jù)、臟數(shù)據(jù)對模型的干擾,提高結(jié)果的準確度。

第二塊是事件語義理解。這里主要涉及事件類型的檢測、事件要素的抽取和事件之間的關(guān)系,在這些對事件的理解基礎(chǔ)之上。

第三塊就可以構(gòu)建事件圖譜并進行事件圖譜的分析,包括事件鏈分析和事件預(yù)測。

為了完成這些任務(wù),這里面涉及到的技術(shù)主要有兩個:金融事件體系和金融事件圖譜。

金融領(lǐng)域,有不同的主體,不同的主體也有不一樣的場景,為了能最好的支持這些主體和場景,需要建立相應(yīng)的事件體系,這里面既有領(lǐng)域知識的人工工作,也結(jié)合技術(shù)做無監(jiān)督的歸納學(xué)習(xí),從而能夠提供場景化、完整性和可擴展的事件體系。金融事件圖譜把事件分析技術(shù)集成在了一起,抽取事件和事件關(guān)系,學(xué)習(xí)事件的表示,然后結(jié)合圖的信息進行預(yù)測。

有了這些技術(shù)和能力,我們對事件的分析,讓我們能夠回答諸如“這是一家什么公司的事?是一件什么事?人們對事情評價的情緒如何?為什么會發(fā)生?”等等。能夠回答這些問題對金融領(lǐng)域的很多場景都是非常有價值的。

金融事件體系

0452660e-29e5-11ed-ba43-dac502259ad0.png

圖 2

圖 2 是一個金融事件體系的例子。我們將金融事件分為兩級:

第一級根據(jù)事件的主體分為5類,分別是企業(yè)、股票、行業(yè)和宏觀、債券和基金。這些都是金融領(lǐng)域非常重要和常見的對象。

第二級將每種類型主體事件的再進行的細分,比如企業(yè)這個一級事件類型下面有股東減持事件。那么最后,一個二級事件類型將包含這個事件相關(guān)的主要元素。再拿股東減持為例,減持的時間,哪個股東減持,減持每股交易價格等等。

一個定義完整、對場景有針對性的事件體系,是事件分析最后能夠達成目標的重要前提。比如股東減持事件沒有被減持的股票,你就沒有辦法了解當前發(fā)生的事情影響了那家公司。

1. 事件圖譜

047a32f6-29e5-11ed-ba43-dac502259ad0.png

圖 3

事件圖譜首先是個「圖」,一個圖是由節(jié)點和邊組成。在事件圖譜中,節(jié)點可以是事件,也可以是事件的元素對應(yīng)的實體,比如公司。邊就是事件與事件間的關(guān)系,實體-事件間的關(guān)系,實體與實體間的關(guān)系。

我們來看一個例子,如圖 3 所示,這是一篇報道亞馬遜收購iRobot公司的新聞。這篇報道中,一共有四個事件,其中兩個收購事件,一個合作事件和一個創(chuàng)立公司事件,將這些事件連接起來的關(guān)系是時間順序關(guān)系。除了事件,這里面還有其他一些實體,比如公司和時間。這些實體和時間之間也由相應(yīng)的關(guān)系連接。這樣看來,一個非結(jié)構(gòu)化網(wǎng)頁信息,通過解析出正文文本和段落,抽取事件和關(guān)系,建立事件圖譜,最終就轉(zhuǎn)化成了一個結(jié)構(gòu)化的信息。

結(jié)構(gòu)化的信息,更容易進行理解和處理,可以應(yīng)用在搜索、問答這樣的信息獲取場景,或者風險監(jiān)控、量化投資分析這樣的金融業(yè)務(wù)場景。

2. 事件鏈

04c8c65a-29e5-11ed-ba43-dac502259ad0.png

圖 4

事件鏈是事件圖譜的一種特殊的、簡化的形式,它主要關(guān)注一個參與者發(fā)生的一系列事件與事件之間的關(guān)系,是一個偏序事件集合。

圖 4 例子中,事件圖譜簡化為兩個事件鏈,每個事件鏈中只有事件節(jié)點,其他信息都是節(jié)點的屬性信息。這種簡化對于將事件圖譜應(yīng)用落地是有很大幫助的,它的關(guān)系和節(jié)點類型簡化后,對圖譜的學(xué)習(xí)和處理都是只針對事件一種節(jié)點和事件間的一種關(guān)系。

那么基于事件鏈,如何對事件進行預(yù)測呢?

05123452-29e5-11ed-ba43-dac502259ad0.png

圖 5

基于事件鏈的時間預(yù)測模型主要有三部分,首先是對事件的表示,歷史事件和要預(yù)測的候選事件的表示是將事件觸發(fā)詞和事件元素拼接起來表示,為了更好的捕捉歷史事件信息,也將歷史事件的上下文表示和歷史事件的表示融合起來,這些表示被輸入第二部分,一個LSTM網(wǎng)絡(luò),LSTM網(wǎng)絡(luò)可以將事件之間順序信息(哪些事件發(fā)生在哪些事件之前等)融入到事件的表示中。

最后將LSTM編碼后的每個事件信息傳入動態(tài)記憶網(wǎng)絡(luò),這個網(wǎng)絡(luò)的設(shè)計是為了在事件鏈中對不同的事件,根據(jù)他他們與候選事件的關(guān)系,進行加權(quán)。也就是說跟候選事件聯(lián)系重要的具有更高的權(quán)重,最后計算給定歷史事件的情況下,候選事件發(fā)生的概率。

3. 事件問答

基于事件鏈的事件預(yù)測能夠提供信息對還沒有發(fā)生的情況做判斷,事件分析也能夠幫助人們更好的了解已經(jīng)發(fā)生的情況,比如事件問答。

0531acd8-29e5-11ed-ba43-dac502259ad0.png

圖 6

事件問答支持用自然語言對事件進行語義查詢。比如查詢阿里巴巴的高管變動。通過對語料進行事件抽取,建立一個結(jié)構(gòu)化事件庫,不同的事件類型存放在不同的表中。利用NL2SQL技術(shù)對問題理解后轉(zhuǎn)化為數(shù)據(jù)庫查詢SQL語句,找到對應(yīng)的表和符合條件的事件返回。

事件分析框架

0570c63e-29e5-11ed-ba43-dac502259ad0.png

圖 7

綜合前面介紹的各種事件分析技術(shù)和應(yīng)用場景,一個完整的事件分析框架支持4大能力:搜索某個事,搜索某個主體的事件,結(jié)合產(chǎn)業(yè)鏈搜索等業(yè)務(wù)數(shù)據(jù)搜索相應(yīng)主體的公司,以及根據(jù)搜索到的一個主體的已經(jīng)發(fā)生的時間預(yù)測可能發(fā)生的事件。

瀾舟事件分析技術(shù)的最新進展

接下來介紹我們在事件分析領(lǐng)域上的一些工作,時間所限,今天我將主要介紹兩個技術(shù):事件檢測和事件抽取。

1. 事件檢測

05a1bd52-29e5-11ed-ba43-dac502259ad0.png

圖 8

事件檢測是從文本中檢測是否有事件以及事件的類型。通常還會抽取對應(yīng)事件類型的觸發(fā)詞。例如,“公司副董事長、副總經(jīng)理黃世霖因個人事業(yè)考慮將辭去公司副董事長、董事、董事會戰(zhàn)略委員會委員和副總經(jīng)理職務(wù)”,事件檢測的結(jié)果是一個“企業(yè)-高管變動”事件,觸發(fā)詞是“辭去”。

事件檢測的挑戰(zhàn)一個來自事件觸發(fā)詞的標注,通常的事件檢測任務(wù)要求訓(xùn)練數(shù)據(jù)有觸發(fā)詞的標注,標注工作量大。另外一個是事件類型的變化,有的時候是增加新的類型,有的時候是對原有類型進行合并或者拆分,這些變化都涉及到標注數(shù)據(jù)和模型的改變。

064cfc80-29e5-11ed-ba43-dac502259ad0.png

圖 9

針對上述挑戰(zhàn),我們使用了基于提示(也就是prompt)的事件檢測模型。事件檢測的prompt模板中拼接了四種信息,一種是事件類型,另外一個是事件的觸發(fā)詞,觸發(fā)詞可以有多個,還有就是事件的描述信息和事件元素的角色,這兩個信息會融合在一個字段中。

根據(jù)某個事件類型的prompt,模型在輸入文本上進行token的BIO標簽分類,抽取相應(yīng)事件的觸發(fā)詞。如果針對當前的prompt類型能夠抽出觸發(fā)詞,則對應(yīng)的事件類型和觸發(fā)詞就得到了。

對于zero-shot的情況,定義相應(yīng)事件類型的prompt模型則可以進行事件檢測了。為了對比SOTA方法的方便,我們在英文數(shù)據(jù)集ACE05上進行了實驗。實驗顯示,對比另外兩個事件模型,我們的方法在全量訓(xùn)練數(shù)據(jù)和zero-shot和few-shot上都有明顯的優(yōu)勢(見圖 9 右側(cè)表格)。

2. 事件抽取

事件抽取任務(wù)是事件檢測任務(wù)的基礎(chǔ)上做了功能擴展,它不僅檢測了事件類型、觸發(fā)詞,還將事件的詳細信息抽取出來作為事件元素。例如,“格力電器9月9日宣布回購?fù)瓿?,累計成交金額為150億元,其中最高成交價為56.11元/股,最低成交價為40.21元/股”。除了事件類型和觸發(fā)詞外,抽取結(jié)果還包括像時間,交易金額等事件元素。

在一個完善的金融事件體系中,要完整的定義一個事件類型所涉及的元素,這樣在抽取中才能盡可能將一個文本中的事件的完整信息抽取出來,否則一個不完整的事件抽取結(jié)果意味著在結(jié)構(gòu)化過程中流失了。

067eaf0a-29e5-11ed-ba43-dac502259ad0.png

圖 10

事件抽取的挑戰(zhàn)主要來自于訓(xùn)練數(shù)據(jù)的標注,有些事件要素的標注會和領(lǐng)域知識緊密相關(guān),可能需要標注人員有一定的專業(yè)知識。這種標注成本高,難以擴展到大量的數(shù)據(jù)和事件類型上。

針對上述挑戰(zhàn),我們基于生成式抽取的方法,提出了一些改進的技術(shù),在ACE05上達到SOTA的效果,并且顯著提升了模型的zero-shot和few-shot能力。

06ecf172-29e5-11ed-ba43-dac502259ad0.png

圖 11

基于模板的生成式事件抽取將事件抽取轉(zhuǎn)換為一個生成任務(wù),這種方法的一個好處就是可以將模板當成是prompt,通過改寫模板支持新的事件類型,或者改變已有的事件類型,比如增加事件元素。提示信息為GTEE提供了語義指導(dǎo),以便利用標簽語義更好地捕獲事件要素,提示中編碼的事件描述使GTEE能夠使用附加的弱監(jiān)督信息。prompt和context輸入到encoder后,decoder段輸出填充之后的模板,根據(jù)模板得到事件的元素信息。GTEE做為這種方法的一個代表,證明了基于生成式的事件抽取方法也可以做到SOTA,超過傳統(tǒng)的基于序列標注的方法。

07104064-29e5-11ed-ba43-dac502259ad0.png

圖 12

但是,現(xiàn)有的生成式事件抽取方法還存在幾個不足,第一,觸發(fā)詞和事件元素之間的聯(lián)系較弱,他們都定義在模板中,沒有顯示的對應(yīng)關(guān)系。第二,模型推理時,針對一個輸入文本,每個事件類型都要進行一次推理,推理的計算量和事件類型成正比。事件檢測和事件抽取采用了pipeline的方式組織,導(dǎo)致錯誤傳播,不能聯(lián)合學(xué)習(xí)優(yōu)化。

為解決以上不足,我們提出基于觸發(fā)詞檢測增強的生成式事件抽取,如下圖所示:

0754bfdc-29e5-11ed-ba43-dac502259ad0.png

圖 13

在TDE-GTEE中,事件檢測模塊提供觸發(fā)詞和事件類型信息,在輸入中標注觸發(fā)詞得到新的輸入,并且根據(jù)事件類型信息選擇相應(yīng)的模板,新的輸入和事件模板輸入concat后的表示結(jié)合事件檢測模型中觸發(fā)詞的表示輸入bart模型,最終得到填充后的模板,進而得到事件元素信息。

這里事件觸發(fā)詞在輸入中的標注,以及觸發(fā)詞表示和prompt表示融合,都是在加強觸發(fā)詞與輸入和模板中信息的交互,同時,檢測模型過濾了無關(guān)的事件類型模板,推理效率更高。最后,檢測模型和事件抽取模型融入一個端到端的模型,并聯(lián)合訓(xùn)練。

079c8f6a-29e5-11ed-ba43-dac502259ad0.png

圖 14

基于以上改進,TDE-GTEE在ACE05和ERE上都達到了SOTA水平,如圖 14 表格所示。

07bfcb92-29e5-11ed-ba43-dac502259ad0.png

圖 15

為支持zero-shot 和few-shot,在TDE-GTEE的基礎(chǔ)上,我們將前面介紹過的基于prompt的事件檢測模塊集成進來。同樣在ACE05上對比GTEE等模型,TDE-GTEE的 zero-shot和few-shot 事件抽取效果也達到了SOTA水平。

總結(jié)

事件分析在金融領(lǐng)域廣泛,應(yīng)用場景眾多,一個完善的覆蓋金融事件體系和核心技術(shù)的金融事件分析框架,為金融領(lǐng)域的信息理解提供了強有力的支持。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    792

    瀏覽量

    46749
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1039

    瀏覽量

    57012
  • PDF
    PDF
    +關(guān)注

    關(guān)注

    1

    文章

    177

    瀏覽量

    36275

原文標題:基于預(yù)訓(xùn)練模型的金融事件分析及應(yīng)用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中模型訓(xùn)練所需的算力投入。一個萬億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?880次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標是
    發(fā)表于 10-22 07:03

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有影響?
    的頭像 發(fā)表于 08-29 14:01 ?3494次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1120次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有作用

    升數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場景的詳細分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:AI訓(xùn)練
    發(fā)表于 07-29 15:02

    螞蟻數(shù)科正式發(fā)布金融推理大模型

    模型Agentar-Fin-R1是基于Qwen3研發(fā),Agentar-Fin-R1包括有32B和8B參數(shù)兩個版本。FinEval1.0、FinanceIQ等權(quán)威金融模型評測基準上
    的頭像 發(fā)表于 07-28 16:36 ?666次閱讀

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進行高效訓(xùn)練、推理和部署。
    的頭像 發(fā)表于 07-02 16:53 ?1373次閱讀

    兆芯率先展開文心系列模型深度技術(shù)合作

    6月30日,百度正式開源文心大模型4.5系列等10款模型,并實現(xiàn)預(yù)訓(xùn)練權(quán)重和推理代碼的完全開源,兆芯率先與文心系列模型展開深度
    的頭像 發(fā)表于 07-01 10:49 ?987次閱讀

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    億個參數(shù)的混合專家模型(MoE) ,每個token(模型處理文本的基本單位)激活 370 億個參數(shù)。該模型 14.8 萬億個高質(zhì)量 token上進行
    發(fā)表于 06-09 14:38

    HarmonyOS5云服務(wù)技術(shù)分享--應(yīng)用預(yù)加載提速指南

    手把手教你用預(yù)加載優(yōu)化應(yīng)用啟動速度 Hi,開發(fā)者朋友們!今天我們來聊聊如何通過預(yù)加載技術(shù)讓應(yīng)用啟動快人一步。在用戶體驗至上的時代,首屏加載速度直接關(guān)系到用戶留存率,快來掌握這個提升性能的利器吧! 一
    發(fā)表于 05-22 20:39

    預(yù)端接光纜配線架的作用有哪些

    具體作用的詳細分析: 1. 快速部署與安裝 預(yù)端接設(shè)計:光纜工廠內(nèi)已完成熔接、測試和封裝,現(xiàn)場無需復(fù)雜的熔接操作,直接插入配線架即可完成連接。 即插即用:相比傳統(tǒng)現(xiàn)場熔接方式,安裝時
    的頭像 發(fā)表于 05-09 10:00 ?735次閱讀

    模型時代的深度學(xué)習(xí)框架

    量是約為 25.63M,ImageNet1K數(shù)據(jù)集上,使用單張消費類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型預(yù)訓(xùn)練。
    的頭像 發(fā)表于 04-25 11:43 ?864次閱讀
    大<b class='flag-5'>模型</b>時代的深度學(xué)習(xí)框架

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型?

    。我 yo tflite 中轉(zhuǎn)換模型并嘗試 tensorflow 腳本上運行模型,但它不起作用。 如何在 imx8mplus 上運行 Y
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進
    的頭像 發(fā)表于 03-21 18:24 ?4340次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。模型訓(xùn)練中,數(shù)
    的頭像 發(fā)表于 03-21 10:30 ?3432次閱讀