91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

KiloGram是一種用于管理文件中的大型n-gram的新算法

倩倩 ? 來源:互聯(lián)網分析沙龍 ? 2020-04-03 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,一組研究人員在KiloGram上發(fā)表了他們的論文,KiloGram是一種用于管理文件中的大型n-gram的新算法,可以改善機器學習對惡意軟件的檢測能力。新算法比以前的方法快60倍,并且可以處理n = 1024或更高的n-gram。n的大值具有可解釋的惡意軟件分析和簽名生成的其他應用程序。

在KDD 2019網絡安全學習和采礦研討會上發(fā)表的論文中,來自馬里蘭大學和網絡安全公司Endgame的研究人員描述了他們的算法,用于在大型文件數據集中查找最頻繁的n-gram。以前的方法在增加n的大小時會在內存和運行時中遇到“指數成本”,而在分析具有數十萬個文件的數據集時,它們的n值將小于8。相比之下,KiloGram算法能夠從數百萬個文件中的5TB數據中提取n-gram,而僅使用9GB的RAM,并且“運行時間不會隨n的增加而增加”。這允許算法為較大的n值提取n-gram,以測試這些n-gram是否為機器學習算法提供了更好的準確性。

一個n-gram是n個項的唯一序列,并且該思想被用于許多機器學習任務中,尤其是自然語言處理(NLP)。在檢測到惡意軟件的情況下,n-gram是來自文件的字節(jié)序列,該文件將被分類為惡意軟件或良性文件。惡意軟件檢測的早期工作表明,較大的n-gram(例如n = 15或20)對于訓練檢測系統(tǒng)是理想的,但是現(xiàn)代數據集的大小使得使用大于6的n值太昂貴。由于KiloGram算法可以處理那些較大的值,因此研究團隊能夠測試較大值更好的想法。

該團隊使用可執(zhí)行文件和Adobe PDF文檔的多個數據集,訓練了Elastic-Net正則化邏輯回歸分類器來檢測惡意軟件;為了進行回歸,輸入特征是使用KiloGram算法提取的n元語法。與文獻中的建議相反,研究人員發(fā)現(xiàn)“預測精度不會增加到n = 8以上”。較大的n-gram會產生精度降低的模型;但是,它們具有可解釋性的優(yōu)點。較小的n-gram產生“黑匣子”模型,而較大的n-gram特征集包含可能對分析人員有意義的字節(jié)序列。例如,它們可能代表代碼片段或文本字符串。

研究人員認為,較大的n-gram在回歸模型中使用時不那么精確,因為它們更特定于特定的惡意軟件攻擊。實際上,它們會導致過度擬合。但是,當在諸如Yara之類的簽名模型中使用時,它們的優(yōu)點是它們的假陽性率低。也就是說,盡管Yara模型可能會錯誤地將更多文件標記為良性文件,但如果它確實表明文件為惡意軟件,則很少有錯。這使得KiloGram算法可用于構建結合了機器學習模型和基于簽名的模型的分層系統(tǒng)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4786

    瀏覽量

    98258
  • 網絡安全
    +關注

    關注

    11

    文章

    3496

    瀏覽量

    63481
  • 機器學習
    +關注

    關注

    66

    文章

    8558

    瀏覽量

    137078
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一種基于低噪聲電源管理架構的射頻采樣系統(tǒng)設計方案

    本期為大家?guī)淼氖恰独走_應用射頻轉換器的無雜波電源(第 1 部分)》,介紹了一種基于低噪聲電源管理架構的射頻采樣系統(tǒng)設計方案,以解決相控陣雷達和 5G 通信應用因開關電源噪聲耦合導
    的頭像 發(fā)表于 03-25 08:10 ?439次閱讀
    <b class='flag-5'>一種</b>基于低噪聲電源<b class='flag-5'>管理</b>架構的射頻采樣系統(tǒng)設計方案

    大型機械學會“感知”高壓:一種近電預警的技術實踐

    損毀。如何讓這些龐大的機械具備“感知”高壓的能力,成為電力安全領域的項重要課題。本文將對一種專門用于高壓線下作業(yè)的預警技術——吊車高壓防觸碰預警器進行介紹。提示:
    的頭像 發(fā)表于 03-04 10:02 ?130次閱讀
    當<b class='flag-5'>大型</b>機械學會“感知”高壓:<b class='flag-5'>一種</b>近電預警的技術實踐

    技術資訊 I 文詳解 STEP 文件

    本文要點STEP文件一種廣泛使用的中性文件格式,用于交換3D計算機輔助設計(CAD)數據。STEP文件分為多種類型,適
    的頭像 發(fā)表于 02-06 16:08 ?915次閱讀
    技術資訊 I <b class='flag-5'>一</b>文詳解 STEP <b class='flag-5'>文件</b>

    一種無OS的MCU實用軟件框架

    介紹一種無OS的MCU實用軟件框架,包括任務輪詢管理,命令管理器、低功耗管理、環(huán)形緩沖區(qū)等實用模塊。系統(tǒng)中廣泛利用自定義段技術減少各個模塊間的耦合關系,大大提供程序的可維護性。 主要功
    發(fā)表于 01-08 06:58

    用于單片機幾種C語言算法

    算法的基本原理很簡單,就是連續(xù)取N次采樣值后進行算術平均。算法的程序代碼如下: 說明:算術平均濾波算法用于對具有隨機干擾的信號進行濾波
    發(fā)表于 11-27 06:00

    8常用的CRC算法分享

    CRC 計算單元可按所選擇的算法和參數配置來生成數據流的 CRC 碼。有些應用,可利用 CRC 技術來驗證數據的傳輸和存儲的完整性。 8 常用的 CRC 算法,包括: CRC16_
    發(fā)表于 11-13 07:25

    復雜的軟件算法硬件IP核的實現(xiàn)

    源代碼編譯為 HDL 的過程共分為兩步: (1)C to HASM (2)HASM to HDL 第步 C to HASM 是將 C 語言描述的算法編譯為一種中間的、與實際硬
    發(fā)表于 10-30 07:02

    國密系列算法簡介及SM4算法原理介紹

    使用了Feistel結構(分組密碼一種對稱結構),其中密鑰擴展部分也使用了Feistel結構,所以對數據和密鑰的處理流程極為相似。下面對SM4加密過程進行闡述: 對于密鑰擴展部分,采用固定參數FK
    發(fā)表于 10-24 08:25

    加密算法的應用

    加密算法和非對稱加密算法兩類。 對稱加密是一種加密方式,也稱為共享密鑰加密。加密和解密使用同個密鑰。這種加密算法的優(yōu)點是加密和解密速度快,
    發(fā)表于 10-24 08:03

    一種高效智能的光伏電站管理平臺

    體化(集成多種儲能管理功能等)。用戶根據自身場景和需求,選擇合適光伏電站管理平臺及功能應用配置,從而實現(xiàn)發(fā)電效率最大化、運維成本最小化及碳中和目標。 光伏電站管理平臺作為
    的頭像 發(fā)表于 07-18 09:20 ?1117次閱讀
    <b class='flag-5'>一種</b>高效智能的光伏電站<b class='flag-5'>管理</b>平臺

    100V15A點煙器N溝道MOS管HC070N10L

    N溝道MOS管(金屬-氧化物-半導體場效應晶體管)是一種電壓控制型器件,依靠N型半導體的電子導電。當柵極電壓超過閾值電壓時,源極與漏極之間形成導電溝道,實現(xiàn)電流導通,具有輸入阻抗高、
    發(fā)表于 06-27 17:35

    在 KiCad 添加個 AI 助手是一種什么體驗?

    一種什么體驗? 文章出處:【微信公眾號:KiCad】歡迎添加關注!文章轉載請注明出處。
    的頭像 發(fā)表于 05-15 14:28 ?1006次閱讀

    基于RK3576開發(fā)板的車輛檢測算法

    車輛檢測是一種基于深度學習的對人進行檢測定位的目標檢測,能廣泛的用于園區(qū)管理、交通分析等多種場景,是違停識別、堵車識別、車流統(tǒng)計等多種算法的基石算法
    的頭像 發(fā)表于 05-08 17:34 ?1547次閱讀
    基于RK3576開發(fā)板的車輛檢測<b class='flag-5'>算法</b>

    基于RV1126開發(fā)板的車輛檢測算法開發(fā)

    車輛檢測是一種基于深度學習的對人進行檢測定位的目標檢測,能廣泛的用于園區(qū)管理、交通分析等多種場景,是違停識別、堵車識別、車流統(tǒng)計等多種算法的基石算法
    的頭像 發(fā)表于 04-14 16:00 ?897次閱讀
    基于RV1126開發(fā)板的車輛檢測<b class='flag-5'>算法</b>開發(fā)

    AcrelCloud - 3200:大型商場預付費管理的革新利器

    、方案概述 在現(xiàn)代商業(yè)運營和物業(yè)管理大型商場、商業(yè)小區(qū)以及大集團和大物業(yè)面臨著復雜的費用收取和管理難題。安科瑞的 AcrelCloud
    的頭像 發(fā)表于 04-14 13:38 ?871次閱讀
    AcrelCloud - 3200:<b class='flag-5'>大型</b>商場預付費<b class='flag-5'>管理</b>的革新利器