91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GitHub上現(xiàn)在托管有超過(guò)300種編程語(yǔ)言

DPVg_AI_era ? 來(lái)源:lq ? 2019-07-07 07:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OctoLingua的目標(biāo)是提供一種服務(wù),支持從多個(gè)粒度級(jí)別(從文件級(jí)別或片段級(jí)別到潛在的行級(jí)語(yǔ)言檢測(cè)和分類)進(jìn)行強(qiáng)大可靠的語(yǔ)言檢測(cè)。最終,該服務(wù)可以支持代碼搜索和共享、語(yǔ)法高亮顯示和差異渲染等,旨在支持開(kāi)發(fā)人員進(jìn)行日常開(kāi)發(fā)工作,同時(shí)幫助編寫(xiě)高質(zhì)量的代碼。

GitHub上現(xiàn)在托管有超過(guò)300種編程語(yǔ)言。從最廣泛使用的語(yǔ)言比如Python,Java、Javascript等,到一些非常非常小眾的語(yǔ)言例如Befunge,應(yīng)有盡有。

但豐富的語(yǔ)種帶來(lái)的一個(gè)挑戰(zhàn)就是,如何即時(shí)鑒別它們?這影響到如何更好的搜索、發(fā)現(xiàn)其中的安全漏洞或者采取什么樣的語(yǔ)法高亮。

而且編程語(yǔ)言識(shí)別起來(lái),看似簡(jiǎn)單實(shí)則非常困難。文件擴(kuò)展名是一個(gè)非常重要的區(qū)分標(biāo)準(zhǔn),但很多時(shí)候非?;靵y。比如“.pl”, “.pm”, “.t”, “.pod”,都跟Perl有關(guān)系;而“.h”,C、C++、Objective-C也都有在用。

甚至還會(huì)出現(xiàn)沒(méi)有擴(kuò)展名的情況,例如一些可執(zhí)行腳本(curl,get,makefile等)。

Linguist已經(jīng)可以完成84%的語(yǔ)言檢測(cè)

那么GitHub是怎么解決上述問(wèn)題呢?GitHub高級(jí)數(shù)據(jù)科學(xué)家Kavita Ganesan首先介紹了目前GitHub官方使用的語(yǔ)言鑒別工具:Linguist。

Linguist是一個(gè)基于Ruby的應(yīng)用程序,它使用多種策略進(jìn)行語(yǔ)言檢測(cè)。比如利用命名約定和文件擴(kuò)展名,考慮Vim或Emacs模型,以及文件頂部的內(nèi)容(shebang)等。

Linguist通過(guò)啟發(fā)式方法,通過(guò)一個(gè)小樣本數(shù)據(jù)訓(xùn)練的樸素貝葉斯分類器來(lái)進(jìn)行語(yǔ)言消歧義。

雖然Linguist在文件級(jí)語(yǔ)言預(yù)測(cè)方面做得很好(準(zhǔn)確率為84%),但是當(dāng)文件使用非常特殊的命名約定時(shí),準(zhǔn)確率就大幅下降了。更重要的是,當(dāng)遇到?jīng)]有提供文件擴(kuò)展名的情況比如Gist、README文件、issue或者拉取請(qǐng)求中的代碼片段,Linguist就無(wú)能為力了。

人工智能幫助完成剩下的語(yǔ)言檢測(cè)工作

為了使語(yǔ)言檢測(cè)能夠更加健壯和可維護(hù),GitHub又開(kāi)發(fā)了一款名為OctoLingua的機(jī)器學(xué)習(xí)分類器,它基于人工神經(jīng)網(wǎng)絡(luò)(ANN)架構(gòu),可以處理棘手場(chǎng)景中的語(yǔ)言預(yù)測(cè)。

該模型的當(dāng)前版本能夠?qū)itHub托管的前50種語(yǔ)言進(jìn)行預(yù)測(cè),并在準(zhǔn)確性和性能方面超越Linguist。

OctoLingua從頭開(kāi)始使用Python + Keras,以及TensorFlow后端進(jìn)行構(gòu)建,非常準(zhǔn)確、健壯且易于維護(hù)。

數(shù)據(jù)源

OctoLingua的當(dāng)前版本使用了從Rosetta Code檢索的文件和內(nèi)部眾包的一組質(zhì)量庫(kù)的訓(xùn)練。語(yǔ)言集限制為GitHub上托管的Top 50。

Rosetta Code是一個(gè)出色的入門(mén)數(shù)據(jù)集,因?yàn)樗貌煌幊陶Z(yǔ)言表示的相同任務(wù)的源碼。例如,生成Fibonacci序列的任務(wù)可以用C、C ++、CoffeeScript、D、Java、Julia等表示。

但是,跨語(yǔ)言的覆蓋范圍并不統(tǒng)一,其中某些語(yǔ)言只有少量文件而某些文件的填充程度過(guò)于稀疏。因此,需要增加一些額外來(lái)源的訓(xùn)練集,以提高語(yǔ)言覆蓋率和性能。

目前添加新語(yǔ)言的流程現(xiàn)已完全自動(dòng)化,以編程方式從GitHub上的公共倉(cāng)庫(kù)收集源碼。選擇滿足最低資格標(biāo)準(zhǔn)的倉(cāng)庫(kù),例如具有最小數(shù)量的分支,以及涵蓋目標(biāo)語(yǔ)言和涵蓋特定文件擴(kuò)展名。

對(duì)于此階段的數(shù)據(jù)收集,使用Linguist的分類確定倉(cāng)庫(kù)的主要語(yǔ)言。

特點(diǎn):利用先驗(yàn)知識(shí)

傳統(tǒng)上,對(duì)于神經(jīng)網(wǎng)絡(luò)的文本分類問(wèn)題,通常采用基于存儲(chǔ)器的體系結(jié)構(gòu),例如遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。

但是,鑒于編程語(yǔ)言在詞匯、評(píng)論風(fēng)格、文件擴(kuò)展名、結(jié)構(gòu)、庫(kù)導(dǎo)入風(fēng)格和其他微小差異,GitHub選擇了一種更簡(jiǎn)單的方法:通過(guò)以表格形式提取某些相關(guān)功能來(lái)利用所有這些信息,并投喂給分類器。目前提取的功能如下:

每個(gè)文件的前五個(gè)特殊字符

每個(gè)文件前20個(gè)令牌

文件擴(kuò)展名

存在源碼文件中常用的某些特殊字符如冒號(hào)、花括號(hào)和分號(hào)

人工神經(jīng)網(wǎng)絡(luò)(ANN)模型

上述特征作為使用具有Tensorflow后端的Keras構(gòu)建的雙層人工神經(jīng)網(wǎng)絡(luò)的輸入。

下圖顯示特征提取步驟為分類器生成n維表格輸入。當(dāng)信息沿著網(wǎng)絡(luò)層移動(dòng)時(shí),它通過(guò)dropout正則化并最終產(chǎn)生51維輸出,該輸出表示給定代碼在前50種GitHub語(yǔ)言中每一種寫(xiě)入的預(yù)測(cè)概率加不寫(xiě)入的概率。

GitHub使用90%的數(shù)據(jù)集進(jìn)行大約8個(gè)epochs的訓(xùn)練。此外,在訓(xùn)練步驟中從訓(xùn)練數(shù)據(jù)中刪除了一定百分比的文件擴(kuò)展名,以鼓勵(lì)模型從文件的詞匯表中學(xué)習(xí),而不是過(guò)度填充文件擴(kuò)展功能。

基準(zhǔn)

下圖顯示了在同一測(cè)試集上計(jì)算的OctoLingua和Linguist的F1得分(精確度和召回之間的調(diào)和平均值)。

這里展示三個(gè)測(cè)試。第一個(gè)是測(cè)試集不受任何干預(yù);第二個(gè)測(cè)試使用同一組測(cè)試文件,刪除了文件擴(kuò)展名信息;第三個(gè)測(cè)試也使用相同的文件集,但這次文件擴(kuò)展名被加擾,以便混淆分類器(例如,Java文件可能有“.txt”擴(kuò)展名、Python文件可能具有“.java”)擴(kuò)展名。

在測(cè)試集中加擾或刪除文件擴(kuò)展名的目的是評(píng)估OctoLingua在刪除關(guān)鍵功能或誤導(dǎo)時(shí)對(duì)文件進(jìn)行分類的穩(wěn)健性。不嚴(yán)重依賴擴(kuò)展的分類器對(duì)要點(diǎn)和片段進(jìn)行分類非常有用,因?yàn)樵谶@些情況下,人們通常不提供準(zhǔn)確的擴(kuò)展信息(例如,許多與代碼相關(guān)的文件具有.txt擴(kuò)展名)。

下表顯示了OctoLingua如何在各種條件下保持良好的性能,表明該模型主要從代碼的詞匯表中學(xué)習(xí),而不是從元信息(即文件擴(kuò)展名)中學(xué)習(xí)。但是沒(méi)有擴(kuò)展名的話Linguist完全無(wú)法鑒別。

上圖是OctoLingua與Linguist在同一測(cè)試集上的表現(xiàn)。

在訓(xùn)練期間刪除文件擴(kuò)展名的效果

如前所述,在訓(xùn)練期間,從訓(xùn)練數(shù)據(jù)中刪除了一定百分比的文件擴(kuò)展名,以鼓勵(lì)模型從文件的詞匯表中學(xué)習(xí)。下表顯示了模型在訓(xùn)練期間刪除了不同分?jǐn)?shù)的文件擴(kuò)展名的性能。

上圖在三個(gè)測(cè)試變體中刪除了不同百分比的文件擴(kuò)展名后,OctoLingua的表現(xiàn)

請(qǐng)注意,在訓(xùn)練期間沒(méi)有刪除文件擴(kuò)展名的情況下,OctoLingua對(duì)沒(méi)有擴(kuò)展名和隨機(jī)擴(kuò)展名的測(cè)試文件的性能與常規(guī)測(cè)試數(shù)據(jù)相比差距很大。而一旦在刪除某些文件擴(kuò)展名的數(shù)據(jù)集上訓(xùn)練模型時(shí),模型性能在修改的測(cè)試集上的差距就沒(méi)有那么大。

這證實(shí)了在訓(xùn)練時(shí)從一小部分文件中刪除文件擴(kuò)展名,會(huì)使分類器從詞匯表中學(xué)到更多。它還表明,文件擴(kuò)展功能雖然具有高度預(yù)測(cè)性,但卻傾向于支配并阻止將更多權(quán)重分配給內(nèi)容。

添加新語(yǔ)言支持

在OctoLingua中添加新語(yǔ)言非常簡(jiǎn)單。它首先獲取新語(yǔ)言的大量文件,這些文件分為訓(xùn)練和測(cè)試集,然后通過(guò)預(yù)處理器和特征提取器運(yùn)行。這個(gè)新的訓(xùn)練和測(cè)試裝置被添加到現(xiàn)有的訓(xùn)練和測(cè)試數(shù)據(jù)庫(kù)中。新的測(cè)試裝置允許驗(yàn)證模型的準(zhǔn)確性是否仍然可以接受。

上圖使用OctoLingua添加新語(yǔ)言、

未來(lái)計(jì)劃

截至目前,OctoLingua正處于“先進(jìn)的原型設(shè)計(jì)階段”。我們的語(yǔ)言分類引擎已經(jīng)強(qiáng)大且可靠,但還不支持我們平臺(tái)上的所有編碼語(yǔ)言。除了擴(kuò)大語(yǔ)言支持 - 這將是相當(dāng)簡(jiǎn)單的 - 我們的目標(biāo)是在各種粒度級(jí)別啟用語(yǔ)言檢測(cè)。我們當(dāng)前的實(shí)現(xiàn)已經(jīng)允許我們通過(guò)對(duì)機(jī)器學(xué)習(xí)引擎的一些小修改來(lái)對(duì)代碼片段進(jìn)行分類。將模型帶到可以可靠地檢測(cè)和分類嵌入式語(yǔ)言的階段并不是太遙遠(yuǎn)。

我們也在考慮開(kāi)源我們模型的可能性,如果您有興趣,我們很樂(lè)意聽(tīng)取社區(qū)的意見(jiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編程語(yǔ)言
    +關(guān)注

    關(guān)注

    10

    文章

    1965

    瀏覽量

    39629
  • 人工智能
    +關(guān)注

    關(guān)注

    1818

    文章

    50134

    瀏覽量

    265746
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    488

    瀏覽量

    18705

原文標(biāo)題:GitHub機(jī)器學(xué)習(xí)代碼分類器:僅憑代碼輕松鑒別300種編程語(yǔ)言

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GitHub王炸:AI編程進(jìn)入"多智能體時(shí)代",1.8億人徹夜未眠

    微軟旗下代碼托管平臺(tái)GitHub正式集成Claude與Codex,開(kāi)發(fā)者可在統(tǒng)一工作流中自由切換頂級(jí)AI助手 2026年2月5日,微軟旗下GitHub宣布重大戰(zhàn)略升級(jí):正式將Anthropic
    的頭像 發(fā)表于 02-06 15:06 ?187次閱讀
    <b class='flag-5'>GitHub</b>王炸:AI<b class='flag-5'>編程</b>進(jìn)入&quot;多智能體時(shí)代&quot;,1.8億人徹夜未眠

    如何調(diào)試和編程CW32F030C8T7?支持哪些調(diào)試工具和編程語(yǔ)言?

    了解如何調(diào)試和編程CW32F030C8T7是開(kāi)發(fā)過(guò)程中的重要環(huán)節(jié)。它支持哪些調(diào)試工具(如JTAG、串口調(diào)試等)和編程語(yǔ)言(如C、C++等)?如何設(shè)置和使用這些工具來(lái)加速開(kāi)發(fā)過(guò)程?
    發(fā)表于 12-05 06:48

    為什么單片機(jī)還在用C語(yǔ)言編程?

    說(shuō)起單片機(jī)我們就會(huì)想到C語(yǔ)言,單片機(jī)為什么還在用C語(yǔ)言編程?現(xiàn)在有很多很好用的高級(jí)語(yǔ)言,如VC、PYTHON、PHP等等,為什么這些
    發(fā)表于 11-28 07:37

    C語(yǔ)言編程技巧

    設(shè)計(jì),分層開(kāi)發(fā)代碼,便于理解和維護(hù)。 ?8、避免使用GOTO語(yǔ)句?:盡管GOTO語(yǔ)句在某些情況下仍然有用,但現(xiàn)代編程更傾向于使用函數(shù)和循環(huán)控制結(jié)構(gòu),以提高代碼的可讀性和維護(hù)性。 ?9、利用C語(yǔ)言的靈活性
    發(fā)表于 11-27 06:46

    C語(yǔ)言和單片機(jī)C語(yǔ)言有什么差異

    單片機(jī)c語(yǔ)言相對(duì)于普通C語(yǔ)言增加了一些基本的指令,還有變量的賦值是16進(jìn)制,當(dāng)然單片機(jī)c語(yǔ)言只牽涉到普通c語(yǔ)言非常基礎(chǔ)部分。 主要的差異具體體現(xiàn)在
    發(fā)表于 11-14 07:55

    一文了解Mojo編程語(yǔ)言

    Mojo 是一由 Modular AI 公司開(kāi)發(fā)的編程語(yǔ)言,旨在將 Python 的易用性與 C 語(yǔ)言的高性能相結(jié)合,特別適合人工智能(AI)、高性能計(jì)算(HPC)和系統(tǒng)級(jí)
    發(fā)表于 11-07 05:59

    Linux 編程語(yǔ)言盤(pán)點(diǎn):從內(nèi)核到AI的全棧選擇

    在工控圈和嵌入式圈里,有一個(gè)常年被討論的問(wèn)題: ?“在 Linux ,到底該用什么語(yǔ)言編程?” 有人堅(jiān)信:C 才是真正的工業(yè)語(yǔ)言。有人反駁:Python 才是效率王者。還有人推崇 G
    的頭像 發(fā)表于 11-06 17:05 ?641次閱讀

    github 的 nano版本已經(jīng)更新到了4.1.1,是否能提供4.1.1版本的mdk pack包?

    github 的 nano版本已經(jīng)更新到了4.1.1,是否能提供4.1.1版本的mdk pack包, 會(huì)方便很多
    發(fā)表于 09-17 06:36

    梯形圖語(yǔ)言補(bǔ)充編程說(shuō)明書(shū)

    電子發(fā)燒友網(wǎng)站提供《梯形圖語(yǔ)言補(bǔ)充編程說(shuō)明書(shū).pdf》資料免費(fèi)下載
    發(fā)表于 07-09 14:14 ?3次下載

    微軟開(kāi)源GitHub Copilot Chat,AI編程迎來(lái)新突破

    GitHub Copilot + vscode的組合我已經(jīng)用了很久,我的代碼開(kāi)發(fā)效率完全提升了一個(gè)level。幫我代碼提示,代碼不全,注釋理解生成代碼等等,這些我是我經(jīng)常用到的功能。 在今天凌晨4點(diǎn)
    的頭像 發(fā)表于 07-02 09:34 ?1227次閱讀
    微軟開(kāi)源<b class='flag-5'>GitHub</b> Copilot Chat,AI<b class='flag-5'>編程</b>迎來(lái)新突破

    單片機(jī)c語(yǔ)言編程實(shí)例大全

    單片機(jī)c語(yǔ)言編程實(shí)例大全_18
    發(fā)表于 04-30 16:11 ?7次下載

    深入理解C語(yǔ)言:C語(yǔ)言循環(huán)控制

    在C語(yǔ)言編程中,循環(huán)結(jié)構(gòu)是至關(guān)重要的,它可以讓程序重復(fù)執(zhí)行特定的代碼塊,從而提高編程效率。然而,為了避免程序進(jìn)入無(wú)限循環(huán),C語(yǔ)言提供了多種循環(huán)控制語(yǔ)句,如break、continue和
    的頭像 發(fā)表于 04-29 18:49 ?2082次閱讀
    深入理解C<b class='flag-5'>語(yǔ)言</b>:C<b class='flag-5'>語(yǔ)言</b>循環(huán)控制

    Windows Arm64托管運(yùn)行器正式支持GitHub Actions

    過(guò)去一年,Arm 與 GitHub 持續(xù)緊密合作,致力于為基于 Arm 平臺(tái)的開(kāi)發(fā)者打造更便捷、更高效的開(kāi)發(fā)體驗(yàn)。GitHub 推出的 Arm 托管運(yùn)行器正在革新應(yīng)用程序的開(kāi)發(fā)與部署流程,而近期推出
    的頭像 發(fā)表于 04-28 14:23 ?1178次閱讀

    Gitee倉(cāng)庫(kù)鏡像管理功能介紹

    現(xiàn)在很多開(kāi)發(fā)者都不滿足于只在一個(gè)代碼托管平臺(tái)活躍,將項(xiàng)目同時(shí)托管于 Gitee 和 GitHub 是目前國(guó)內(nèi)很多開(kāi)發(fā)者的選擇,既擁有更快的訪問(wèn)和代碼推拉速度,也可以和更多國(guó)際
    的頭像 發(fā)表于 04-16 12:44 ?977次閱讀
    Gitee倉(cāng)庫(kù)鏡像管理功能介紹

    如何在 樹(shù)莓派 編寫(xiě)和運(yùn)行 C 語(yǔ)言程序?

    在本教程中,我將討論C編程語(yǔ)言是什么,C編程的用途,以及如何在RaspberryPi編寫(xiě)和運(yùn)行C程序。本文的目的是為您介紹在RaspberryPi上進(jìn)行C
    的頭像 發(fā)表于 03-25 09:28 ?1184次閱讀
    如何在 樹(shù)莓派 <b class='flag-5'>上</b>編寫(xiě)和運(yùn)行 C <b class='flag-5'>語(yǔ)言</b>程序?