久久久综合香蕉尹人综合网,韩国无码,一区二区黄色片

作者 / 產(chǎn)品副總裁、Android 開發(fā)者 Matthew McCullough

我們希望幫助您更快速、更輕松地構(gòu)建高質(zhì)量的 Android 應(yīng)用，而提升生產(chǎn)力的方式之一，就是讓 AI 觸手可及。我們知道您希望 AI 真正理解 Android 平臺的細微差異，因此我們一直在評估 LLM 在 Android 開發(fā)任務(wù)中的表現(xiàn)?，F(xiàn)在，我們發(fā)布了Android Bench的首個版本，這是 Google 官方專門針對 Android 開發(fā)打造的 LLM 排行榜。

我們的目標是為模型開發(fā)者提供一個基準，用于評估 LLM 在 Android 開發(fā)方面的能力。通過為高質(zhì)量的 Android 開發(fā)建立清晰、可靠的基準，我們致力于幫助模型開發(fā)者識別能力差距并加速改進。這將使開發(fā)者能夠更高效地工作，并在更多優(yōu)質(zhì)模型中選擇適合的 AI 輔助工具，最終推動 Android 生態(tài)系統(tǒng)的應(yīng)用質(zhì)量全面提升。

以現(xiàn)實世界的Android 開發(fā)任務(wù)為設(shè)計基礎(chǔ)

我們通過整理一系列涵蓋常見 Android 開發(fā)領(lǐng)域的任務(wù)來創(chuàng)建基準測試。該基準由不同難度的實際挑戰(zhàn)組成，任務(wù)來源于公開的 GitHub Android 庫。測試場景包括: 解決 Android 版本升級帶來的破壞性更改、處理可穿戴設(shè)備上的網(wǎng)絡(luò)連接等特定領(lǐng)域任務(wù)，以及遷移到最新版本的 Jetpack Compose 等。

在每次評估中，我們都會引導 LLM 嘗試修復任務(wù)中報告的問題，并通過單元測試或插樁測試進行驗證。這種與模型無關(guān)的方法，使我們能夠衡量模型在復雜代碼庫中導航、理解依賴關(guān)系，以及解決開發(fā)者日常遇到的各類實際問題的能力。

我們已與多家 LLM 研發(fā)廠商 (包括 JetBrains) 共同驗證了這一方法論。

JetBrains AI 集成負責人 Kirill Smelov：“衡量 AI 對 Android 的影響是一項巨大的挑戰(zhàn)，因此很高興看到這樣一個完善且實用的框架。雖然我們自身也在積極進行基準測試，但 Android Bench 這一獨特的且備受期待的補充方案確實很有意義。這種方法正是當前 Android 開發(fā)者所需要的嚴謹評估體系。”

首批 Android Bench 測試結(jié)果

在本次初始發(fā)布中，我們旨在純粹評估模型性能，并未側(cè)重智能體能力或工具的使用。結(jié)果顯示，各模型任務(wù)完成率在 16% 至 72% 之間。這一較大的差距表明，部分 LLM 已經(jīng)具備較強的 Android 開發(fā)基礎(chǔ)能力，而另一些模型仍有較大的提升空間。無論當前表現(xiàn)如何，我們都期待 LLM 開發(fā)者持續(xù)優(yōu)化其模型以更好地支持 Android 開發(fā)，并在此過程中不斷地提升性能。

在本次首發(fā)評測中，平均得分最高的 LLM 是 Gemini 3.1 Pro，緊隨其后的是 Claude Opus 4.6。您可以在最新穩(wěn)定版本的Android Studio中配置 API 密鑰，體驗我們評測的所有模型，為您的 Android 項目提供 AI 輔助支持。

為開發(fā)者與 LLM 研發(fā)廠商提供信息透明度

我們秉持開放與透明的原則，因此我們的評測方法、數(shù)據(jù)集以及自動化測試框架已經(jīng)在 GitHub 上公開。

任何公開基準都會面臨一個挑戰(zhàn)——數(shù)據(jù)污染的風險，即模型可能在訓練過程中已經(jīng)接觸過評測任務(wù)。為確保評測結(jié)果反映的是真實推理能力，而非記憶或猜測，我們采取了多項措施，包括對智能體軌跡進行嚴格的人工審查，以及引入 Canary 字符串以勸阻模型對測試數(shù)據(jù)的訓練學習。

展望未來，我們將持續(xù)優(yōu)化評測方法，以維護數(shù)據(jù)集的完整性，同時不斷改進基準的后續(xù)版本，例如增加任務(wù)數(shù)量和復雜度。

我們期待Android Bench在長遠角度提升 AI 輔助開發(fā)能力；我們的愿景是縮小創(chuàng)意與高質(zhì)量代碼之間的差距，為未來奠定基礎(chǔ)——助力您在 Android 上輕松構(gòu)建出您心中所想。也歡迎您關(guān)注 "谷歌開發(fā)者" 微信公眾號，及時了解更多開發(fā)技術(shù)和產(chǎn)品更新等資訊動態(tài)！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Android

Android

+關(guān)注

關(guān)注
12

文章
4030

瀏覽量
134101
Google

Google

+關(guān)注

關(guān)注
5

文章
1808

瀏覽量
60543
LLM

LLM

+關(guān)注

關(guān)注
1

文章
348

瀏覽量
1340

原文標題：Android Bench 正式發(fā)布 | 專為 Android 開發(fā)打造的 LLM 評測基準

文章出處：【微信號：Google_Developers，微信公眾號：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

Google正式發(fā)布LLM評測基準Android Bench

評論