91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索ARM CPU架構的美妙以及C語言編譯器的奧秘

strongerHuang ? 來源:Mculover666 ? 作者:Mculover666 ? 2021-06-06 18:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

筆者接觸嵌入式領域軟件開發(fā)以來,幾乎用的都是 ARM Cortex M 內核系列的微控制器。感謝C語言編譯器的存在,讓我不用接觸匯編即可進行開發(fā),但是彷佛也錯過了一些風景,沒有領域到編譯器之美和CPU之美,所以決定周末無聊的休息時間通過尋找資料、動手實驗、得出結論的方法來探索 ARM CPU 架構的美妙,以及C語言編譯器的奧秘。(因為我個人實在是不贊同學校中微機原理類課程的教學方法)。

ARM探索之旅 01 | 帶你認識ARM Cortex-M陣營

ARM探索之旅 02 | ARM Cortex-M 用什么指令集?

一、浮點數(shù)的存儲

浮點數(shù)按照 IEEE 754 標準存儲在計算機中,ARM浮點環(huán)境是遵循「IEEE 754-1985」標準實現(xiàn)的。

IEEE 754 標準規(guī)定浮點數(shù)的存儲格式有三個域

sign:符號位,0表示正數(shù)、1表示負數(shù);

exponent:二進制小數(shù)的指數(shù)值編碼;

fraction:二進制小數(shù)的有效值編碼;

具體的編碼規(guī)則過多,本文重點不在此,不再展開,感興趣可以閱讀我之前的文章:浮點數(shù)在計算機中的存儲 —— IEEE 754標準[1](可點擊閱讀原文查看)。

二、浮點支持軟件庫fplib

1. fplib介紹

ARM Cortex-M處理器中計算浮點數(shù)的方式有軟件和硬件兩種。

對于不帶 FPU 的處理器,ARM提供了一個「浮點支持軟件庫」用于計算浮點數(shù):fplib。

fplib提供的 API 以__aeabi開頭,比如:

__aeabi_fadd:計算兩個float型浮點數(shù)(float占4個字節(jié),32位)

__aeabi_dadd:計算兩個double型浮點數(shù)(double占8個字節(jié),64位)

__aeabi_f2d:float型轉為double型

__aeabi_d2f:double型轉為float型

除此之外,fplib庫還提供取余、開方等非常多的浮點數(shù)操作函數(shù),如有興趣可以查閱文末我列出的參考文檔[2]。

2. 測試代碼與優(yōu)化等級

編寫如下測試代碼:

float a = 5.625; float b = 5.625; float res_add, res_sub, res_mul, res_div; res_add = a + b; res_sub = a - b; res_mul = a * b; res_div = a / b; printf(“res_add = %f ”, res_add); printf(“res_sub = %f ”, res_sub); printf(“res_mul = %f ”, res_mul); printf(“res_div = %f ”, res_div);

?

使用這段測試代碼,「編譯器優(yōu)化等級推薦設置為-O0」,否則聰明的編譯器會直接將結果計算出來編譯到程序中,我們就沒法研究了。

?

3. armcc測試結果

這節(jié)我們驗證是否ARM使用 fplib 庫來計算浮點數(shù),在設置中關閉FPU:

使用MDK編譯之后,進入調試模式查看反匯編結果。

在反匯編中可以看到,變量a是float類型,所以編譯器分配了一個寄存器用于存儲值:

查看0x080031C4處的值,小端存儲模式下(低位在低地址),變量a的值是0x40B40000,存儲方式符合IEEE 754標準。

再來看看浮點數(shù)運算操作的反匯編結果,果然調用fplib庫提供的函數(shù)完成浮點數(shù)的操作:這里還有一個有趣的小細節(jié),在反匯編中可以看到「使用 %f 占位符打印浮點數(shù)時,printf是按照double型傳參的」:

4. arm-none-eabi-gcc測試結果

使用STM32CubeMX生成makeifle工程,修改makeifle中的等級為-O0,設置為軟件浮點計算:另外還需要注意,默認gcc編譯時不支持printf打印浮點數(shù),需要在 makefile 中手動加入以下鏈接選項:

LDFLAGS += -u _printf_float

編譯完成之后進行反匯編(注意文件名):

arm-none-eabi-objdump -s -d build/usart1-fpu-test.elf 》 build/usart1-fpu-test.dis

同樣,在反匯編文件中即可找到浮點計算代碼:

三、使用 ARM FPU 加速浮點計算

1. ARM FPU的魅力

FPU(Floating Point Unit,浮點單元)是ARM內核中的硬件外設,用于硬件計算浮點數(shù),要想使用FPU計算浮點數(shù),需要程序和編譯器配合。

在程序中使能/開啟FPU硬件外設,「使 FPU 硬件可以正常工作」;

在編譯器中設置使用FPU,編譯器會將所有浮點計算的代碼都編譯為「使用FPU操作指令完成」。

目前Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55處理器中都具備FPU硬件。

在上一節(jié)中我們使用fplib軟件庫來計算浮點數(shù),但是fplib終歸還是軟件方式,每個計算函數(shù)的實現(xiàn)都是通過很多的指令去完成計算,并且最終的程序中還會把函數(shù)鏈接進可執(zhí)行程序,導致程序體積變大。

「ARM FPU的魅力在于,浮點計算可以通過簡單的FPU操作指令去完成,相比之下,不僅計算快,也不會增大程序體積?!?/p>

2. 如何使能FPU硬件

ARM Cortex - M4內核中將 FPU 作為協(xié)處理器設計的,所以通過設置協(xié)處理器訪問控制(CPACR,Co-processor access control register)來控制是否使能FPU。

復位之后CP11=0、CP10=0,默認禁止訪問FPU,因為這是Cortex-M內核的外設,寄存器定義CMSIS-Core中,所以可以直接通過下面這行代碼設置CP11=1、CP10=1來允許訪問FPU:

SCB-》CPACR = 0x00F00000; // Enable the floating point unit for full access

無論是STM32 HAL庫還是標準庫,在SystemInit()函數(shù)中已經(jīng)存在使能代碼,通過__FPU_PRESENT和__FPU_USED來控制:

/* FPU settings ------------------------------------------------------------*/ #if (__FPU_PRESENT == 1) && (__FPU_USED == 1) SCB-》CPACR |= ((3UL 《《 10*2)|(3UL 《《 11*2)); /* set CP10 and CP11 Full Access */ #endif

并且,在頭文件 stm32l431xx.h 中已經(jīng)使能__FPU_PRESENT宏定義:__FPU_PRESENT宏定義是一直使能的,那么如何來控制FPU的使能呢?

別忘了還有一個宏定義__FPU_USED,這是留給編譯器來控制的!

3. ARMCC編譯器如何開啟FPU

MDK編譯器開啟FPU的方法非常簡單,如圖:在MDK中使能FPU,一方面編譯器會設置宏定義__FPU_USED == 1,不放心的話可以在任意位置添加下面的預處理代碼,分別在使用/不使用的情況編譯一下,查看編譯器輸出結果:

#if __FPU_USED == 1 #error “ok!” #endif

另一方面,編譯器在編譯的時候,會將所有的浮點運算都編譯為使用FPU操作指令去完成

4. gcc編譯器如何開啟FPU

在Makefile中加入以下gcc編譯設置項:

# fpu FPU = -mfpu=fpv4-sp-d16 # float-abi FLOAT-ABI = -mfloat-abi=hard

ABI是應用程序二進制接口(Application Binary Interface),-mfloat-abi用來指定使用哪種方式:

soft:使用CPU寄存器組+軟件庫(fplib)完成浮點操作;

softfp:使用CPU寄存組+FPU硬件+軟件庫完成浮點操作;

hard:使用FPU寄存器組+FPU硬件+軟件庫完成浮點操作;

mfpu選項用來指定FPU架構,具體值可以閱讀我在文末給出的參考文檔,本文所使用的值fpv4-sp-d16,意味著僅僅使能Armv7 FPv4-SP-D16 單精度浮點單元擴展。

同樣,對之前的測試代碼編譯,查看反匯編結果,可以看到使用了浮點操作全部使用了FPU相關指令。

四、使用Julia測試FPU加速性能

1. 測試準備

需要準備一份裸機工程,具有屏幕打點顯示功能和串口打印功能。

參考:STM32CubeMX_17 | 使用硬件SPI驅動TFT-LCD(ST7789)。

2. 移植Julia分形測試代碼

Julia測試是通過計算幾幀Julia分形的數(shù)據(jù)來測試單精度浮點運算的性能,測試代碼參考正點原子,如下:

/* Private user code ---------------------------------------------------------*/ /* USER CODE BEGIN 0 */ #define ITERATION 128 //迭代次數(shù) #define REAL_CONSTANT 0.285f //實部常量 #define IMG_CONSTANT 0.01f //虛部常量 //顏色表 uint16_t color_map[ITERATION]; //縮放因子列表 const uint16_t zoom_ratio[] = { 120, 110, 100, 150, 200, 275, 350, 450, 600, 800, 1000, 1200, 1500, 2000, 1500, 1200, 1000, 800, 600, 450, 350, 275, 200, 150, 100, 110, }; //初始化顏色表 //clut:顏色表指針 void InitCLUT(uint16_t * clut) { uint32_t i = 0x00; uint16_t red = 0, green = 0, blue = 0; for (i = 0;i 《 ITERATION; i++) { //產生 RGB 顏色值 red = (i*8*256/ITERATION) % 256;

green = (i*6*256/ITERATION) % 256; blue = (i*4*256 /ITERATION) % 256;

//將 RGB888,轉換為 RGB565 red = red 》》 3; red = red 《《 11; green = green 》》 2; green = green 《《 5; blue = blue 》》 3; clut[i] = red + green + blue; } } //產生 Julia 分形圖形 //size_x,size_y:屏幕 x,y 方向的尺寸 //offset_x,offset_y:屏幕 x,y 方向的偏移 //zoom:縮放因子 void GenerateJulia_fpu(uint16_t size_x,uint16_t size_y,uint16_t offset_x,uint16_t offset_y,uint16_t zoom) { uint8_t i; uint16_t x,y; float tmp1,tmp2; float num_real,num_img; float radius; for (y = 0; y 《 size_y; y++) { for (x = 0; x 《 size_x; x++) { num_real = y - offset_y; num_real = num_real / zoom; num_img = x-offset_x;

num_img = num_img / zoom; i = 0; radius = 0; while ((i 《 ITERATION-1) && (radius 《 4)) { tmp1 = num_real * num_real;

tmp2 = num_img * num_img; num_img = 2*num_real*num_img + IMG_CONSTANT; num_real = tmp1 - tmp2 + REAL_CONSTANT;

radius = tmp1 + tmp2; i++; } //繪制到屏幕 lcd_draw_color_point(x, y, color_map[i]); } } } /* USER CODE END 0 */

在main函數(shù)中創(chuàng)建一些需要的變量:

/* USER CODE BEGIN 1 */ uint8_t zoom_index = 0; uint32_t start_time = 0, end_time = 0; /* USER CODE END 1 */

調用初始化函數(shù):

/* USER CODE BEGIN 2 */ printf(“Julia test by Mculover666 ”); lcd_init(); //初始化顏色表 InitCLUT(color_map); /* USER CODE END 2 */

調用測試函數(shù):

/* Infinite loop */ /* USER CODE BEGIN WHILE */ while (1) { /* USER CODE END WHILE */ /* USER CODE BEGIN 3 */ start_time = HAL_GetTick(); GenerateJulia_fpu(240, 240, 120, 120, zoom_ratio[zoom_index]); end_time = HAL_GetTick(); printf(“diff time is %d ms ”, end_time - start_time); zoom_index++; if (zoom_index 》 sizeof(zoom_ratio)) { zoom_index = 0; } } /* USER CODE END 3 */

3. 測試結果

使用-O2優(yōu)化等級,在不開 FPU 的情況下,「顯示一幀平均需要11s左右」:程序大小情況:

d4847f56-c55a-11eb-9e57-12bb97331649.png

使用-O2優(yōu)化等級,在開啟 FPU 的情況下,「顯示一幀平均需要4s左右」:程序大小情況:

d4ebf7da-c55a-11eb-9e57-12bb97331649.png

最后放上好看的Julia分形圖:

原文標題:揭秘ARM FPU 加速浮點計算

文章出處:【微信公眾號:strongerHuang】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9552

    瀏覽量

    391838
  • 嵌入式
    +關注

    關注

    5198

    文章

    20442

    瀏覽量

    333977
  • C語言
    +關注

    關注

    183

    文章

    7644

    瀏覽量

    145569

原文標題:揭秘ARM FPU 加速浮點計算

文章出處:【微信號:strongerHuang,微信公眾號:strongerHuang】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    C編譯器錯誤與解決方法

    C語言keil編譯器提示錯誤的解決方法,可以幫你解決程序編譯中的煩惱!! C編譯器錯誤與解決方
    發(fā)表于 01-22 08:03

    C語言C++之間的區(qū)別是什么

    C++的標準庫那樣集成度高和功能齊全。 6、編譯器語言特性: C++編譯器通常比C
    發(fā)表于 12-11 06:23

    開源鴻蒙技術大會2025丨編譯器與編程語言分論壇:語言驅動系統(tǒng)創(chuàng)新,編譯賦能生態(tài)繁榮

    在萬物智聯(lián)的時代背景下,操作系統(tǒng)底層能力的構建離不開編程語言編譯器的關鍵支撐。作為開源鴻蒙生態(tài)的核心技術,語言設計與編譯器、虛擬機實現(xiàn)的進步直接關系到開發(fā)效率、運行性能與系統(tǒng)安全。本
    的頭像 發(fā)表于 11-20 17:24 ?917次閱讀
    開源鴻蒙技術大會2025丨<b class='flag-5'>編譯器</b>與編程<b class='flag-5'>語言</b>分論壇:<b class='flag-5'>語言</b>驅動系統(tǒng)創(chuàng)新,<b class='flag-5'>編譯</b>賦能生態(tài)繁榮

    C語言和單片機C語言有什么差異

    成匯編語言機器才能讀懂,所以每個平臺的編譯器編譯成對應平臺匯編的程序,每個平臺的匯編不一樣,當然編譯器也不一樣。 DOS上的TC2 TC3 WINDOWS上的VC 8051的
    發(fā)表于 11-14 07:55

    Arm Neoverse CPU上大代碼量Java應用的性能測試

    Java 是互聯(lián)網(wǎng)領域廣泛使用的編程語言。Java 應用的一些特性使其性能表現(xiàn)與提前編譯的原生應用(例如 C 程序)大相徑庭。由于 Java 字節(jié)碼無法直接在 CPU 上執(zhí)行,因此通常
    的頭像 發(fā)表于 11-05 11:25 ?752次閱讀
    <b class='flag-5'>Arm</b> Neoverse <b class='flag-5'>CPU</b>上大代碼量Java應用的性能測試

    GCC編譯器,怎么才能實現(xiàn)c文件中未被調用的函數(shù),不會被編譯呢?

    GCC編譯器,怎么才能實現(xiàn)c文件中未被調用的函數(shù),不會被編譯?有什么編譯選項可以設置嗎? 移植代碼,有些函數(shù)沒被調用的函數(shù)想留在代碼里,但不想被編譯
    發(fā)表于 09-28 12:25

    請問如何在keil μVision 5上進行ARM編譯器的代碼優(yōu)化?

    如何在keil μVision 5上進行ARM編譯器的代碼優(yōu)化?
    發(fā)表于 08-20 07:37

    如何在Keil中將NuMicro BSP從Arm編譯器5遷移到編譯器6?

    在Keil中將NuMicro BSP從Arm編譯器5遷移到編譯器6!
    發(fā)表于 08-20 06:29

    探索CPU架構奧秘,揭秘高性能計算的隱形引擎

    本文轉自:綠算技術CPU的內部工作原理:指令周期的精密舞蹈CPU,這顆無形的“心臟”,默默地驅動著每一臺智能設備的脈動。它不僅是數(shù)據(jù)的處理中心,更是智慧與效率的源泉。今天與大家一同潛入CPU
    的頭像 發(fā)表于 08-13 11:58 ?789次閱讀
    <b class='flag-5'>探索</b><b class='flag-5'>CPU</b><b class='flag-5'>架構</b>的<b class='flag-5'>奧秘</b>,揭秘高性能計算的隱形引擎

    進迭時空同構融合RISC-V AI CPU的Triton算子編譯器實踐

    Triton是由OpenAI開發(fā)的一個開源編程語言編譯器,旨在簡化高性能GPU內核的編寫。它提供了類似Python的語法,并通過高級抽象降低了GPU編程的復雜性,同時保持了高性能。目前
    的頭像 發(fā)表于 07-15 09:04 ?1840次閱讀
    進迭時空同構融合RISC-V AI <b class='flag-5'>CPU</b>的Triton算子<b class='flag-5'>編譯器</b>實踐

    邊緣設備AI部署:編譯器如何實現(xiàn)輕量化與高性能?

    電子發(fā)燒友網(wǎng)綜合報道 AI編譯器是專門為人工智能(AI)和機器學習(ML)模型設計的編譯器,其核心目標是將高級的AI模型描述(如計算圖、神經(jīng)網(wǎng)絡結構)轉換為特定硬件平臺(如CPU、GPU、FPGA
    的頭像 發(fā)表于 07-06 05:49 ?6633次閱讀

    兆松科技ZCC編譯器全面支持芯來科技NA系列處理

    近日,兆松科技(武漢)有限公司(以下簡稱“兆松科技”)宣布正式發(fā)布高性能RISC-V編譯器ZCC 4.0.0版本。
    的頭像 發(fā)表于 06-11 09:56 ?1704次閱讀

    RISC-V架構下的編譯器自動向量化

    進迭時空專注于研發(fā)基于RISC-V的高性能新AICPU,對于充分發(fā)揮CPU核的性能而言,編譯器是不可或缺的一環(huán),而在AI時代,毫無疑問向量算力將發(fā)揮越來越重要的作用。進迭時空非常重視RISC-V
    的頭像 發(fā)表于 06-06 16:59 ?1229次閱讀
    RISC-V<b class='flag-5'>架構</b>下的<b class='flag-5'>編譯器</b>自動向量化

    TASKING編譯器全面支持紫光同芯THA6 Gen2系列產品

    近日,TASKING 針對Arm架構編譯器平臺VX-toolset for Arm迎來了全新升級,最新版本VX-toolset for Arm
    的頭像 發(fā)表于 04-03 17:12 ?1323次閱讀

    HighTec編譯器全面適配紫光同芯THA6 Gen2系列產品

    近日,紫光同芯與全球領先的汽車級C/C++編譯器供應商HighTec共同宣布,HighTec編譯器完成對紫光同芯THA6 Gen2系列產品的全面適配。此次合作實現(xiàn)了從指令集優(yōu)化到功能安
    的頭像 發(fā)表于 04-02 09:42 ?1180次閱讀