一、gcc 內(nèi)聯(lián)匯編
內(nèi)聯(lián)匯編即在 C 中直接使用匯編語(yǔ)句進(jìn)行編程,使程序可以在 C 程序中實(shí)現(xiàn) C 語(yǔ)言不能完成的一些工作,例如,在下面幾種情況中必須使用內(nèi)聯(lián)匯編或嵌入型匯編。
- 程序中使用飽和算術(shù)運(yùn)算(Saturating Arithmetic)程序需要對(duì)協(xié)處理器進(jìn)行操作在 C 程序中完成對(duì)程序狀態(tài)寄存器的操作
格式:
__asm__?__volatile__("asm?code"
?:output
?:input
?:changed?registers);?
asm 或 __asm__ 開頭,小括號(hào)+分號(hào),括號(hào)內(nèi)容寫匯編指令。指令+nt 用雙引號(hào)引上。
參數(shù)
「asm code」主要填寫匯編代碼:
"mov?r0,?r0nt"?
"mov?r1,r1nt"?
"mov?r2,r2"
「output(asm->C)」用于定義輸出的參數(shù),通常只能是變量:
:"constraint"?(variable)
"constraint"用于定義 variable 的存放位置:
?r?表示使用任何可用的寄存器
?m?表示使用變量的內(nèi)存地址
?+?可讀可寫
?=?只寫
?&?表示該輸出操作數(shù)不能使用輸入部分使用過的寄存器,只能用"+&"或"=&"的方式使用
「input(C->asm)」用于定義輸入的參數(shù),可以是變量也可以是立即數(shù):
:"constraint"?(variable/immediate)
"constraint"用于定義 variable 的存放位置:
?r?表示使用任何可用的寄存器(立即數(shù)和變量都可以)
?m?表示使用變量的內(nèi)存地址
?i?表示使用立即數(shù)
Note:
- 使用 __asm__ 和 __volatile__ 表示編譯器將不檢查后面的內(nèi)容,而是直接交給匯編器。如果希望編譯器為你優(yōu)化,__volatile__ 可以不加沒有 asm code 也不能省略""沒有前面的和中間的部分,不可以相應(yīng)的省略:沒有 changed 部分,必須相應(yīng)的省略:最后的;不能省略,對(duì)于 C 語(yǔ)言來(lái)說(shuō)這是一條語(yǔ)句匯編代碼必須放在一個(gè)字符串內(nèi),且字符串中間不能直接按回車換行,可以寫成多個(gè)字符串,注意中間不能有任何符號(hào),這樣就會(huì)將兩個(gè)字符串合并為一個(gè)指令之間必須要換行,還可以使用 t 使指令在匯編中保持整齊
舉例
例 1:無(wú)參數(shù),無(wú)返回值 這種情況,output 和 input 可以省略:
?asm
?(?// 匯編指令
??"mrs?r0,cpsr?????nt"
??"bic?r0,r0,#0x80?nt"
??"msr?cpsr,r0?????nt"
?);
例 2:有參數(shù) ,有返回值 讓內(nèi)聯(lián)匯編做加法運(yùn)算,求 a+b,結(jié)果存在 c 中
?int?a?=100,?b?=200,?c?=0;
?asm
?(
??"add?%0,%1,%2nt"
??:?"=r"(c)
??:?"r"(a),"r"(b)
??:?"memory"
?);
%0 對(duì)應(yīng)變量 c %1 對(duì)應(yīng)變量 a %2 對(duì)應(yīng)變量 b
例 3:有參數(shù) 2 ,有返回值
讓內(nèi)聯(lián)匯編做加法運(yùn)算,求 a+b,結(jié)果存在 sum 中,把 a-b 的存在 d 中
?asm?volatile
?(
??"add?%[op1],%[op2],%[op3]nt"
??"sub?%[op4],%[op2],%[op3]nt"
??:[op1]"=r"(sum),[op4]"=r"(d)
??:[op2]"r"(a),[op3]"r"(b)
??:"memory"
?);
%0 對(duì)應(yīng)變量 c %1 對(duì)應(yīng)變量 a %2 對(duì)應(yīng)變量 b
三、ATPCS 規(guī)則:(ARM、thumber 程序調(diào)用規(guī)范)
為了使單獨(dú)編譯的 C 語(yǔ)言程序和匯編程序之間能夠相互調(diào)用,必須為子程序之間的調(diào)用規(guī)定一定的規(guī)則 .ATPCS 就是 ARM 程序和 THUMB 程序中子程序調(diào)用的基本規(guī)則。
基本 ATPCS 規(guī)定了在子程序調(diào)用時(shí)的一些基本規(guī)則,包括下面 3 方面的內(nèi)容:
- 各寄存器的使用規(guī)則及其相應(yīng)的名稱。數(shù)據(jù)棧的使用規(guī)則。參數(shù)傳遞的規(guī)則。
1. 寄存器的使用必須滿足下面的規(guī)則:
1)子程序間通過寄存器 R0 一 R3 來(lái)傳遞參數(shù),這時(shí),寄存器 R0~R3 可以記作 A1-A4。被調(diào)用的子程序在返回前無(wú)需恢復(fù)寄存器 R0~R3 的內(nèi)容。
3)寄存器 R12 用作過程調(diào)用時(shí)的臨時(shí)寄存器(用于保存 SP,在函數(shù)返回時(shí)使用該寄存器出棧), 記作 ip。在子程序間的連接代碼段中常有這種使用規(guī)則。
4)寄存器 R13 用作數(shù)據(jù)棧指針,記作 sp。在子程序中寄存器 R13 不能用作其他用途。寄存器 sp 在進(jìn)入子程序時(shí)的值和退出子程序時(shí)的值必須相等。
5)寄存器 R14 稱為連接寄存器,記作 lr。它用于保存子程序的返回地址。如果在子程序中保存了返回地址,寄存器 R14 則可以用作其他用途。
6)寄存器 R15 是程序計(jì)數(shù)器,記作 pc。它不能用作其他用途。
ATPCS 下 ARM 寄存器的命名:
寄存器 | 別名 | 功能 |
---|---|---|
R0 | a1 | 工作寄存器 |
R1 | a2 | 工作寄存器 |
R2 | a3 | 工作寄存器 |
R3 | a4 | 工作寄存器 |
R4 | v1 | 必須保護(hù);局部變量寄存器 |
R5 | v2 | 必須保護(hù);局部變量寄存器 |
R6 | v3 | 必須保護(hù);局部變量寄存器 |
R7 | v4 | 必須保護(hù);局部變量寄存器 |
R8 | v5 | 必須保護(hù);局部變量寄存器 |
R9 | v6 | 必須保護(hù);局部變量寄存器 |
R10 | sl | 棧限制 |
R11 | fp | 幀指針 |
R12 | ip | 指令指針 |
R13 | sp | 棧指針 |
R14 | lr | 連接寄存器 |
2、堆棧使用規(guī)則:
ATPCS 規(guī)定堆棧為 FD 類型,即滿遞減堆棧。并且堆棧的操作是 8 字節(jié)對(duì)齊。
而對(duì)于匯編程序來(lái)說(shuō),如果目標(biāo)文件中包含了外部調(diào)用,則必須滿足以下條件:
外部接口的數(shù)據(jù)棧一定是 8 位對(duì)齊的,也就是要保證在進(jìn)入該匯編代碼后,直到該匯編程序調(diào)用外部代碼之間,數(shù)據(jù)棧的棧指針變化為偶數(shù)個(gè)字;
在匯編程序中使用 PRESERVE8 偽操作告訴連接器,本匯編程序是 8 字節(jié)對(duì)齊的 .
3、參數(shù)的傳遞規(guī)則:
根據(jù)參數(shù)個(gè)數(shù)是否固定,可以將子程序分為參數(shù)個(gè)數(shù)固定的子程序和參數(shù)個(gè)數(shù)可變的子程序 . 這兩種子程序的參數(shù)傳遞規(guī)則是不同的 .
1. 參數(shù)個(gè)數(shù)可變的子程序參數(shù)傳遞規(guī)則
對(duì)于參數(shù)個(gè)數(shù)可變的子程序,當(dāng)參數(shù)不超過 4 個(gè)時(shí),可以使用寄存器 R0~R3 來(lái)進(jìn)行參數(shù)傳遞,當(dāng)參數(shù)超過 4 個(gè)時(shí),還可以使用數(shù)據(jù)棧來(lái)傳遞參數(shù) .
在參數(shù)傳遞時(shí),將所有參數(shù)看做是存放在連續(xù)的內(nèi)存單元中的字?jǐn)?shù)據(jù)。然后,依次將各名字?jǐn)?shù)據(jù)傳送到寄存器 R0,R1,R2,R3; 如果參數(shù)多于 4 個(gè),將剩余的字?jǐn)?shù)據(jù)傳送到數(shù)據(jù)棧中,入棧的順序與參數(shù)順序相反,即最后一個(gè)字?jǐn)?shù)據(jù)先入棧 .
按照上面的規(guī)則,一個(gè)浮點(diǎn)數(shù)參數(shù)可以通過寄存器傳遞,也可以通過數(shù)據(jù)棧傳遞,也可能一半通過寄存器傳遞,另一半通過數(shù)據(jù)棧傳遞。
舉例:
?void?func(a,b,c,d,e)
????a?--?r0
????b?--?r1
????c?--?r2
????d?--?r3
????e?--?棧
2. 參數(shù)個(gè)數(shù)固定的子程序參數(shù)傳遞規(guī)則
對(duì)于參數(shù)個(gè)數(shù)固定的子程序,參數(shù)傳遞與參數(shù)個(gè)數(shù)可變的子程序參數(shù)傳遞規(guī)則不同,如果系統(tǒng)包含浮點(diǎn)運(yùn)算的硬件部件。
浮點(diǎn)參數(shù)將按照下面的規(guī)則傳遞: (1)各個(gè)浮點(diǎn)參數(shù)按順序處理; (2)為每個(gè)浮點(diǎn)參數(shù)分配 FP 寄存器;
分配的方法是,滿足該浮點(diǎn)參數(shù)需要的且編號(hào)最小的一組連續(xù)的 FP 寄存器 . 第一個(gè)整數(shù)參數(shù)通過寄存器 R0~R3 來(lái)傳遞,其他參數(shù)通過數(shù)據(jù)棧傳遞 .
3、子程序結(jié)果返回規(guī)則
- 1. 結(jié)果為一個(gè) 32 位的整數(shù)時(shí),可以通過寄存器 R0 返回 .2. 結(jié)果為一個(gè) 64 位整數(shù)時(shí),可以通過 R0 和 R1 返回,依此類推 .3. 對(duì)于位數(shù)更多的結(jié)果,需要通過調(diào)用內(nèi)存來(lái)傳遞 .
舉例:
使用 r0 接收返回值
?int?func1(int?m,?int?n)
??m??--?r0
??n??--?r1
??返回值給?r0
「為什么有的編程規(guī)范要求自定義函數(shù)的參數(shù)不要超過 4 個(gè)?」答:因?yàn)閰?shù)超過 4 個(gè)就需要壓棧退棧,而壓棧退棧需要增加很多指令周期。對(duì)于參數(shù)比較多的情況,我們可以把數(shù)據(jù)封裝到結(jié)構(gòu)體中,然后傳遞結(jié)構(gòu)體變量的地址。
四、C 語(yǔ)言和匯編相互調(diào)用
C 和匯編相互調(diào)用要特別注意遵守相應(yīng)的 ATPCS 規(guī)則。
1. C 調(diào)用匯編
例 1:c 調(diào)用匯編文件中函數(shù)帶返回值 簡(jiǎn)化代碼如下,代碼架構(gòu)可以參考《7. 從 0 開始學(xué) ARM-GNU 偽指令、代碼編譯,lds 使用》。
;.asm?????????????????????????????????????
add:
?add?r2,r0,r1
?mov?r0,r2
????MOV?pc,?lr
main.c
extern?int?add(int?a,int?b);
printf("%d?n",add(2,3));
- a->r0,b->r1 返回值通過 r0 返回計(jì)算結(jié)果給 c 代碼
例 2,用匯編實(shí)現(xiàn)一個(gè) strcopy 函數(shù)
;.asm?
.global?strcopy
strcopy:??????;R0 指向目的字符串?;R1 指向源字符串?
?LDRB?R2,?[R1],?#1???;加載字字符并更新源字符串指針地址?
?STRB?R2,?[R0],?#1???;存儲(chǔ)字符并更新目的字符串指針地址?
?CMP?R2,?#0???;判斷是否為字符串結(jié)尾?
?BNE?strcopy???;如果不是,程序跳轉(zhuǎn)到 strcopy 繼續(xù)循環(huán)?
?MOV?pc,?lr???;程序返回
//.c?
#include??
extern?void?strcopy(char*?des,?const?char*?src);?
int?main(){?
?const?char*?srcstr?=?"yikoulinux";?
?char?desstr[]="test";
?strcopy(desstr,?srcstr);?
?return?0;?
}
2. 匯編調(diào)用 C
//.c?
int?fcn(int?a,?int?b?,?int?c,?int?d,?int?e)
{?
?return?a+b+c+d+e;?
}
;.asm?;
.text?.global?_start?
_start:?
?STR?lr,?[sp,?#-4]!?;保存返回地址 lr?
?ADD?R1,?R0,?R0?;計(jì)算 2*i(第 2 個(gè)參數(shù))?
?ADD?R2,?R1,?R0?;計(jì)算 3*i(第 3 個(gè)參數(shù))?
?ADD?R3,?R1,?R2?;計(jì)算 5*i?
?STR?R3,?[SP,?#-4]!?;第 5 個(gè)參數(shù)通過堆棧傳遞?
?ADD?R3,?R1,?R1?;計(jì)算 4*i(第 4 個(gè)參數(shù))?
?BL?fcn?;調(diào)用 C 程序?
?ADD?sp,?sp,?#4?;從堆棧中刪除第五個(gè)參數(shù)?
?.end
假設(shè)程序進(jìn)入 f 時(shí),R0 中的值為 i ;
int?f(int?i){
?return?fcn(i,?2*i,?3*i,?4*i,?5*i);
}?
五、內(nèi)核實(shí)例
為了讓讀者有個(gè)更加深刻的理解, 以內(nèi)核中的例子為例:
arch/arm/kernel/setup.c
void?notrace?cpu_init(void)?
{
????unsigned?int?cpu?=?smp_processor_id();----獲取 CPU?ID?
????struct?stack?*stk?=?&stacks[cpu];----獲取該 CPU 對(duì)于的 irq?abt 和 und 的 stack 指針
……
#ifdef?CONFIG_THUMB2_KERNEL?
#define?PLC????"r"----Thumb-2 下,msr 指令不允許使用立即數(shù),只能使用寄存器。?
#else?
#define?PLC????"I"?
#endif????__asm__?(?
????"msr????cpsr_c,?%1nt"----讓 CPU 進(jìn)入 IRQ?mode?
????"add????r14,?%0,?%2nt"----r14 寄存器保存 stk->irq?
????"mov????sp,?r14nt"----設(shè)定 IRQ?mode 的 stack 為 stk->irq?
????"msr????cpsr_c,?%3nt"?
????"add????r14,?%0,?%4nt"?
????"mov????sp,?r14nt"----設(shè)定 abt?mode 的 stack 為 stk->abt?
????"msr????cpsr_c,?%5nt"?
????"add????r14,?%0,?%6nt"?
????"mov????sp,?r14nt"----設(shè)定 und?mode 的 stack 為 stk->und?
????"msr????cpsr_c,?%7"---回到 SVC?mode?
????????:----上面是 code,下面的 output 部分是空的?
????????:?"r"?(stk),----對(duì)應(yīng)上面代碼中的%0?
??????????PLC?(PSR_F_BIT?|?PSR_I_BIT?|?IRQ_MODE),----對(duì)應(yīng)上面代碼中的%1?
??????????"I"?(offsetof(struct?stack,?irq[0])),----對(duì)應(yīng)上面代碼中的%2?
??????????PLC?(PSR_F_BIT?|?PSR_I_BIT?|?ABT_MODE),----以此類推,下面不贅述
??????????"I"?(offsetof(struct?stack,?abt[0])),?
??????????PLC?(PSR_F_BIT?|?PSR_I_BIT?|?UND_MODE),?
??????????"I"?(offsetof(struct?stack,?und[0])),?
??????????PLC?(PSR_F_BIT?|?PSR_I_BIT?|?SVC_MODE)?
????????:?"r14");----上面是 input 操作數(shù)列表,r14 是要 clobbered?register 列表?
}