必威电竞|足球世界杯竞猜平台

交叉編譯器
來源:互聯網

交叉編譯器是一種能夠在不同計算機環境中運行的編譯程序,它可以編譯出在另一種類別的計算機環境中運行的代碼。

簡介

高級計算機語言便于人編寫,閱讀,維護。低級機器語言是計算機能直接解讀、運行的。編譯器將源程序(Source program)作為輸入,翻譯產生使用目標語言(Target language)的等價程序。源代碼一般為高級語言 (High-level language),如 Pascal、C、C++C#、Java等,而目標語言則是匯編語言或目標機器的目標代碼(Object code),有時也稱作機器代碼(Machine code)。

原理

編譯是從源代碼(通常為高級語言)到能直接被計算機虛擬機執行的目標代碼(通常為低階語言或機器語言)的翻譯過程。然而,也存在從低階語言到高階語言的編譯器,這類編譯器中用來從由高階語言生成的低階語言代碼重新生成高階語言代碼的又被叫做反編譯器。也有從一種高階語言生成另一種高階語言的編譯器,或者生成一種需要進一步處理的的中間代碼的編譯器(又叫級聯)。

典型的編譯器輸出是由包含入口點的名字和地址,以及外部調用(到不在這個目標文件中的函數調用)的機器代碼所組成的目標文件。一組目標文件,不必是同一編譯器產生,但使用的編譯器必需采用同樣的輸出格式,可以鏈接在一起并生成可以由用戶直接執行的可執行程序。

編譯器分類

編譯器可以生成用來在與編譯器本身所在的計算機和操作系統(平臺)相同的環境下運行的目標代碼,這種編譯器又叫做“本地”編譯器。另外,編譯器也可以生成用來在其它平臺上運行的目標代碼,這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬件平臺時非常有用。“源碼到源碼編譯器”是指用一種高階語言作為輸入,輸出也是高階語言的編譯器。例如: 自動并行化編譯器經常采用一種高階語言作為輸入,轉換其中的代碼,并用并行代碼注釋對它進行注釋(如OpenMP)或者用語言構造進行注釋(如Fortran的DOALL指令)。

預處理器

預處理器的作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端

編譯器前端主要負責解析(parse)輸入的源代碼,由語法分析器和語意分析器協同工作。語法分析器負責把源代碼中的‘單詞’(Token)找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式,語句,函數等等。例如“a = b + c;”前端語法分析器看到的是“a, =, b , +, c;”,語意分析器按定義的語法,先把他們組裝成表達式“b + c”,再組裝成“a = b + c”的語句。前端還負責語義(semantic checking)的檢查,例如檢測參與運算的變量是否是同一類型的,簡單的錯誤處理。最終的結果常常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣后端可以在此基礎上進一步優化和處理。

編譯器后端

編譯器后端主要負責分析,優化中間代碼(Intermediate representation)以及生成機器代碼(Code Generation)。

一般說來所有的編譯器分析,優化,變型都可以分成兩大類:函數內(intraprocedural)還是函數之間(interprocedural)進行。很明顯,函數間的分析,優化更準確,但需要更長的時間來完成。

代碼分析

編譯器分析(compiler analysis)的對象是前端生成并傳遞過來的中間代碼,現代的優化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程序,高層的中間代碼(high levelIR)接近輸入的源程序的格式,與輸入語言相關(language dependent),包含更多的全局性的信息,和源程序的結構;中層的中間代碼(middle level IR)與輸入語言無關,低層的中間代碼(Low level IR)與機器語言類似。不同的分析,優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針分析(pointer analysis),數據依賴分析(數據 dependenceanalysis)等。

程序分析結果是編譯器優化(compileroptimization)和程序變形(compiler transformation)的前提條件。常見的優化和變形有:函數內嵌(inlining),無用代碼刪除(Dead code elimination),標準化循環結構(loop normalization),循環體展開(loop unrolling),循環體合并,分裂(loop fusion,loop fission),數組填充(array padding),等等。優化和變形的目的是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至可以把序列化的代碼(serial code)變成并行運算,多線程的代碼(parallelized,multi-threaded code)。

機器代碼生成

機器代碼的生成是優化變型后的中間代碼轉換成機器指令的過程。現代編譯器主要采用生成匯編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合并幾句代碼成一句等等。

工作方法

首先編譯器進行語法分析,也就是要把那些字符串分離出來。

然后進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。

最后生成的是目標文件,也稱為obj文件。

再經過鏈接器的鏈接就可以生成最后的可執行代碼了。

有些時候需要把多個文件產生的目標文件進行鏈接,產生最后的代碼。這一過程稱為交叉鏈接。

語言對比

許多人將高階程序語言分為兩類:編譯型語言和 直譯型語言。然而,實際上,這些語言中的大多數既可用編譯型實現也可用直譯型實現,分類實際上反映的是那種語言常見的實現方式。(但是,某些直譯型語言,很難用編譯型實現。比如那些允許 在線代碼更改 的直譯型語言。)

發展歷史

20世紀50年代,IBM的John Backus帶領一個研究小組對Fortran及其編譯器進行開發。但由于當時人們對編譯理論了解不多,開發工作變得既復雜又艱苦。與此同時,Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單,甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的算法來對語言分類。正如所稱的Chomsky架構(Chomsky Hierarchy),它包括了文法的四個層次:0型文法、1型文法、2型文法和3型文法,且其中的每一個都是其前者的特殊情況。2型文法(或上下文無關文法)被證明是程序設計語言中最有用的,而且今天它已代表著程序設計語言結構的標準方式。分析問題(parsing problem,用于上下文無關文法識別的有效算法)的研究是在60年代和70年代,它相當完善的解決了這個問題。它已是編譯原理中的一個標準部分。

有限狀態自動機(Finite 自動化技術)和正則表達式(Regular Expression)同上下文無關文法緊密相關,它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始,并且引出了表示程序設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法,這就是最初的編譯器,它們被一直使用至今。人們通常將其稱為優化技術(Optimization Technique),但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性,因此實際上應稱作代碼改進技術(Code Improvement Technique)。

當分析問題變得好懂起來時,人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱為編譯器的編譯器(Compiler-compiler),但更確切地應稱為分析程序生成器(Parser Generator),這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc(Yet Another Compiler-compiler),它是由Steve Johnson在1975年為Unix系統編寫的。類似的,有限狀態自動機的研究也發展了一種稱為掃描程序生成器(掃描儀 Generator)的工具,Lex(與Yacc同時,由Mike Lesk為Unix系統開發)是這其中的佼佼者。

在20世紀70年代后期和80年代早期,大量的項目都貫注于編譯器其它部分的生成自動化,這其中就包括了代碼生成。這些嘗試并未取得多少成功,這大概是因為操作太復雜而人們又對其不甚了解。

編譯器設計最近的發展包括:首先,編譯器包括了更加復雜算法的應用程序它用于推斷或簡化程序中的信息;這又與更為復雜的程序設計語言的發展結合在一起。其中典型的有用于函數語言編譯的Hindley-Milner類型檢查的統一算法。其次,編譯器已越來越成為基于窗口的交互集成開發環境(Interactive Development Environment,IDE)的一部分,它包括了編輯器、連接程序、調試程序以及項目管理程序。這樣的IDE標準并沒有多少,但是對標準的窗口環境進行開發已成為方向。另一方面,盡管在編譯原理領域進行了大量的研究,但是基本的編譯器設計原理在近20年中都沒有多大的改變,它正迅速地成為計算機科學課程中的中心環節。

在20世紀90年代,作為GNU項目或其它開放源代碼項目標一部分,許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認為是高質量的,而且對現代編譯理論感興趣的人可以很容易的得到它們的免費源代碼。

大約在1999年,SGI公布了他們的一個工業化的并行化優化編譯器Pro64的源代碼,后被全世界多個編譯器研究小組用來做研究平臺,并命名為Open64。Open64的設計結構好,分析優化全面,是編譯器高級研究的理想平臺。

交叉編譯

在一種計算機環境中運行的編譯程序,能編譯出在另外一種環境下運行的代碼,我們就稱這種編譯器支持交叉編譯。這個編譯過程就叫交叉編譯。簡單地說,就是在一個平臺上生成另一個平臺上的可執行代碼。這里需要注意的是所謂平臺,實際上包含兩個概念:體系結構(建筑)、操作系統(Operating System)。同一個體系結構可以運行不同的操作系統;同樣,同一個操作系統也可以在不同的體系結構上運行。舉例來說,我們常說的x86 Linux平臺實際上是英特爾 x86體系結構和Linux for x86操作系統的統稱;而x86 WinNT平臺實際上是Intel x86體系結構和Windows NT for x86操作系統的簡稱。

有時是因為目的平臺上不允許或不能夠安裝我們所需要的編譯器,而我們又需要這個編譯器的某些特征;有時是因為目的平臺上的資源貧乏,無法運行我們所需要編譯器;有時又是因為目的平臺還沒有建立,連操作系統都沒有,根本談不上運行什么編譯器。

交叉編譯這個概念的出現和流行是和嵌入式系統的廣泛發展同步的。我們常用的計算機軟件,都需要通過編譯的方式,把使用高級計算機語言編寫的代碼(比如C代碼)編譯(compile)成計算機可以識別和執行的二進制代碼。比如,我們在Windows平臺上,可使用Visual C++集成開發環境,編寫程序并編譯成可執行程序。這種方式下,我們使用PC平臺上的Windows工具開發針對Windows本身的可執行程序,這種編譯過程稱為native compilation,中文可理解為本機編譯。然而,在進行嵌入式系統的開發時,運行程序的目標平臺通常具有有限的存儲空間和運算能力,比如常見的 ARM 平臺,其一般的靜態存儲空間大概是16到32MB,而CPU的主頻大概在100MHz到500MHz之間。這種情況下,在ARM平臺上進行本機編譯就不太可能了,這是因為一般的編譯工具鏈(compilation tool chain)需要很大的存儲空間,并需要很強的CPU運算能力。為了解決這個問題,交叉編譯工具就應運而生了。通過交叉編譯工具,我們就可以在CPU能力很強、存儲空間足夠的主機平臺上(比如PC上)編譯出針對其他平臺的可執行程序。

要進行交叉編譯,我們需要在主機平臺上安裝對應的交叉編譯工具鏈(cross compilation tool chain),然后用這個交叉編譯工具鏈編譯我們的源代碼,最終生成可在目標平臺上運行的代碼。

參考資料 >

Ubuntu 18.04安裝arm-linux-gcc交叉編譯器(超簡單,附安裝包下載地址) 原創.CSDN博客.2024-11-01

一文搞懂交叉編譯,Windows和Linux的交叉編譯 原創.CSDN博客.2024-11-01

交叉編譯器.csdn.2024-11-01

交叉編譯器.csdn.2024-11-01

生活家百科家居網