最简单的汇编程序

最简单的汇编程序
上一页	第 18 章 x86汇编程序基础	下一页

例 18.1. 最简单的汇编程序

#PURPOSE: Simple program that exits and returns a
#	  status code back to the Linux kernel
#
#INPUT:   none
#
#OUTPUT:  returns a status code. This can be viewed
#	  by typing
#
#	  echo $?
#
#	  after running the program
#
#VARIABLES:
#	  %eax holds the system call number
#	  %ebx holds the return status
#
 .section .data

 .section .text
 .globl _start
_start:
 movl $1, %eax	# this is the linux kernel command
		# number (system call) for exiting
		# a program

 movl $4, %ebx	# this is the status number we will
		# return to the operating system.
		# Change this around and it will
		# return different things to
		# echo $?

 int $0x80	# this wakes up the kernel to run
		# the exit command

把这个程序保存成文件hello.s（汇编程序通常以.s作为文件名后缀），然后用汇编器（Assembler）as把汇编程序中的助记符翻译成机器指令，生成目标文件hello.o：

$ as hello.s -o hello.o

然后用链接器（Linker，或Link Editor）ld把目标文件hello.o链接成可执行文件hello：

$ ld hello.o -o hello

在“main函数和启动例程”一节我们会讲到把多个目标文件链接成一个可执行文件的过程，这是链接的主要作用。我们这个例子虽然只有一个目标文件，但也需要经过链接才能成为可执行文件，因为链接器要修改目标文件中的一些信息，这个将在“可执行文件”一节详细解释。现在执行这个程序，它只做了一件事就是退出，退出状态（Exit Status）为4，在Shell中可以用特殊变量$?得到上一条命令的退出状态：

$ ./hello
$ echo $?
4

程序中的#号表示单行注释，类似于C语言的//注释。下面逐行解释非注释的代码。

 .section .data

汇编程序中以.开头的名称并不是指令的助记符，不会被翻译成机器指令，而是给汇编器一些特殊的指示，称为汇编指示（Assembler Directive）或伪操作（Pseudo-operation），由于它不是真正的指令所以加个“伪”字。.section指示把代码划分成若干个段（Section），程序被操作系统加载执行时，每个段被加载到不同的地址，具有不同的读、写、执行权限。.data段保存程序的数据，是可读可写的，C程序的全局变量也属于.data段。本程序中没有定义数据，所以.data段是空的。

 .section .text

.text段保存代码，是只读和可执行的，后面那些指令都属于这个.text段。

 .globl _start

_start是一个符号（Symbol），符号在汇编程序中代表一个地址，可以用在指令中，汇编程序经过汇编器的处理之后，所有的符号都被替换成它所代表的地址值。在C语言中我们通过变量名访问一个变量，其实就是读写某个地址的内存单元，我们通过函数名调用一个函数，其实就是跳转到该函数第一条指令所在的地址，所以变量名和函数名都是符号，本质上是代表内存地址的。

.globl指示告诉汇编器，_start这个符号要被链接器用到，所以要在目标文件的符号表中给它特殊标记（在“目标文件”一节会讲到）。_start就像C程序的main函数一样特殊，是整个程序的入口，链接器在链接时会查找目标文件中的_start符号代表的地址，把它设置为整个程序的入口地址，所以每个汇编程序都要提供一个_start符号并且用.globl声明。如果一个符号没有用.globl指示声明，就表示这个符号不会被链接器用到。

_start:

_start在这里就像C语言的语句标号一样。汇编器在处理汇编程序时会计算每个数据对象和每条指令的地址，当汇编器看到这样一个标号时，就把它下面一条指令的地址作为_start这个符号所代表的地址。而_start这个符号又比较特殊，它所代表的地址是整个程序的入口地址，所以下一条指令movl $1, %eax就成了程序中第一条被执行的指令。

 movl $1, %eax

这是一条数据传送指令，CPU内部产生一个数字1，然后传送到eax寄存器中。mov后面的l表示long，说明是32位的传送指令。CPU内部产生的数称为立即数（Immediate），在汇编程序中，立即数前面要加$，寄存器名前面要加%，以便跟符号名区分开。

 movl $4, %ebx

和上一条指令类似，生成一个立即数4，传送到ebx寄存器中。

 int $0x80

前两条指令都是为这条指令做准备的，执行这条指令时发生以下动作：

int指令称为软中断指令，可以用这条指令故意产生一个异常，上一章讲过，异常的处理和中断类似，CPU从用户模式切换到特权模式，然后跳转到内核代码中执行异常处理程序。
int指令中的立即数0x80是一个参数，在异常处理程序中要根据这个参数决定如何处理，在Linux内核中，int $0x80这种异常称为系统调用（System Call）。内核提供了很多系统服务供用户程序使用，但这些系统服务不能像库函数（比如printf）那样调用，因为在执行用户程序时CPU处于用户模式，不能直接调用内核函数，所以需要通过系统调用切换CPU模式，通过异常处理程序进入内核，用户程序只能通过寄存器传几个参数，之后就要按内核设计好的代码路线走，而不能由用户程序随心所欲，想调哪个内核函数就调哪个内核函数，这样保证了系统服务被安全地调用。在调用结束之后，CPU再切换回用户模式，继续执行int指令后面的指令，在用户程序看来就像函数的调用和返回一样。
eax和ebx寄存器的值是传递给系统调用的两个参数，eax的值是系统调用号，1表示_exit系统调用，ebx的值则是传给_exit系统调用的参数，也就是退出状态。_exit这个系统调用会终止掉当前进程，而不会返回它继续执行。以后我们会讲到其它系统调用，也是由int $0x80指令引发的，eax的值是系统调用的编号，不同的系统调用需要的参数个数也不同，比如有的需要ebx、ecx、edx三个寄存器的值做参数，大多数系统调用完成之后是会返回用户程序继续执行的，本例的_exit系统调用比较特殊。

x86汇编的两种语法：intel语法和AT&T语法

x86汇编一直存在两种不同的语法，在intel的官方文档中使用intel语法，Windows也使用intel语法，而UNIX平台的汇编器一直使用AT&T语法，所以本书使用AT&T语法。mov %edx,%eax这条指令如果用intel语法来写，就是mov eax,edx，寄存器名不加%号，并且源操作数和目标操作数的位置互换。本书不详细讨论这两种语法之间的区别，读者可以参考[AssemblyHOWTO]。

介绍x86汇编的书很多，UNIX平台的书都采用AT&T语法，例如[GroudUp]，其它书一般采用intel语法，例如[x86Assembly]。

习题

1、把本节例子中的int $0x80指令去掉，汇编、链接也能通过，但是执行的时候出现段错误。你能解释其原因吗？

上一页	上一级	下一页
第 18 章 x86汇编程序基础	起始页	x86的寄存器