UTF,全称Unicode Transfer Format,统一码传输格式。它是一种针对Unicode的一种可变长度的字符编码方案。
UTF-8编码使用1~4个字节对所有的字符进行编码,对于ASCIl码的那些字符采用一个字节,从而保证与ASCIl的完全兼容。
对于拉丁文、希伯来文等字母采用2个字节进行编码;对于中日韩、东南亚等文字,采用3个字节进行编码。
综合来说,一个中文字符占用三个字节,一个中文标点符号占用三个字节;一个英文字符占用一个字节,一个英文标点占用一个字节;一个数字符号占用一个字节。