计算机 小知识点
不同系统文件的换行符
注 : CR(Carriage Return)回车 "\r"; LF(Line Feed)换行 "\n"
Windows : CR + LF "\r\n"
Unix : LF "\n"
Mac : CR "\r"
编码相关
注:很多文件格式和乱码问题都和编码方式相关,遇到此类问题时可以优先检查编码方式
ASCII
最初的计算机编码。一般使用 7 个或 8 个二进制位进行编码,最多可以给 256 个字符分配数值。例:A 十进制码 65(0x41) ;a 十进制码 97(0x61)
Unicode
将世界上所有语言的大部分常用字符都赋予了数值,但是其只是建立了字符与数值间的对应关系,并不是编码结果(常常是其他编码方式通过使用 Unicode 编码将字符转化为数值然后再编码)。
BOM(Byte Order Mark)
BOM 是字节顺序标记,Unicode 规范中其是在文件开头用于标记文件存储方式是大端序还是小端序(FEFF 表示大端序,FFFE 表示小端序),也可用于标记编码方式。
UTF-8
UTF-8 是最常用 UTF 编码。它是针对 Unicode 的一种可变长度字符编码,其与 7 位 ASCII 码兼容,其中的中文占 3 个字节。注意:UTF-8 不需要 BOM 来表明字节顺序,但可以使用其来表明编码方式(以 0xEFBBBF 开头)。
UTF-16
UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节(2字节)储存,但UTF-16却无法兼容于ASCII编码。
GBK
中国国标,双字节编码方案(中文两个字节、英文一个字节 ASCII 码)。