一个字节多少位,位,字节,字三者的关系

前言在我的工作中,常常会遇到形形色色的字符编码,对于各种编码技术本人了解的也不是很多。本篇是我了解编码系列的开篇,主要内容讲述字符编码的基本概念,然后介绍一下常见的字符编码,最后说明一下Java中如何

前言

在我的工作中,常常会遇到形形色色的字符编码,对于各种编码技术本人了解的也不是很多。本篇是我了解编码系列的开篇,主要内容讲述字符编码的基本概念,然后介绍一下常见的字符编码,最后说明一下 Java 中如何编解码?

什么是字符编码?

字符编码也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8 位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。

编码及编码格式

编码是用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。为保证编码的正确性,编码要规范化、标准化,即需有标准的编码格式。常见的编码格式有 ASCII、ISO-8859-1、GB2312、GBK、GB18030、UTF-8、UTF-16 等。

常见的字符编码

ASCII/EASCII

ASCII(American Standard Code for Information Interchange,位,字节,字三者的关系,美国标准信息交换码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码系统。

EASCII(Extended ASCII,延伸美国标准信息交换码)是将 ASCII 码由 7 位扩充为 8 位(增加了 128 个)而成。EASCII 的内码是由 0 到 255 共有 256 个字符组成。EASCII 码比 ASCII 码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

ASCII 码使用指定的 7 位或 8 位二进制数组合来表示 128 或 256 种可能的字符。标准 ASCII 码也叫基础 ASCII 码,使用 7 位二进制数(剩下的 1 位二进制为 0)来表示所有的大写和小写字母,数字 0 到 9、标点符号,以及在美式英语中使用的特殊控制字符。32~126(共 95 个)是字符(32 是空格),其中 48~57 为 0 到 9 十个阿拉伯数字,65~90 为 26 个大写英文字母,97~122 号为 26 个小写英文字母,其余为一些标点符号、运算符号等。

一个字节为8位。字节(Byte)是计算机信息技术用于计量存储容量的一种计量单位,也表示一些计算机编程语言中的数据类型和语言字符。一个字节存储8位无符号数,储存的数值范围为0-255。如同字元一样,字节型态的变数只需要用一。

ISO-8859-1

ISO-8859(拉丁码表,欧洲码表)是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列 8 位字符集的标准。

ISO-8859-1 编码是单字节编码,向下兼容 ASCII,其编码范围是 0x00-0xFF,0x00-0x7F 之间完全和 ASCII 一致,0x80-0x9F 之间是控制字符,0xA0-0xFF 之间是文字符号。

GB2312/GBK/GB18030

位,字节,字三者的关系是:1位=1比特;1字=2字节;1字节=8位;1字=16位。字节是二进制数据的单位。一个字节通常8位长。但是,一些老型号计算机结构使用不同的长度。为了避免混乱,在大多数国际文献中,使用词代替byte。

GB2312

GB2312 简体中文编码表,GB2312 只是编码表,在计算机中通常都是用 “EUC-CN” 表示法,即在每个区位加上 0xA0 来表示。区和位分别占用一个字节。

举例来说,“啊”字是 GB2312 之中的第一个汉字,它的区位码就是 1601。字节编码,通常采用 EUC 储存方法,以便兼容于 ASCII。每个汉字及符号以两个字节来表示。第一个字节称为 “高位字节”,第二个字节称为“低位字节”。“高位字节” 使用了 0xA1-0xF7(把 01-87 区的区号加上 0xA0),“低位字节”使用了 0xA1-0xFE(把 01-94 加上 0xA0)。例如 “啊” 字在大多数程序中,会以 0xB0A1 储存(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

GBK

GBK 全称《汉字内码扩展规范》(GBK 即 “国标”、“扩展” 汉语拼音的第一个字母)。GBK 编码,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码方案。

GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

GB18030

GB18030 编码采用单字节、双字节、四字节分段编码方案,具体码位见下文。GB18030 向下兼容 GBK 和 GB2312 编码。

GB18030-2005 收录了 70244 个汉字

一图弄懂 ASCII、GB2312、GBK、GB18030 编码

UTF-8/UTF-16

计算机存储器中,一个字节由(8)位二进制位组成。二进制记数系统中表示小于2的整数的符号,一般用1或 0表示,是具有相等概率的两种状态中的一种。二进制位的位数可表示一个机器字的字长,一个二进制位包含的信息量称为。

Unicode

Unicode(统一码、万国码、单一码),Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode 通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为 0 就可以。

一个字节多少位

Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的 Unicode 字符分为 17 组编排,0x0000 至 0x10FFFF,每组称为平面(Plane),而每平面拥有 65536 个码位,共 1114112 个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32 都是将数字转换到程序数据的编码方案。

最初的 unicode 编码是固定长度的,16 位,也就是 2 两个字节代表一个字符,这样一共可以表示 65536 个字符(即 0 号平面,基本多文种平面)。显然,这样要表示各种语言中所有的字符是远远不够的。Unicode4.0 规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用 2 个 16 位来表示,这样最多可以定义 1048576 个附加字符,目前 unicode4.0 只定义了 45960 个附加字符。

Unicode 编码方案之前提到,Unicode 没有规定字符对应的二进制码如何存储。以汉字 “汉” 为例,它的 Unicode 码点是 0x6c49,对应的二进制数是 111,二进制数有 15 位,这也就说明了它至少需要 2 个字节来表示。可以想象,在 Unicode 字典中往后的字符可能就需要 3 个字节或者 4 个字节,甚至更多字节来表示了。这就导致了一些问题,计算机怎么知道你这个 2 个字节表示的是一个字符,而不是分别表示两个字符呢?这里我们可能会想到,那就取个最大的,假如 Unicode 中最大的字符用 4 字节就可以表示了,那么我们就将所有的字符都用 4 个字节来表示,不够的就往前面补 0。这样确实可以解决编码问题,但是却造成了空间的极大浪费,如果是一个英文文档,那文件大小就大出了 3 倍,这显然是无法接受的。于是,为了较好的解决 Unicode 的编码问题,UTF-8 和 UTF-16 两种当前比较流行的编码方式诞生了。

UTF-8

UTF-8 是一种针对 Unicode 的可变长度字符编码,是目前互联网上使用最广泛的一种 Unicode 编码方式,它的最大特点就是可变长。它可以使用 1-4 个字节表示一个字符,根据字符的不同变换长度。编码规则如下:

对于需要使用 N 个字节来表示的字符(N>1),第一个字节的前 N 位都设为 1,第 N+1 位设为 0,剩余的 N-1 个字节的前两位都设位 10,剩下的二进制位则使用这个字符的 Unicode 码点来填充。编码规则如下:

Unicode 十六进制码点范围

UTF-8 二进制

0000 0000 - 0000 007F

0xxxxxxx

0000 0080 - 0000 07FF

110xxxxx 10xxxxxx

0000 0800 - 0000 FFFF

1110xxxx 10xxxxxx 10xxxxxx

0001 0000 - 0010 FFFF

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面以汉字 “汉” 为利,具体说明如何进行 UTF-8 编码和解码。

“汉”的 Unicode 码点是 0x6c49(110 1100 0100 1001),通过上面的对照表可以发现,0x0000 6c49 位于第三行的范围,那么得出其格式为 1110xxxx 10xxxxxx 10xxxxxx。接着,从 “汉” 的二进制数最后一位开始,从后向前依次填充对应格式中的 x,多出的 x 用 0 补上。这样,就得到了 “汉” 的 UTF-8 编码为 11100110 10110001 10001001,转换成十六进制就是 0xE6 0xB7 0x89。解码的过程也十分简单:如果一个字节的第一位是 0,则说明这个字节对应一个字符;如果一个字节的第一位 1,那么连续有多少个 1,就表示该字符占用多少个字节。

UTF-16

4位

UTF-16 编码介于 UTF-32 与 UTF-8 之间,同时结合了定长和变长两种编码方法的特点。它的编码规则很简单:基本平面的字符占用 2 个字节,辅助平面的字符占用 4 个字节。也就是说,UTF-16 的编码长度要么是 2 个字节(U+0000 到 U+FFFF),要么是 4 个字节(U+010000 到 U+10FFFF)。

那么问题来了,当我们遇到两个字节时,到底是把这两个字节当作一个字符还是与后面的两个字节一起当作一个字符呢?这里有一个很巧妙的地方,在基本平面内,从 U+D800 到 U+DFFF 是一个空段,即这些码点不对应任何字符。因此,这个空段可以用来映射辅助平面的字符。辅助平面的字符位共有 2^20 个,因此表示这些字符至少需要 20 个二进制位。UTF-16 将这 20 个二进制位分成两半,前 10 位映射在 U+D800 到 U+DBFF,称为高位(H),后 10 位映射在 U+DC00 到 U+DFFF,称为低位(L)。这意味着,一个辅助平面的字符,被拆成两个基本平面的字符表示。因此,当我们遇到两个字节,发现它的码点在 U+D800 到 U+DBFF 之间,就可以断定,紧跟在后面的两个字节的码点,应该在 U+DC00 到 U+DFFF 之间,这四个字节必须放在一起解读。

接下来,以汉字 “” 为例,说明 UTF-16 编码方式是如何工作的。

汉字 “” 的 Unicode 码点为 0x20BB7,该码点显然超出了基本平面的范围(0x0000-0xFFFF),因此需要使用四个字节表示。首先用 0x20BB7-0x10000 计算出超出的部分,然后将其用 20 个二进制位表示(不足前面补 0),结果为 10110111。接着,将前 10 位映射到 U+D800 到 U+DBFF 之间,后 10 位映射到 U+DC00 到 U+DFFF 即可。U+D800 对应的二进制数为 1100,直接填充后面的 10 个二进制位即可,得到 1110,转成 16 进制数则为 0xD842。同理可得,低位为 0xDFB7。因此得出汉字 “” 的 UTF-16 编码为 0xD8420xDFB7。

Java 中如何编解码?

下面我们以 “I am 君山” 这个字符串为例介绍 Java 中如何把它以 ISO-8859-1、GB2312、GBK、UTF-16、UTF-8 编码格式进行编码的。

String name = &34;;byte[] iso8859 = name.getBytes(&34;);byte[] gb2312 = name.getBytes(&34;);byte[] gbk = name.getBytes(&34;);byte[] utf16 = name.getBytes(&34;);byte[] utf8 = name.getBytes(&34;);

ISO-8859-1 编码

ISO-8859-1 是单字节编码,中文 “君山” 被转化成值是 3f 的 byte。3f 也就是 “?” 字符,所以经常会出现中文变成 “?” 很可能就是错误的使用了 ISO-8859-1 这个编码导致的。中文字符经过 ISO-8859-1 编码会丢失信息,通常我们称之为“黑洞”,它会把不认识的字符吸收掉。

GB2312 编码

GB2312 字符集有一个 char 到 byte 的码表,不同的字符编码就是查这个码表找到与每个字符的对应的字节,然后拼装成 byte 数组。

GBK 编码

UTF-16 编码

用 UTF-16 编码将 char 数组放大了一倍,单字节范围内的字符,在高位补 0 变成两个字节,中文字符也变成两个字节。从 UTF-16 编码规则来看,仅仅将字符的高位和地位进行拆分变成两个字节。

1GB (Gigabyte 吉字节 又称“千兆”)=1024MB 字节是指一小组相邻的二进制数码。通常是8位作为一个字节。它是构成信息的一个小单位,并作为一个整体来参加操作,比字小,是构成字的单位。在微型计算机中,通常用多少字节。

UTF-8 编码

小知识点

[1].\uxxxx: 其中 xxxx 表示一个 16 进制数字,这种格式是 unicode 码的写法。[2].0xf: 表示十进制数 15,在 java 中以 0x 开头的数表示十六进制数(如 0x1,0xa)。[3].03: 表示八进制数 3,在 java 中以 0 开头的数表示八进制数(如 012,03)。

[1]. GB2312 简体中文编码表[2]. Unicode 编码原理[3]. 彻底弄懂 Unicode 编码[4]. 深入分析 Java 中的中文编码问题

souce:

上一篇 2023年02月19 07:25
下一篇 2023年02月23 01:07

相关推荐

  • 香港签证多少钱,香港工作签证中介要3万

    1月31日,BNO护照在香港正式停用。航空公司纷纷提醒乘客,BNO护照不能用于香港出入境。香港居民可继续以特区护照或香港永久性居民身份证入境或离开香港。什么是BNO护照?BNO全名为BritishNa

    2023年02月25 244
  • 力学之父是谁,三大力学之父

    1999年9月18日,23位为我国“两弹一星”事业作出突出贡献的科学家被授予了“两弹一星功勋奖章”。这23位科学家也因此被人们尊称为“两弹一星”元勋。不过,绝大多数人可能都想不到,在这23位来自天南海

    2023年04月30 286
  • 两尺一是多少厘米,两尺1等于多少厘米长

    读书时经常会被作者绝妙的比喻句惊叹到:哇,真会形容!好的比喻,犹如电影里的特写镜头,使人感觉强烈,过目不忘。那些看似寻常的本体,经过作者别出心裁的形容后,总会打开一扇新窗,呈现出不一样的风景。1、2尺

    2023年03月23 273
  • 智商多少算正常,考上211智商大概多少

    智商测试题国际标准60题|标准型和色彩型根据受众群体的不同,智商测试分为标准型和色彩型标准型:由A、B、C、D,E五个黑白色单元构成,每个单元包括12个测题,共60道题。智商一般在70以上就算正常,智

    2023年02月18 278
  • 研究生一年学费多少钱

    在读研究生晒出学费清单,父母看后扎心了!其实考研说到底主要是为了筛选更优秀的人才,不过对于应届大学生而言,他们则还要承担不一样的压力,因为他们现阶段本身是没有工作的,不像在职人员考研有一定经济基础,所

    2023年03月31 251
  • 报考研班一般多少钱,考研培训机构要好多钱

    1.高途我就先从自己最最熟悉的机构讲起吧,也就是我自己当年报的那家机构,一起来看看高途的考研报班价格一览表吧。高途考研这家机构收费上我觉得是比较良心的,收费上大多数课程才四五千块钱,最贵的全科系统班也

    2023年03月21 242
  • 三分之二是多少,一包药的3分2是多少

    知识点一:几分之一(1)把一个物体或图形看作一个整体,平均分成几份,每份就是它的几分之一。(2)分子是1的两个分数,分母大的分数反而小,分母小的分数反而大。(3)分数中间的横线叫做分数线,表示平均分;

    2023年02月25 278
  • 工资多少扣个人所得税,工资多少扣个人所得税怎么计算

    前几天,有朋友问我,在税务稽查中的常见的个人所得税问题有哪些?我根据工作经验,大概总结了一下,工资多少扣个人所得税怎么计算,常见的主要有以下9个问题:,一、企业发放实物补贴,未代扣代缴个人所得税比如,

    2023年04月07 226
  • 价格多少,价格多少英文怎么说

    光明图片/视觉中国光明图片/视觉中国光明图片/视觉中国一粒药的合理价格是多少?这个问题困扰中国医改多年。患者、医院、药企、医保部门围绕药价展开的博弈,几乎贯穿了中国医改的整个历程。2018年后,在国家

    2023年02月24 258
  • 多少岁高考,18岁高考还是19岁高考

    怎么一下子就长大了?你是否常有这样的恍惚。年少的人与事,似乎还清晰如昨,可事实上你距离那段生活已经很久了。光阴好似开启了三倍速,把你匆匆带到眼下的现实,对于“长大”这件事你有哪些感悟呢?长大是什么感觉

    2023年03月09 277
  • word怎么做图表,word根据表格生成饼状图

    近几年的word版本越发强大,有些图形图表功能的应用,比平面设计软件还好使些。昨天刚传的视频教程,word根据表格生成饼状图,今天再以图文形式,和大家详细学习下。一、图形的应用1、图形的建立图形、流程

    2023年05月18 227
  • 转怎么拼音,转的正确读音是什么

    老李和老杨是一对老同学,二人又都在某休闲度假酒店的后厨工作,老李负责给老杨发工资和奖金。2014年,老李向老杨借款5万元,实际给了4.8万元现金,约定剩下的2千元是利息。2017年,老李再次借钱,同样

    2023年06月06 299
  • 怎么练力气,怎么练出惊人的力气

    “投弹训练区分出手速度、爆发力可以利用弹力带、扔垒球负重挥臂等多种方式进行训练”近日,湖南体育职业学院内武警湖南总队2023年度军事体育教练员集训火热进行中中央军委训练管理部军事体育训练中心教练员李晓

    2023年05月11 241
关注微信