`

双精度、单精度的有效位数

 
阅读更多

浮点数7位有效数字。(应该是单精度数 
双精度数16位有效数字。 

浮点数取值范围: 
负数取值范围为 -3.4028235E+38 到 -1.401298E-45,正数取值范围为 1.401298E-45 到 3.4028235E+38。 

双精度数取值范围: 
负值取值范围-1.79769313486231570E+308 到 -4.94065645841246544E-324,正值取值范围为 4.94065645841246544E-324 到 1.79769313486231570E+308。 

C/C++中浮点数的表示遵循IEEE 754标准。 
一个浮点数由三部分组成:符号位S、指数部分E(阶码)以及尾数部分M(如下)。 
Floating 
S--------E-------M 
1位-----8位-----23位 

Double 
S--------E-------M 
1位-----11位----52位 


十进制数的换算计算公式为(n^m表示n的m次幂,B表示前面的数字是二进制): 

S * 2^(E-127) * (1.M)B 


浮点数的精度取决于尾数部分。尾数部分的位数越多,能够表示的有效数字越多。 

单精度数的尾数用23位存储,加上默认的小数点前的1位1,2^(23+1) = 16777216。因为 10^7 < 16777216 < 10^8,所以说单精度浮点数的有效位数是7位。 

双精度的尾数用52位存储,2^(52+1) = 9007199254740992,10^16 < 9007199254740992 < 10^17,所以双精度的有效位数是16位。
单精度和双精度数值类型最早出现在C语言中(比较通用的语言里面),在C语言中单精度类型称为浮点类型(Float),顾名思义是通过浮动小数点来实现数据的存储。这两个数据类型最早是为了科学计算而产生的,他能够给科学计算提供足够高的精度来存储对于精度要求比较高的数值。但是与此同时,他也完全符合科学计算中对于数值的观念: 

当我们比较两个棍子的长度的时候,一种方法是并排放着比较一下,一种方法是分别量出长度。但是事实上世界上并不存在两根完全一样长的棍子,我们测量的长度精度受到人类目测能力和测量工具精度的限制。从这个意义上来说,判断两根棍子是否一样长丝毫没有意义,因为结果一定是False,但是我们可以比较他们两个哪个更长或者更短。这个例子很好地概括了单精度/双精度数值类型的设计初衷和存在意义。 

基于上述认识,单精度/双精度数值类型从一开始设计的时候,就不是一个准确的数值类型,他只保证在他这个数值类型的精度之内是准确的,精度之外则不保证,比方说,一个数值5.1,很可能存储在单精度/双精度数值中的实际值是5.100000000001或者5.09999999999999。导致这个现象的原因我们可以通过两种方式来解释: 

简单的解释方法 

你可以尝试在任何一个控件的属性面板中,设定他的宽度为:3.2CM,当你输入完毕后,你会发现值自动变成了3.199cm,无论你怎么改,你都无法输入3.200CM,因为实际上在电脑中存储的并不是CM为单位的数值,而是“缇”为单位的数值,而“缇”和CM之间的比值,是个很难被除尽的数,因此你输入完毕后,电脑自动转换成了最接近的“缇”值,然后再转换成厘米显示到属性面板上,这一乘一除,两次四舍五入,误差就出来了。单精度/双精度也是类似的原理,其实在二进制存储的时候,单精度/双精度都采用了类似相近分数的方法,而这样的存储是不可能做到准确的。 

深入的解释方法 

让我们来看看我们存储到数字介质中的单精度/双精度值到底是怎么样的,我们使用如下代码对单精度类型进行一个解剖: 

Public Declare Sub CopyMemory Lib "kernel32" Alias "RtlMoveMemory" (Destination As Any, Source As Any, ByVal Length As Long) 


Public Sub floatTest() 
Dim dblVar As Single 

dblVar = 5.731 / 8 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

End Sub 

Public Sub dblOutput(ByVal dblVar As Single) 
Dim bytVar(3) As Byte 
Dim i As Integer, j As Integer 
Dim strVar As String 

CopyMemory ByVal VarPtr(bytVar(0)), ByVal VarPtr(dblVar), 4 
strVar = dblVar & ": " 
For i = 3 To 0 Step -1 
For j = 7 To 0 Step -1 
strVar = strVar & (bytVar(i) And 2 ^ j) / 2 ^ j 
Next j 
strVar = strVar & " " 
Next i 
Debug.Print strVar 

End Sub 
运行后我们得到输出结果(输出格式为高位左,低位右): 

.716375: 00111111 00110111 01100100 01011010 
1.43275: 00111111 10110111 01100100 01011010 
2.8655: 01000000 00110111 01100100 01011010 
5.731: 01000000 10110111 01100100 01011010 
11.462: 01000001 00110111 01100100 01011010 
22.924: 01000001 10110111 01100100 01011010 
这里,我们把单精度类型转化成了二进制数据输出,这里我们看到,虽然这六个数字完全不同,但是他们的二进制存储惊人地相似,我们看到红色标记部分,每次都是加1,事实上,单精度数据类型使用从高位开始第1位作为正负标记位(绿色),第2位到第9位,是一个跨字节的有符号字节类型数据,这个数值决定了小数点移动的方向和位数(红色),第10位到32位保存一个整数(蓝色)在存储过程中,电脑首先把输入的值不断移位(乘除2)直到这个数的整数部分占用了全部24位的整数位,然后把移动的位数写入浮点部分(红色),而移位后的结果写入整数部分(蓝色和绿色),小数部分则舍弃。求值的时候则是反向过程,先根据正负位和整数位求值,然后根据红色部分的整数来进行移位(乘除2的次方),最终才是我们得到的单精度数值。双精度数值也是同样原理,只是位数更多而已。 

通过解剖单精度数值的二进制存储格式,我们可以清楚看到,实际上单精度/双精度的存储,都要通过乘法和除法,其中必有舍入,如果恰好你的数值在除法中被舍入了,那么你赋的初值就很可能与你最终存储的值不完全相同,其中的微小差异,并不与单精度/双精度的设计目标相违背。 

当我们在数据库中或者VBA代码中使用一个单精度/双精度数值的时候,也许你从界面上看不到区别,但是在实际的存储中,这个差别却真真切切地就在那里,当你对其进行相等比较的时候,系统只是简单地作二进制的比较,界面上无法体现的微小差异,在二进制比较面前却无处遁形,于是,你的等于比较返回了一个意料之外的False。

分享到:
评论

相关推荐

    c语言float类型小数点后位数

    C语言中浮点型一般分为float单精度型、double双精度型、long double长精度型,单精度浮点型小数点后面有效数字为6~7位和双精度浮点型小数点后面有效数字为15~16位。单精度为32位,双精度为64位,8位为一个字节。 在...

    MySQL-②创建表

    1. 打开数据库  use 数据库名;   2. 创建表  create table 表名  (  字段名 数据类型 [列级约束], ... float(m,d) 单精度型,m表示总位数,d表示小数位数  decimal(m,d) 双精度型  date 日期型 4. 查

    分位数力学 II:蒙特卡罗方法和 GPU 优化的正态分位数中的变量变化-研究论文

    我们认为,在单精度模式下,变量变化方法提供了与现有最​​快方案相媲美的性能,同时显着提高了精度,而在双精度模式下,这种方法提供了迄今为止对 GPU 最优化的高斯分位数,并且在不影响 Monte Carlo 应用程序...

    深入理解大数与高精度数的处理问题

    float和double型数据分别是单精度和双精度型数,他们的取值分别是3.4E+10的负38次方到3.4E+10的38次方,和1.7E+10的负308次方到1.7E+10的308次方。那么对于float而言,只有6-7位的有效数字,怎么能装下可达3.4*10^(-...

    一种10位200ksps双模式循环型模数转换器的设计

    仿真结果表明在5.2 MHz工作时钟和2.5 V电源电压下,提出的cyclic ADC实现了200 ksps的转换速度,信噪比60.98 dB,有效位数9.8 bit,功耗4.97 mW,版图面积0.059 mm2.研究结论表明该电路有较高的转换速度和精度,且由于能够...

    C#浮点数的表示和基本运算

    对于IBM-PC而言,单精度浮点数是32位(即4字节)的,双精度浮点数是64位(即8字节)的。两者的S,P,M所占的位数以及表示方法由下表可知 S P M 表示公式 偏移量 1 8 23 (-1)S*2(P-127)*1.M 127 1 11 52 (-1)S...

    ACCESS基本函数大全

    随机数 Rnd(&lt;数值表达式&gt;) 产生一个0到9之间的随机数,为单精度类型。如果数值表达式值小于0,每次产生相同的随机数;如果数值表达式值大于0,每次产生新的随机数;如果数值表达式等于0,产生最近生成的随机数,且...

    Java的8大基本数据类型.pdf

    Java的 的8⼤基本数据类型 ⼤基本数据类型 Java8⼤基本数据类型 ⼤基本数据类型 byte(字节型)、short(短整型)、int (整型) 、long(长整型) float(单精度浮点型)、double(双精度浮点型)、boolean(布尔型)、...

    TI系列芯片资料全套pdf

    opa300 高速低噪声单电源COMS运算放大器 低噪声 高速 16位精度运算放大器 opa335 低温漂运放 零温漂 单电源运算放大器 opa365 高速运算放大器 opa561 大电流运算放大器 大电流 高速运算放大器 vca822 高速运算...

    C语言程序设计标准教程

    从本例可以看出,由于a 是单精度浮点型,有效位数只有七位。而整数已占五位,故小数二位后之后均为无效数字。b 是双精度型,有效位为十六位。但Turbo C 规定小数后最多保留六位,其余部分四舍五入。 [Practice] //...

    化验员培训教程.pptx

    3.5.3 在数据处理过程中,对有效位数之后的数字的修约采用"四舍六入五留双"的规则。最后报告的检测结果的有效位数应与方法要求相一致。在运算过程中,其有效位数可适当保留,而后根据有效数字的修约规则修约至规定...

    MySQL 数据类型和建库策略

    一、数字类型。数字类型按照我的分类方法分为三类:整数类、小数... 小数类,即浮点数类型,根据精度的不同,有FLOAT(单精度)和DOUBLE(双精度)两种。它们的优势是精确度,FLOAT可以表示绝对值非常小、小到约 1.17E

    MySQL的数据类型和建库策略分析详解

    一、数字类型。数字类型按照我的分类方法分为三类:整数类、小数... 小数类,即浮点数类型,根据精度的不同,有FLOAT(单精度)和DOUBLE(双精度)两种。它们的优势是精确度,FLOAT可以表示绝对值非常小、小到约 1.1

    verilog-math:Verilog中的数学函数

    每个功能的双精度和单精度版本 IP核 该库使用python脚本自动生成和流水线逻辑函数。 在组件文件夹中可以找到用Verilog编写的预生成的IP内核。 每个组件均已完全流水线化,并且在固定数量的时钟周期后可以预期输出值...

    中南大学有限单元法考试试卷(岳乐-庞俊).docx

    22. 为了保证解答的收敛性,单元位数模式必须满足什么条件? 答:(1)位移模式必须包含单元刚体位移;(2)位移模式必须包含单元的常应变;(3)位移模式在单元内要连续,且唯一在相邻单元之间要协调。在有限单元...

    培训资料化验员培训教程.pptx

    2.3.3在数据处理过程中,对有效位数之后的数字的修约采用"四舍六入五留双"的规则。最后报告的检测结果的有效位数应与方法要求相一致。在运算过程中,其有效位数可适当保留,而后根据有效数字的修约规则修约至规定...

    leetcode双人赛-bits-manupulations:位操作

    根据总位数,它将是单精度(32 位)或双精度(64 位) 如何表示货币? UTF-8 ASCII码 1960年,电传打字机,你输入键,它发送数字和相同的字母来自另一边 但它需要标准化,美国提出了标准并称之为ASCII(7位二进制...

    基于AT89S52 单片的频率计

    晶振的作用:它结合单片机内部的电路,产生单片机所必须的时钟频率,单 片机的一切指令的执行都是建立在这个基础上的,晶振的提供的时钟频率越 高,那单片机的运行速度也就越快。MCS-51 一般晶振的选择范围为1~ 24...

    VBSCRIPT中文手册

    CDbl 函数 返回已被转换为双精度子类型的变体的表达式。 Chr 函数 返回指定 ANSI 字符码的字符。 CInt 函数 返回已被转换为整数子类型的变体的表达式。 Class 对象 提供对已创建的类的事件的访问。 Class 语句 ...

Global site tag (gtag.js) - Google Analytics