浮点数float累加误差分析与处理
发布时间:2021-11-18 15:04:25 所属栏目:教程 来源:互联网
导读:1. 浮点数IEEE 754表示方法 要搞清楚float累加为什么会产生误差,必须先大致理解float在机器里怎么存储的, 这里只介绍一下组成 由上图可知(摘在[2]), 浮点数由: 符号位 + 指数位 + 尾数部分, 三部分组成。由于机器中都是由二进制存储的,那么一个10进制的
1. 浮点数IEEE 754表示方法 要搞清楚float累加为什么会产生误差,必须先大致理解float在机器里怎么存储的, 这里只介绍一下组成 由上图可知(摘在[2]), 浮点数由: 符号位 + 指数位 + 尾数部分, 三部分组成。由于机器中都是由二进制存储的,那么一个10进制的小数如何表示成二进制。例如: 8.25转成二进制为1000.01, 这是因为 1000.01 = 1*2^3 + 0*2^2 + 0*2^1 + 0*2^0 + 0*2^-1 + 2*2^-2 = 1000.01. (2)float的有效位数是6-7位,这是为什么呢?因为位数部分只有23位,所以最小的精度为1*2^-23 在10^-6和10^-7之间,接近10^-7, 中也有解释 那么为什么float累加会产生误差呢,主要原因在于两个浮点数累加的过程。 2. 两个浮点数相加的过程 两浮点数X,Y进行加减运算时,必须按以下几步执行: (1)对阶,使两数的小数点位置对齐,小的阶码向大的阶码看齐。 (2)尾数求和,将对阶后的两尾数按定点加减运算规则求和(差)。 (3)规格化,为增加有效数字的位数,提高运算精度,必须将求和(差)后的尾数规格化。 (4)舍入,为提高精度,要考虑尾数右移时丢失的数值位。 (5)判断结果,即判断结果是否溢出。 关键就在与对阶这一步骤,由于float的有效位数只有7位有效数字,如果一个大数和一个小数相加时,会产生很大的误差,因为尾数得截掉好多位。例如: 123 + 0.00023456 = 1.23*10^2 + 0.000002 * 10^2 = 123.0002 那么此时就会产生0.00003456的误差,如果累加多次,则误差就会进一步加大。 那么怎么解决这种误差呢? 3. 误差解决的方法 (1)Kahan summation算法。 (2)使用double类型进行计算,由于double类型的有效数字有15~16位,一般情况下产生误差可以接受。 (编辑:东莞站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |