平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,等式两边取对数的原则,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2. 取对数后,可以将乘法计算转换称加法计算。
1、电脑打开Excel表格,然后输入对数公式=log,然后选择第一个LOG。2、点击选择LOG后,就可以看到要输入数值和底数。3、先输入数值,以64为例,然后输入逗号,在输入底数2。3、输入公式后,按回车键。4、就可以得到
3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,log200=2.30103,log800=2.90308 这时候前者为2log500=5.39794,后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
5. 所得到的数据易消除异方差问题。
6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X,b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
指数函数取对数:y=a^x;lny=ln(a^x)=xlna;lgy=lg(a^x)=xlga。学好数学的方法:1、学好数学第一要养成预习的习惯。这是我多年学习数学的一个好方法,因为提前把老师要讲的知识先学一遍,就知道自己哪里不会,学。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
方法:两边取对数,然后进行求导。