数学算法——识别文章开源地理空间基金会中文分会开放地理空间实验室

摘要:我们想在硬盘里储存的数据,其数据量增长的速度远高于储存设备容量快速增长的速度,因此我们需要能够把磁盘数据塞得更密的软件,才能克服硬件的限制。压缩技术的发展,使我们有了意料之外的应用。要了解何谓数据压缩,必须先了解熵这个概念,物理学中的熵是系统(例如气体)的...

我们想在硬盘里储存的数据,其数据量增长的速度远高于储存设备容量快速增长的速度,因此我们需要能够把磁盘数据塞得更密的软件,才能克服硬件的限制。压缩技术的发展,使我们有了意料之外的应用。

要了解何谓数据压缩,必须先了解熵这个概念,物理学中的熵是系统(例如气体)的无序程度的量度。在电子通信中,熵是信息中信息量的度量。举例来说,由1000重复的0所组成的信息,含有的信息量极少,熵值也极低,它可以被压缩为简短的形式:“1000乘以0”。另一方面,由1与0组成的安全随机数列,其熵很高,根本无法压缩,储存这种字符串的唯一方式就是重复每一个字符。

实验结果简直令人震惊。在将近95%的事例中,压缩程序能正确辨认作品的作者。

当这3位科学家为他们的新发现雀跃不已时,却没有注意到,或至少是忘了在他们的参考文献目录中提到的,他们的方法并不像他们曾想象的那般新奇。事实上,他们并不是第一个想到用数学方法来辨认文学作品作者的人。哈佛语言学教授齐普夫1932年就研究过类似的单字频率问题;而苏格兰人尤尔也在1944年的论文《文学词汇的统计研究》中阐明,自己如何确认出手稿《遵主圣范》的作者是15世纪住在荷兰的著名神秘主义者肯皮斯。当然还必须一提的有18世纪的《联邦主义者文集》,直到1964年,美国统计学家莫斯特勒及华莱士才确认了该书的作者是汉密尔顿、麦迪逊和杰伊。

实验的成功让3位科学家乐观地认为,利用压缩软件测量相对熵,或许也可以运用于其他数据串,如DNA序列或股市的变动。

当我看了结果后,吓了一大跳,这些我费时整整一个月呕心沥血写出的原文,经过压缩之后,缩小了2/3。于是得到一个无可避免的结论,原文中只有33%是重要信息,而其余2/3只是单纯的熵。换言之,有2/3全是多余的。

THE END
1.解锁“二分魔法”:让算法题轻松找到答案的秘密(1)二分查找算法(Binary Search)是一种高效的查找算法,核心思想是“分而治之”,适用于在一个有序的数组中快速定位目标值。通过反复将查找范围对半缩小,二分算法显著降低了查找的复杂度,从线性 (O(n)) 降到对数级别 (O(\log n))。它的关键在于精确判断中间元素与目标值的关系,并灵活调整上下界,从而迅速锁定答案https://blog.csdn.net/effort123_/article/details/144163803
2.鬼才数学老师:独创14个速算法,学生计算又准又快,大脑堪比计算机小学时期的计算能力,可以说决定这孩子学生时代的数学成绩,因为在计算上能避免出错的孩子,说明他是一个细心、反应能力快速的孩子。反之则是粗心大意的孩子,而细心是学好数学最需要的一种能力。 当了几十年的数学老师,在教学几十年的过程中也接触了很多家长和孩子。经常会有家长和我抱怨为什么同一个班,同一个老师教https://www.163.com/dy/article/DF92NJUS0516O6KF.html
3.算法之路到底该怎么走希望大家能够愿意尝试接触算法,了解算法,学习算法,即使能够坚持学习算法的人少之又少,但坚持的过程本身就是一种磨练。希望大家都能够收获绞劲脑汁AC时的自豪,看懂大佬题解时对其绝妙算法的赞叹!https://www.jianshu.com/p/cabc966267d6
4.诸葛武侯巧连神数,到底该怎么算?一、算法: 第一课 混沌初开,乾坤及定,日月合璧,凤凰合鸣。 第二课 苍蝇之飞,不过数步,附于骥尾,则腾千路。 第三课 莫言多,莫行过,虽是千伶百俐,不如一推二摩。 第四课 绝妙绝妙,云无心,以出岫鸟倦飞,而归巢,花艳艳,鱼跃跃几般佳。 https://www.360doc.cn/article/70612587_944534817.html
5.算法之美(Algorithms)书评我在08年初得知这本书,那会我还很奇怪:都什么年月了,怎么还有人写算法教材——这么“经典”的工作,不是上个世纪就被人做完了吗。读了这本Algorithms,我才知道:这才是我心中的算法书,我等待这样一本书已经很多年了。它的确当得起这个名字。书的三位作者:Sanjoy Dasgupta, Papadimitriou, Umesh Vazirani。其中,https://book.douban.com/review/1325850/
6.[PlantSimulation]GAWizard遗传算法的应用PlantSimulation除了提供常规的建模功能外,还可以通过额外的库来进行模型的优化,比如说遗传算法、瓶颈分析等,今天主要讲一下Tools中GAWizard的使用方法。 遗传算法是20世纪60~70年代主要由美国 Michigon 大学 John Holland 教授提出. 其内涵哲理启迪于自然界生物从低级、简单到高级、复杂,乃至人类这样一个漫长而绝妙的进https://www.pianshen.com/article/57411863425/
7.研修日志数学(精选9篇)因此,引导学生对算法进行优化是很有必要的,不过教师必须注意以下三点:第一、优化的主体是学生,而不是教师,教师绝不能定向性地规定学生用统一的方法去解题,而应把优化的主动权交给学生,优化的过程应该是学生进行自我反思,进一步比较、探索的过程,究竟哪一种算法好,要依不同的学情而定,只要学生通过比较、分析,认识https://www.360wenmi.com/f/filewe6q9siy.html
8.组合优化理论第11章启发式算法.pdf第11章 启发式算法 主讲人:陈安龙 2017年11月5 日 ? Combination Optimization PPT was designed by Chen Anlong, @UESTC.edu.cn 1 §1 模拟退火算法 §2 模拟遗传算法 2017年11月5日 ? Combination Optimization PPT was designed by Chen Anlong, @UESTC.edu.cn 2 本章介绍的启发式算法也称智能算法https://max.book118.com/html/2022/0612/6214234213004155.shtm
9.比你更了解你:算法已经无可匹敌了吗?例如如何用“高斯绝妙定理”[1]正确拿一块比萨。这实在太好了。我再也不用为耷拉下来的比萨发愁了(馅儿会掉),学会卷着拿,精准地送到嘴里。这种感觉很棒,就像一个外国人学会了拿筷子夹花生。除了高斯,黑客们的超级明星还有乔治·布尔,他们的理论(高斯函数[2]、布尔逻辑[3])和更多数学分支,成就了今天的算法https://china.caixin.com/m/2017-08-22/101133731.html
10.最快的开平方sqrt算法,供赏析51CTO博客最快的开平方 sqrt 算法,供赏析,最快的开平方sqrt算法,供赏析https://blog.51cto.com/990487026/1941559