Author: haoransun
Wechat: SHR—97
学习来源:极客时间-算法之美,本人购买课程后依据图文讲解汇总成个人见解。
众所周知,数据结构与算法本身解决的是“快”和“省”的问题,即如何让代码运行得更快,如何让代码更省存储空间。所以,执行效率是算法一个非常重要的考量指标。
1 为什么需要复杂度分析?
我将代码跑一遍,通过统计、监控,就能得到算法执行时间个占用的内存大小。为什么要使用空间、时间复杂度分析呢?难道比我实实在在跑一遍得到的数据还要准确吗?
上述评估算法执行效率的方法是正确的。大部分人称它为事后统计法,但它有非常大的局限性。
1.1 测试结果非常依赖测试环境
测试环境中硬件的不同会对测试结果有很大的影响。比如,用同样一段代码,用I9处理器与I3处理器,效率自然不同。
1.2 测试结果受数据规模的影响很大
对同一个排序算法,待排序数据的有序度不一样,排序的执行时间会有很大的差别。极端情况下,如果数据已经有序,排序算法不需要做任何操作,执行时间非常短。除此之外,如果测试数据规模小,测试结果可能无法真实的反应算法的性能。如:对于小规模的数据排序,插入排序可能反倒会比快速排序要快!
我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法–时间、空间复杂度分析方法。
2 大 O 复杂度表示法
算法的执行效率,粗略的说,就是算法代码的执行时间。但是,如何在不运行代码的情况下,用 “肉眼” 得到一段代码的执行时间呢?
1 | int cal(int n){ |
从CPU的角度来看,这段代码的每一行都执行着类似的操作:读数据-运算-写数据。尽管每行对应的CPU执行的个数、执行的时间都不一样,但是,只是粗略的估计,所以可以假设每行代码的执行时间都一样,为 unit_time。在这个假设的基础上,这段代码的总执行时间是多少呢?
第2、3行代码分别需要1个unit_time的执行时间,第4、5行代码都运行了n遍,所以需要2n * unit_time的执行时间,所以这段代码总的执行时间就是 (2n+2) * unit_time。因此, 所有代码的执行时间T(n)与每行代码的执行次数成正比。
按照这个思路,再次分析如下代码。
1 | int cal(int n) { |
依旧假设每个语句的执行时间是 unit_time ,那么这段代码的总执行时间T(n)是多少呢?
第2、3、4行代码,每行代码都需要1个 unit_time的执行时间,第5、6行代码循环执行了n遍,需要2n * unit_time的执行时间,第7、8行代码循环执行了n2遍,所以需要2n2 * unit_time的执行时间。所以,整段代码的执行时间T(n)与每行代码的执行次数n成正比。
3 大 O 登场
T(n)已经解释过,表示代码的执行时间;n表示数据规模的大小;f(n)表示每行代码执行的次数总和。因为它是一个公式。所以用f(n)来表示。公式中的 O ,表示代码的执行时间T(n) 与 f(n) 表达式成正比。
所以,第一个例子中的T(n)=O(2n+2),第二个例子中的T(n)=O(2n2+2n+3)。这就是大 O 时间复杂度表示法。大 O 时间复杂度实际上并不具体表示代码真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势,因此,也称之为渐进时间复杂度(asymptotic time complexity),即时间复杂度。
当 n 很大时,可以把它想象成10000,10000000。而公式中的低阶、常量、系数三部分并不左右增长趋势,所以可以忽略。因此,只需要记录一个最大量级就可以了,如果用大 O 表示法表示上述两段代码的时间复杂度,既可以记为:T(n)=O(n); T(n)=O(n2)
4 时间复杂度分析
前面介绍了大 O 时间复杂度的由来和表示方法。现在看看如何分析一段代码的时间复杂度?
4.1 只关注循环执行次数最多的一段代码
大 O 这种复杂度表示方法只是表示一种变化趋势。通常会忽略掉工事中的常量、低阶、系数,只需要记录一个最大阶的量级就可以了,所以,在分析一个算法,一段代码的时间复杂度的时候,只关注循环执行次数最多的那一段代码就可以了。这段核心代码执行次数的n的量级,就是整段要分析代码的时间复杂度。
1 | int cal(int n){ |
其中第2、3行代码都是常量级的执行时间,与n的大小无关,所以对于复杂度没有影响。循环执行次数最多的是第4、5行代码,所以这块代码要重点分析,这两行代码被执行了n次,所以总的时间复杂度就是O(n)。
4.2 加法法则:总复杂度等于量级最大的那段代码的复杂度
1 | int cal(int n) { |
这个代码分为3个部分分别是求sum_1、sum_2、sum_3。分析每一部分的时间复杂度,然后把它们放到一块儿,再取一个量级最大的作为整段代码的复杂度。
第一段代码的时间复杂度是多少呢?这段代码循环执行了100次,所以是一个常量的执行时间,跟n的规模无关。
这里强调一下,即便这段代码循环了10000次,1亿次,只要是一个已知的数,跟n无关。照样是常量级的执行时间。当n无限大的时候,就可以忽略。尽管对代码的执行时间会有很大影响,但是回到时间复杂度的概念来说,它表示的是一个算法执行效率与数据规模增长的变化趋势,所以不管常量的执行时间多大,我们都可以忽略掉,因为它本身对增长趋势并没有影响。
第二段代码和第三段代码的时间复杂度是多少呢?答案是O(n) 和 O(n2)
综合这三段代码的时间复杂度,取其中最大的量级,所以,整段代码的时间复杂度就为O(n2)。也就是说:总的时间复杂度就是等于量级最大的那段代码的时间复杂度。那可以讲规律抽象为公式:
如果T1(n)=O(f(n)),T2(n)=O(g(n));那么 T(n)=T1(n)+T2(n)=max(O(f(n)),O(g(n)))=O(max(f(n),g(n)))。
4.3 乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积
类比加法法则,乘法法则公式:T1(n)=O(f(n)),T2(n)=O(g(n));那么 T(n)=T1(n) * T2(n)=O(f(n)) * O(g(n))=O(f(n) * g(n))。
假设T1(n)=O(n),T2(n)=O(n2),则T1(n) * T2(n) = O(n3)。落实到具体的代码中:可以把乘法法则看成是嵌套循环:
1 | int cal(int n) { |
单独看cal()函数,假设f()只是一个普通的操作,那第4~6行的时间复杂度就是,T1(n) = O(n),但是f()函数本身不是一个简单的操作,它的时间复杂度是T2(n) = O(n),所以整个cal()函数的时间复杂度就是:T(n) = T1(n) * T2(n) = O(n * n) = O(n2)
5 几种常见时间复杂度实例分析
虽然代码千差万别,但是常见的复杂度量级并不多,以下几乎涵盖了所有一般代码的复杂度量级。
上述可粗略的分为两类:多项式量级 和 非多项式量级。其中,非多项式量级只有两个:O(2n) 和 O(n!)
当数据规模n越来越大时,非多项式量级算法的执行时间会急剧增加,求解问题的执行时间会无限增长。所以,非多项式时间复杂度的算法其实是非常低效的算法。因此,关于 NP 时间复杂度需要再次学习。
5.1 O(1)
首先必须知道,O(1)只是常量级时间复杂度的一种表示方法,并不是指只执行了一行代码,比如下面这段代码的时间复杂度就是 O(1),而不是O(3)。
1 | int i = 8; |
只要代码的执行时间不随 n 的增大而增长,这样代码的时间复杂度都记作 O(1),或者:一般情况下,只要算法中不存在循环、递归,即使有成千上万行的代码,其时间复杂度也是 O(1)
5.2 O(logn)、O(nlogn)
对数阶时间复杂度非常常见,同时也是最难分析的一种时间复杂度。
1 | i=1; |
第3行代码是循环执行次数最多的。所以,只要能计算出这行代码执行了多少次,就知道整段代码的时间复杂度。
从代码中可以看出,变量i的值从1开始取,每循环一次就乘以2.当大于n时,循环结束。这就是一个等比数列。如下所示:
2x=n 求解这个x这个问题。x=log2n。所以这段代码的时间复杂度是O(log2n)。
下面呢?
1 | i=1; |
时间复杂度:O(log3n)
实际上,不管是以2位底、还是以3为底,还是以10位底,可以把所有对数阶的时间复杂度都记为O(logn)。为什么呢?
因为对数可以互相转换的。
log3n = log32 * log2n,所以O(log3n) = O(C * log2n),其中 C = log32 是一个常量。基于前面的一个理论:采用** 大O标记复杂度的时候,可以忽略系数,即 O(Cf(n)) = O(f(n))** 。 因此,O(log2n) 等于 log3n,所以在对数阶时间复杂度的表示方法里,忽略对数的“底”,统一标示为O(logn)。
如此说来,O(nlogn)不难理解,就乘法法则而言,如果一段代码的时间复杂度是O(logn),循环执行了n遍,其时间复杂度就是O(nlogn)。而且,O(nlogn)是一种非常常见的算法时间复杂度。如:归并排序、快速排序的时间复杂度都是O(nlogn)。
5.3 O(m+n)、O(m * n)
如果代码的复杂度由两个数据的规模来决定的呢?
1 | int cal(int m, int n) { |
由代码看出,m和n表示两个数据规模。无法事先评估m和n谁的量极大,所以在表示复杂度的时候,就不能简单的利用加法法则,省略掉一种一个。因此上面代码的时间复杂度就是O(m+n)。
针对这种情况,原来的加法法则就不在正确,需要将加法法则改写:T1(m)+T2(n) = O(f(m) + g(n))。但是乘法法则依然有效:T1(m)*T2(n) = O(f(m) * f(n))。
6 空间复杂度分析
由上面得知,时间复杂度的全称是渐进时间复杂度,表示算法的执行时间与数据规模之间的增长关系。类比可知,空间复杂度全称就是渐进空间复杂度(asymptotic space complexity),表示算法的存储空间与数据规模之间的增长关系。
1 | void print(int n) { |
仿照时间复杂度,可以得知,第2行代码中,申请了一个空间存储变量 i , 但是它是常量阶,跟数据规模 n 没有关系,所以可以忽略。第 3 行申请了一个大小为n的int类型数组,除此之外剩下的代码都没有占用更多的空间,所以,整段代码的空间复杂度就是O(n)。
常见的空间复杂度是:O(1),O(n),O(n2),如O(logn)、O(nlogn)这样的对数阶复杂度平时很难用到。
7 小结
复杂度也称为渐进复杂度,包括时间复杂度和空间复杂度,用来分析算法执行效率与数据规模之间的增长关系,可以粗略的表示,越高阶复杂度的算法,执行效率越低。常见的复杂度并不多,由低阶到高阶有:O(1)、O(logn)、O(n)、O(nlogn)、O(n2)。
8 理解
一、什么是复杂度分析?
1.数据结构和算法解决是“如何让计算机更快时间、更省空间的解决问题”。
2.因此需从执行时间和占用空间两个维度来评估数据结构和算法的性能。
3.分别用时间复杂度和空间复杂度两个概念来描述性能问题,二者统称为复杂度。
4.复杂度描述的是算法执行时间(或占用空间)与数据规模的增长关系。
二、为什么要进行复杂度分析?
1.和性能测试相比,复杂度分析有不依赖执行环境、成本低、效率高、易操作、指导性强的特点。
2.掌握复杂度分析,将能编写出性能更优的代码,有利于降低系统开发和维护成本。
三、如何进行复杂度分析?
1.大O表示法
1)来源
算法的执行时间与每行代码的执行次数成正比,用T(n) = O(f(n))表示,其中T(n)表示算法执行总时间,f(n)表示每行代码执行总次数,而n往往表示数据的规模。
2)特点
以时间复杂度为例,由于时间复杂度描述的是算法执行时间与数据规模的增长变化趋势,所以常量阶、低阶以及系数实际上对这种增长趋势不产决定性影响,所以在做时间复杂度分析时忽略这些项。
2.复杂度分析法则
1)单段代码看高频:比如循环。
2)多段代码取最大:比如一段代码中有单循环和多重循环,那么取多重循环的复杂度。
3)嵌套代码求乘积:比如递归、多重循环等
4)多个规模求加法:比如方法有两个参数控制两个循环的次数,那么这时就取二者复杂度相加。
四、常用的复杂度级别?
多项式阶:随着数据规模的增长,算法的执行时间和空间占用,按照多项式的比例增长。包括,
O(1)(常数阶)、O(logn)(对数阶)、O(n)(线性阶)、O(nlogn)(线性对数阶)、O(n^2)(平方阶)、O(n^3)(立方阶)
非多项式阶:随着数据规模的增长,算法的执行时间和空间占用暴增,这类算法性能极差。包括,
O(2^n)(指数阶)、O(n!)(阶乘阶)
五、如何掌握好复杂度分析方法?
复杂度分析关键在于多练,所谓孰能生巧
项目之前都进行性能测试,再做一次复杂度分析,多此一举吗?
我不认为是多此一举,渐进时间,空间复杂度分析为我们提供了一个很好的理论分析的方向,并且它是宿主平台无关的,能够让我们对我们的程序或算法有一个大致的认识,让我们知道,比如在最坏的情况下程序的执行效率如何,同时也为我们交流提供了一个不错的桥梁,我们可以说,算法1的时间复杂度是O(n),算法2的时间复杂度是O(logN),这样我们立刻就对不同的算法有了一个“效率”上的感性认识。
当然,渐进式时间,空间复杂度分析只是一个理论模型,只能提供给粗略的估计分析,我们不能直接断定就觉得O(logN)的算法一定优于O(n), 针对不同的宿主环境,不同的数据集,不同的数据量的大小,在实际应用上面可能真正的性能会不同,个人觉得,针对不同的实际情况,进而进行一定的性能基准测试是很有必要的,比如在统一一批手机上(同样的硬件,系统等等)进行横向基准测试,进而选择适合特定应用场景下的最有算法。
综上所述,渐进式时间,空间复杂度分析与性能基准测试并不冲突,而是相辅相成的,但是一个低阶的时间复杂度程序有极大的可能性会优于一个高阶的时间复杂度程序,所以在实际编程中,时刻关心理论时间,空间度模型是有助于产出效率高的程序的,同时,因为渐进式时间,空间复杂度分析只是提供一个粗略的分析模型,因此也不会浪费太多时间,重点在于在编程时,要具有这种复杂度分析的思维。