首页 > 合作加盟 > 合作加盟详细内容

功能调优攻略

来源：品牌网页设计 | 作者：品牌网页设计 | 时间：2022-04-12 | 浏览：5999

字体大小：大中小

关于机能优化这是一个对照大的话题，在《由12306.cn谈谈网站建立机能技艺》中我从营业和设想上说过一些可用的技艺和那些技艺的优缺点，今天，想从一些技艺细节上谈谈机能优化，主如果一些代码级别的技艺和要领。本文的工具是我的一些履历和常识，其实不确定全对，愿望大师指正和补充。

在开端这篇文章之前，大师能够移步去看一下酷壳从前揭橥的《代码优化提要》，这篇文章根基上申报你——要举行优化，先得找到机能瓶颈！然则在讲若何定位体系机能瓶劲之前，请让我讲一下体系机能的界说和测试，因为没有这两件事，背面的定位和SEO优化无从谈起。

一、体系机能界说

让我们先来说说若何甚么是体系机能。这个界说非常症结，如果我们不清晰甚么是体系机能，那末我们将没法定位之。我见过良多同伙会觉得这很轻易，然则细心一问，真实他们并没有一个对照体系的要领，以是，在这里我想申报大师若何体系地来定位机能。整体来说，体系机能就是两个事：

1. Throughput ，吞吐量。也就是每秒钟能够处置的恳求数，义务数。

2. Latency，体系耽误。也就是体系在处置一个恳求或一个义务时的耽误。

通俗来说，一个体系的机能遭到这两个前提的束缚，缺一不成。比如，我的体系能够顶得住一百万的并发，然则体系的耽误是2分钟以上，那末，这个一百万的负载毫无意义。体系耽误很短，然则吞吐量很低，一样没有意义。以是，一个好的体系的机能测试必定遭到这两个前提的同时感化。有履历的同伙确定知道，这两个工具的一些干系：

• Throughput越大，Latency会越差。因为恳求量过大，体系太繁忙，以是响应速度天然会低。

• Latency越好，能撑持的Throughput就会越高。因为Latency短申明处置速度快，因而就能够处置更多的恳求。

二、体系机能测试

颠末上述的申明，我们知道要测试体系的机能，必要我们收集体系的Throughput和Latency这两个值。

• 起首，必要界说Latency这个值，比如说，对网站体系响应韶光必须是5秒之内(对某些及时体系能够必要界说的更短，比如5ms之内，这个更按照分歧的营业来界说)

• 其次，开辟机能测试工具，一个工具用来制作高强度的Throughput，另外一个工具用来丈量Latency。对第一个工具，你能够参考一下"十个收费的Web压力测试工具"，关于若何丈量Latency，你能够在代码中丈量，然则如许会影响步伐的履行，并且只能测试到步伐内部的Latency，真正的Latency是全部体系都算上，包罗操纵体系和收集的延时，你能够利用Wireshark来抓收集包来丈量。这两个工具详细如何做，这个还请大师本身考虑去了。

• 最初，开端机能测试。你必要不时地提升测试的Throughput，然后视察体系的负载情况，如果体系顶得住，那就视察Latency的值。如许，你就能够找到体系的最大负载，并且你能够知道体系的响应延时是几多。

再多说一些，

• 关于Latency，如果吞吐量很少，这个值估量会非常不乱，当吞吐量愈来愈大时，体系的Latency会出现非常激烈的发抖，以是，我们在丈量Latency的时分，我们必要注意到Latency的分布，也就是说，有百分之几的在我们同意的规模，有百分之几的超出了，有百分之几的完全不成承受。也许，均匀上去的Latency达标了，然则此中仅有50%的达到了我们可承受的规模。那也没有意义。

• 关于机能测试，我们还必要界说一个韶光段。比如：在某个吞吐量上连续15分钟。因为当负载达到的时分，体系会变得不不乱，当过了一两分钟后，体系才会不乱。别的，也有能够是，你的体系在这个负载下前几分钟还体现一般，然后就不不乱了，以致垮了。以是，必要这么一段韶光。这个值，我们叫做峰值极限。

• 机能测试还必要做Soak Test，也就是在某个吞吐量下，体系能够连续跑一周以致更长。这个值，我们叫做体系的一般运转的负载极限。

机能测试有良多很复要的工具，比如：burst test等。这里不克不及逐一胪陈，这里只说了一些和机能调优相关的工具。总之，机能测试是一细活和累活。

三、定位机能瓶颈

有了下面的铺垫，我们就能够测试到到体系的机能了，再调优之前，我们先来说说若何找到机能的瓶颈。我见过良多同伙会觉得这很轻易，然则细心一问，真实他们并没有一个对照体系的要领。

3.1)检察操纵体系负载

起首，当我们体系有标题问题的时分，我们不要急于去查询拜访我们代码，这个毫无意义。我们首要必要看的是操纵体系的申报。看看操纵体系的CPU行使率，看看内存利用率，看看操纵体系的IO，另有收集的IO，收集链接数，等等。Windows下的perfmon是一个很不错的工具，Linux下也有良多相关的命令和工具，比如：SystemTap，LatencyTOP，vmstat, sar, iostat, top, tcpdump等等。经由历程视察这些数据，我们就能够知道我们的软件的机能根基上出在哪里。比如：

1)先看CPU行使率，如果CPU行使率不高，然则体系的Throughput和Latency上不去了，这申明我们的步伐并没有忙于盘算，而是忙于别的一些事，比如IO。(别的，CPU的行使率还要看内核态的和用户态的，内核态的一上去了，全部体系的机能就上去了。而对多核CPU来说，CPU 0 是相称症结的，如果CPU 0的负载高，那末会影响别的核的机能，因为CPU各核间是必要有调剂的，这靠CPU0完成)

2)然后，我们能够看一下IO大不大，IO和CPU通俗是反着来的，CPU行使率高则IO不大，IO大则CPU就小。关于IO，我们要看三个事，一个是磁盘文件IO，一个是驱动步伐的IO(如：网卡)，一个是内存换页率。这三个事都邑影响体系机能。

3)然后，检察一下收集带宽利用情况，在Linux下，你能够利用iftop, iptraf, ntop, tcpdump这些命令来检察。或是用Wireshark来检察。

4)如果CPU不高，IO不高，内存利用不高，收集带宽利用不高。然则体系的机能上不去。这申明你的步伐有标题问题，比如，你的步伐被梗阻了。能够是因为等谁人锁，能够是因为等某个资本，或是在切换高低文。

经由历程领会操纵体系的机能，我们才知道机能的标题问题，比如：带宽不敷，内存不敷，TCP缓冲区不敷，等等，良多时分，不必要调解步伐的，只必要调解一下硬件或操纵体系的设置装备摆设就能够了。

3.2)利用Profiler测试

接上去，我们必要利用机能检测工具，也就是利用某个Profiler来差看一下我们步伐的运转机能。如：Java的JProfiler/TPTP/CodePro Profiler，GNU的gprof，IBM的PurifyPlus，Intel的VTune，AMD的CodeAnalyst，另有Linux下的OProfile/perf，背面两个能够让你对你的代码优化到CPU的微指令级别，如果你体贴CPU的L1/L2的缓存调优，那末你必要斟酌一下利用VTune。利用这些Profiler工具，能够让你步伐中各个模块函数以致指令的良多工具，如：运转的韶光，挪用的次数，CPU的行使率，等等。这些工具对我们来说非常有效。

我们重点视察运转韶光最多，挪用次数最多的那些函数和指令。这里注意一下，对挪用次数多然则韶光很短的函数，你能够只必要稍微优化一下，你的机能就上去了(比如：某函数一秒种被挪用100万次，你想想如果你让这个函数前进0.01毫秒的韶光，这会给你带来多大的机能)

利用Profiler有个标题问题我们必要注意一下，因为Profiler会让你的步伐运转的机能变低，像PurifyPlus如许的工具会在你的代码中拔出良多代码，会招致你的步伐运转服从变低，从而没发测试出在高吞吐量下的体系的机能，对此，通俗有两个要领来定位体系瓶颈：

1)在你的代码中本身做统计，利用微秒级的计时器和函数挪用盘算器，每隔10秒把统计log到文件中。

2)分段解释你的代码块，让一些函数空转，做Hard Code的Mock，然后再测试一下体系的Throughput和Latency是否是有质的转变，如果有，那末被解释的函数就是机能瓶颈，再在这个函数体内解释代码，直到找到最耗机能的语句。

四、罕见的体系瓶颈

下面这些工具是我所经历过的一些标题问题，也许其实不全，也许并舛讹，大师能够补充指正，我纯属举一反三。关于体系架构方面的机能调优，大师可移步看一下《由12306.cn谈谈网站机能技艺》，关于Web方面的一些机能调优的工具，大师能够看看《Web开辟中必要领会的工具》一文中的机能一章。我在这里就不再说设想和架构上的工具了。

通俗来说，机能优化也就是下面的几个计谋：

• 用空间换韶光。各类cache如CPU L1/L2/RAM到硬盘，都是用空间来换韶光的计谋。如许计谋根基上是把盘算的历程一步一步的保留或缓存上去，如许就不消每次用的时分都要再盘算一遍，比如数据缓冲，CDN，等。如许的计谋还体现为冗余数据，比如数据镜象，负载均衡甚么的。

• 用韶光换空间。偶然分，大批的空间能够机能会更好，比如收集传输，如果有一些紧缩数据的算法(如前些天说的"Huffman 编码紧缩算法" 和 "rsync 的焦点算法")，如许的算法真实很耗时，然则因为瓶颈在收集传输，以是用韶光来换空间反而能省韶光。

• 简化代码。最高效的步伐就是不履行任何代码的步伐，以是，代码越少机能就越高。关于代码级优化的技艺大学里的教科书有良多示例了。如：增添轮回的层数，增添递归，在轮回中少声明变量，少做分派和释放内存的操纵，尽能够把轮回体内的表达式抽到轮回外，前提表达的中的多个前提判定的次序，尽能够在步伐启动时把一些工具预备好，注意函数挪用的开支(栈上开支)，注意面向工具说话中暂且工具的开支，警惕利用非常(不要用非常来检讨一些可承受可疏忽并经常发生的过错)，…… 等等，等等，这连工具必要我们非常领会编程说话和经常使用的库。

• 并行处置。如果CPU只要一个核，你要玩多历程，多线程，对盘算密集型的软件会反而更慢(因为操纵体系调剂和切换开支很大)，CPU的核多了能力真正体现出多历程多线程的上风。并行处置必要我们的步伐有Scalability，不克不及水平或垂直扩展的步伐没法举行并行处置。从架构上来说，这表再为——是否是能够做到不改代码只是加加呆板就能够完成机能提升？

总之，按照2：8准绳来说，20%的代码耗了你80%的机能，找到那20%的代码，你就能够优化那80%的机能。下面的一些工具都是我的一些履历，我只例举了一些最有代价的机能调优的的要领，供你参考，也迎接补充。

4.1)算法调优。算法非常主要，好的算法会有更好的机能。举几个我经历过的项目的例子，大师能够觉得一下。

• 一个是过滤算法，体系必要对收到的恳求做过滤，我们把能够被filter in/out的工具设置装备摆设在了一个文件中，原有的过滤算法是遍历过滤设置装备摆设，厥后，我们找到了一种要领能够对这个过滤设置装备摆设举行排序，如许就能够用二分折半的要领来过滤，体系机能增添了50%。

• 一个是哈希算法。盘算哈希算法的函数其实不高效，一方面是盘算太费时，另外一方面是碰撞太高，碰撞高了就跟单向链表一个机能(可参看Hash Collision DoS 标题问题)。我们知道，算法都是和必要处置的数据很有干系的，就算是被大师所讪笑的"冒泡排序"在某些情况下(大大都数据是排好序的)其服从会高于一切的排序算法。哈希算法也一样，广为人知的哈希算法都是用英笔墨典做测试，然则我们的营业在数据有其特殊性，以是，对还必要按照本身的数据来遴选适合的哈希算法。对我从前的一个项目，公司内某牛人给我发来了一个哈希算法，成效让我们的体系机能上升了150%。(关于各类哈希算法，你确定要看看StackExchange上的这篇关于各类hash算法的文章 )

• 分而治之和预处置。从前有一个步伐为了天生月报表，每次都必要盘算很长的韶光，偶然分必要花快要一整天的韶光。因而我们把我们找到了一种要领能够把这个算法发成增量式的，也就是说我天天都把当天的数据盘算好了后和前一天的报表兼并，如许能够大大的节约盘算韶光，天天的数据盘算量只必要20分钟，然则如果我要算全部月的，体系则必要10个小时以上(SQL语句在大数据量眼前机能成级数性下落)。这类分而治之的思绪在大数据眼前对机能有很协助，就像merge排序一样。SQL语句和数据库的机能优化也是这一计谋，如：利用嵌套式的Select而不是笛卡尔积的Select，利用视图，等等。

4.2)代码调优。从我的履历上来说，代码上的调优有下面这几点：

• 字符串操纵。这是最费体系机能的事了，不管是strcpy, strcat还是strlen，最必要注意的是字符串子串婚配。以是，能用整型最好用整型。举几个例子，第一个例子是N年前做银行的时分，我的同事快乐喜欢把日期存成字符串(如：2012-05-29 08:30:02)，我勒个去，一个select where between语句相称耗时。另外一个例子是，我从前有个同事把一些状况码用字符串来处置，他的理由是，如许能够在界面上间接展现，厥后机能调优的时分，我把这些状况码全改成整型，然后用位操纵查状况，因为有一个每秒钟被挪用了150K次的函数内里有三处必要检讨状况，颠末改良今后，全部体系的机能上升了30%阁下。另有一个例子是，我从前从事的某个产物编程尺度中有一条是要在每个函数中把函数名界说出来，如：const char fname[]="functionName()", 这是为了好打日记，然则为甚么不声明成 static范例的呢？

• 多线程调优。有人说，thread is evil，这个对体系机能在某些时分是个标题问题。因为多线程瓶颈就在于互斥和同步的锁上，和线程高低文切换的成本，如何样的少用锁或不消锁是根本(比如：多版本并发掌握(MVCC)在分布式体系中的利用中说的悲观锁能够处置机能标题问题)，另外，另有读写锁也能够处置大大都是读操纵的并发的机能标题问题。这里多说一点在C++中，我们能够会利用线程平安的智能指针AutoPtr或是别的一些容器，只如果线程平安的，其不论三七二十一都要上锁，上锁是个成本很高的操纵，利用AutoPtr会让我们的体系机能下落得很快，如果你能够包管不会有线程并发标题问题，那末你该当不要用AutoPtr。我记得我前次我们同事去掉智能指针的援用计数，让体系机能提升了50%以上。对Java工具的援用计数，如果我猜的没错的话，四处都是锁，以是，Java的机能标题问题一向是个标题问题。别的，线程不是越多越好，线程间的调剂和高低文切换也是很夸大的事，尽能够的在一个线程里干，尽能够的不要同步线程。这会让你有良多的机能。

• 内存分派。不要小视步伐的内存分派。malloc/realloc/calloc如许的体系调非常耗时，迥殊是当内存出现碎片的时分。我从前的公司出过如许一个标题问题——在用户的站点上，我们的步伐有一天不响应了，用GDB跟出来一看，体系hang在了malloc操纵上，20秒都没有前往，重启一些体系就好了。这就是内存碎片的标题问题。这就是为甚么良多人埋怨STL有严峻的内存碎片的标题问题，因为太多的小内存的分派释放了。有良多人会觉得用内存池能够处置这个标题问题，然则现实上他们只是从新缔造了Runtime-C或操纵体系的内存管理机制，完全于事无补。虽然处置内存碎片的标题问题还是经由历程内存池，详细来说是一系列分歧尺寸的内存池(这个留给大师本身去考虑)。虽然，少举行静态内存分派是最好的。说到内存池就必要说一下池化技艺。比如线程池，毗连池等。池化技艺对一些短功课来说(如http就事) 相称相称的有效。这项技艺能够增添链接建立，线程建立的开支，从而前进机能。

• 异步操纵。我们知道Unix下的文件操纵是有block和non-block的体式款式的，像有些体系挪用也是block式的，如：Socket下的select，Windows下的WaitforObject之类的，如果我们的步伐是同步操纵，那末会非常影响机能，我们能够改成异步的，然则改成异步的体式款式会让你的步伐变庞大。异步体式款式通俗要经由历程行列，要注间行列的机能标题问题，别的，异步下的状况申报平常是个标题问题，比如新闻事务申报体式款式，有callback体式款式，等，这些体式款式一样能够会影响你的机能。然则平常来说，异步操纵会让机能的吞吐率有很大提升(Throughput)，然则会捐躯体系的响应韶光(latency)。这必要营业上撑持。

• 说话和代码库。我们要认识说话和所利用的函数库或类库的机能。比如：STL中的良多容器分派了内存后，那怕你删除元素，内存也不会收受接管，其会形成内存泄漏的假像，并能够形成内存碎片标题问题。再如，STL某些容器的size()==0 和 empty()是不一样的，因为，size()是O(n)庞大度，empty()是O(1)的庞大度，这个要警惕。Java中的JVM调优必要利用的这些参数：-Xms -Xmx -Xmn -XX:SurvivorRatio -XX:MaxTenuringThreshold，还必要注意JVM的GC，GC的霸气大师都知道，品牌网页设计，迥殊是full GC(还整顿内存碎片)，他就像"恐龙特级克赛号"一样，他运转的时分，全部世界的韶光都截至了。

4.3)收集调优

关于收集调优，迥殊是TCP Tuning(你能够以这两个症结词在网上找到良多文章)，这内里有良多良多工具能够说。看看Linux下TCP/IP的那末多参数就知道了(顺便说一下，你也许不快乐喜欢Linux，然则你不克不及否定Linux给我们了良多能够举行内核调优的权利)。强烈建议大师看看《TCP/IP 详解卷1:协定》这本书。我在这里只讲一些观点上的工具。

A) TCP调优

我们知道TCP链接是有良多开支的，一个是会占用文件描述符，另外一个是会开缓存，通俗来说一个体系能够撑持的TCP链接数是无限的，我们必要清晰地认识到TCP链接对体系的开支是很大的。恰是因为TCP是耗资本的，以是，良多攻击都是让你体系上出现大批的TCP链接，把你的体系资本耗尽。比如闻名的SYNC Flood攻击。

以是，我们要注意设置装备摆设KeepAlive参数，这个参数的意义是界说一个韶光，如果链接上没有数据传输，体系会在这个韶光发一个包，如果没有收到回应，那末TCP就觉得链接断了，然后就会把链接封闭，如许能够收受接管体系资本开支。(注：HTTP层上也有KeepAlive参数)对像HTTP如许的短链接，设置一个1-2分钟的keepalive非常主要。这能够在确定水平上防备DoS攻击。有下面几个参数(下面这些参数的值仅供参考)：

net.ipv4.tcp_keepalive_probes = 5

net.ipv4.tcp_keepalive_intvl = 20

net.ipv4.tcp_fin_timeout = 30

对TCP的TIME_WAIT这个状况，自动封闭的一方进入TIME_WAIT状况，TIME_WAIT状况将连续2个MSL(Max Segment Lifetime)，默觉得4分钟，TIME_WAIT状况下的资本不克不及收受接管。有大批的TIME_WAIT链接的情况通俗是在HTTP就事器上。对此，有两个参数必要注意

net.ipv4.tcp_tw_reuse=1

net.ipv4.tcp_tw_recycle=1

前者透露体现重用TIME_WAIT，后者透露体现收受接管TIME_WAIT的资本。

TCP另有一个主要的观点叫RWIN(TCP Receive Window Size)，这个工具的意义是，我一个TCP链接在没有向Sender收回ack时能够领受到的最大的数据包。为甚么这个很主要？因为如果Sender没有收到Receiver发过去ack，Sender就会截至发送数据并会等一段韶光，如果超时，那末就会重传。这就是为甚么TCP链接是牢靠链接的缘故原由。重传还不是最严峻的，如果有丢包发生的话，TCP的带宽利用率会即刻遭到影响(会盲目减半)，再丢包，再减半，然后如果不丢包了，就慢慢规复。相关参数以下：

net.core.wmem_default = 8388608

net.core.rmem_default = 8388608

net.core.rmem_max = 16777216

net.core.wmem_max = 16777216

通俗来说，现实上的RWIN该当设置成：吞吐量 * 回路韶光。Sender端的buffer该当和RWIN有一样的巨细，因为Sender端发送完数据后要等Receiver端确认，如果收集延时很大，buffer过小了，确认的次数就会多，因而机能就不高，对收集的行使率也就不高了。也就是说，对耽误大的收集，我们必要大的buffer，如许能够少一点ack，多一些数据，对响应快一点的收集，能够少一些buffer。因为，如果有丢包(没有收到ack)，buffer过大能够会有标题问题，因为这会让TCP重传一切的数据，反而影响收集机能。(虽然，收集差的情况下，就别玩甚么高机能了) 以是，高机能的收集主要的是要让收集丢包率非常非常地小(根基上是用在LAN里)，如果收集根基是可托的，如许用大一点的buffer会有更好的收集传输机能(来来回回太多太影响机能了)。

别的，我们想想，如果收集质量非常好，根基不丢包，而营业上我们不怕偶然丢几个包，如果是如许的话，那末，我们为甚么不消速度更快的UDP呢？你想过这个标题问题了吗？

B)UDP调优

说到UDP的调优，有一些事我想重点说一样，那就是MTU——最大传输单位(真实这对TCP也一样，因为这是链路层上的工具)。所谓最大传输单位，你能够想像成是公路上的公交车，假定一个公交车能够最多坐70人，带宽就像是公路的车道数一样，如果一条路上最多能够容下100辆公交车，那意味着我最多能够输送7000人，然则如果公交车坐不满，比如均匀每辆车只要20人，那末我只输送了2000人，因而我公路资本(带宽资本)就被浪掷了。以是，我们对一个UDP的包，我们要尽能够地让他大到MTU的最大尺寸再往收集上传，如许能够最大化带宽行使率。对这个MTU，以太网是1500字节，光纤是4352字节，802.11无线网是7981。然则，当我们用TCP/UDP发包的时分，我们的有效负载Payload要低于这个值，因为IP协定会加上20个字节，UDP会加上8个字节(TCP加的更多)，以是，通俗来说，你的一个UDP包的最大该当是1500-8-20=1472，这是你的数据的巨细。虽然，如果你用光纤的话，这个值就能够更大一些。(顺便说一下，对某些NB的千光以态网网卡来说，在网卡上，网卡硬件如果缔造你的包的巨细跨越了MTU，其会帮你做fragment，到了目的端又会帮你做重组，这就不必要你在步伐中处置了)

再多说一下，利用Socket编程的时分，你能够利用setsockopt() 设置 SO_SNDBUF/SO_RCVBUF 的巨细，TTL和KeepAlive这些症结的设置，虽然，另有良多，详细你能够检察一下Socket的手册。

最初说一点，UDP另有一个最大的利益是multi-cast多播，这个技艺对你必要在内网里申报多台结点时非常轻易和高效。并且，多播这类技艺对机遇的水平扩展(必要增添呆板来侦听多播信息)也很有益。

C)网卡调优

对网卡，我们也是能够调优的，这对千兆和网网卡非常需要，在Linux下，我们能够用ifconfig检察网上的统计信息，如果我们看到overrun上有数据，我们就能够必要调解一下txqueuelen的尺寸(通俗默觉得1000)，我们能够调大一些，如：ifconfig eth0 txqueuelen 5000。Linux下另有一个命令叫：ethtool能够用于设置网卡的缓冲区巨细。在Windows下，我们能够在网卡适配器中的高等选项卡中调解相关的参数(如：Receive Buffers, Transmit Buffer等，分歧的网卡有分歧的参数)。把Buffer调大对必要大数据量的收集传输非常有效。

D)别的收集机能

关于多路复用技艺，也就是用一个线程来管理一切的TCP链接，有三个体系挪用要重点注意：一个是select，这个体系挪用只撑持下限1024个链接，第二个是poll，其能够突破1024的限定，然则select和poll本质上是利用的轮询机制，轮询机制在链接多的时分机能很差，因主是O(n)的算法，以是，epoll出现了，epoll是操纵体系内核撑持的，仅当在链接活泼时，操纵体系才会callback，这是由操纵体系申报触发的，但其只要Linux Kernel 2.6今后才撑持(正确说是2.5.44中引入的)，虽然，如果一切的链接都是活泼的，过量的利用epoll_ctl能够会比轮询的体式款式还影响机能，不外影响的不大。

别的，关于一些和DNS Lookup的体系挪用要警惕，比如：gethostbyaddr/gethostbyname，这个函数能够会相称的费时，因为其要到收集上去找域名，因为DNS的递归查询，会招致严峻超时，而又不克不及经由历程设置甚么参数来设置time out，对此你能够经由历程设置装备摆设hosts文件来加疾速度，或是本身在内存中管理对应表，在步伐启动时查好，而不要在运转时每次都查。别的，在多线程下面，gethostbyname会一个更严峻的标题问题，就是如果有一个线程的gethostbyname发生梗阻，别的线程都邑在gethostbyname处发生梗阻，这个对照***，要警惕。(你能够试试GNU的gethostbyname_r()，这个的机能要好一些) 这类到网上找信息的工具良多，比如，如果你的Linux利用了NIS，或是NFS，某些用户或文件相关的体系挪用就很慢，以是要警惕。

4.4)体系调优

A)I/O模子

背面说到过select/poll/epoll这三个体系挪用，我们都知道，Unix/Linux下把一切的装备都当做文件来举行I/O，以是，那三个操纵更该当算是I/O相关的体系挪用。说到 I/O模子，这对我们的I/O机能相称主要，我们知道，Unix/Linux典范的I/O体式款式是(关于Linux下的I/O模子，大师能够读一下这篇文章《利用异步I/O大大前进机能》)：

第一种，同步梗阻式I/O，这个不说了。

第二种，同步无梗阻体式款式。其经由历程fctnl设置 O_NONBLOCK 来完成。

第三种，对select/poll/epoll这三个是I/O不梗阻，然则在事务上梗阻，算是：I/O异步，事务同步的挪用。

第四种，AIO体式款式。这类I/O 模子是一种处置与 I/O 并行的模子。I/O恳求会立刻前往，申明恳求已胜利建议了。在背景完成I/O操纵时，向利用步伐建议申报，申报有两种体式款式：一种是发生一个旌旗灯号，另外一种是履行一个基于线程的回调函数来完成此次 I/O 处置历程。

第四种因为没有任何的梗阻，不管是I/O上，还是事务申报上，以是，其能够让你丰裕地行使CPU，比起第二种同步无梗阻利益就是，第二种要你一遍一遍地去轮询。Nginx之所以是高效，是其利用了epoll和AIO的体式款式来举行I/O的。

再说一下Windows下的I/O模子，

a)一个是WriteFile体系挪用，这个体系挪用能够是同步梗阻的，也能够是同步无梗阻的，关于看文件是否是以Overlapped翻开的。关于同步无梗阻，必要设置其最月朔个参数Overlapped，微软叫Overlapped I/O，你必要WaitForSingleObject能力知道有没有写完成。这个体系挪用的机能不可思议。

b)另外一个叫WriteFileEx的体系挪用，其能够完成异步I/O，并能够让你传入一个callback函数，等I/O截至后回调之，然则这个回调的历程Windows是把callback函数放到了APC(Asynchronous Procedure Calls)的行列中，然后，只用当利用步伐以后线程成为可被申报状况(Alterable)时，才会被回调。只要当你的线程利用了这几个函数时WaitForSingleObjectEx, WaitForMultipleObjectsEx, MsgWaitForMultipleObjectsEx, SignalObjectAndWait 和 SleepEx，线程才会成为Alterable状况。可见，这个模子，还是有wait，以是机能也不高。

c)然后是IOCP – IO Completion Port，IOCP会把I/O的成效放在一个行列中，然则，侦听这个行列的不是主线程，而是专门来干这个事的一个或多个线程去干(老的平台要你本身建立线程，新的平台是你能够建立一个线程池)。IOCP是一个线程池模子。这个和Linux下的AIO模子对拍照似，然则完成体式款式和利用体式款式完全不一样。

虽然，真正前进I/O机能体式款式是把和外设的I/O的次数降到最低，最好没有，以是，对读来说，内存cache平常能够从质上提升机能，因为内存比外设快太多了。对写来说，cache住要写的数据，少写几回，然则cache带来的标题问题就是及时性的标题问题，也就是latency会变大，我们必要在写的次数上和响应上做衡量。

B)多核CPU调优

关于CPU的多核技艺，我们知道，CPU0是很症结的，如果0号CPU被用得过狠的话，别的CPU机能也会下落，因为CPU0是有调解功效的，以是，我们不克不及任由操纵体系负载均衡，因为我们本身更领会本身的步伐，以是，我们能够手动地为其分派CPU核，而不会过量地占用CPU0，或是让我们症结历程和一堆别的历程挤在一起。

• 对Windows来说，我们能够经由历程"义务管理器"中的"历程"而中右键菜单中的"设置相关性……"(Set Affinity…)来设置并限定这个历程能被运转在哪些核上。

• 对Linux来说，能够利用taskset命令来设置(你能够经由历程安装schedutils来安装这个命令：apt-get install schedutils)

多核CPU另有一个技艺叫NUMA技艺(Non-Uniform Memory Access)。传统的多核运算是利用SMP(Symmetric Multi-Processor )形式，多个处置器同享一个集合的存储器和I/O总线。因而就会出现分歧存储器接见的标题问题，分歧性平常意味着机能标题问题。NUMA形式下，处置器被划分红多个node，每个node有本身的本地存储器空间。关于NUMA的一些技艺细节，你能够检察一下这篇文章《Linux 的 NUMA 技艺》，在Linux下，对NUMA调优的命令是：numactl 。如下面的命令：(指定命令"myprogram arg1 arg2"运转在node 0 上，其内存分派在node 0 和 1上)

numactl --cpubind=0 --membind=0,1 myprogram arg1 arg2

虽然，下面这个命令并欠好，因为内存跨越了两个node，这非常欠好。最好的体式款式是只让步伐接见和本身运转一样的node，如：

$ numactl --membind 1 --cpunodebind 1 --localalloc myapplication

C)文件体系调优

关于文件体系，因为文件体系也是有cache的，以是，为了让文件体系有最大的机能。首要的事变就是分派充足大的内存，这个非常症结，在Linux下能够利用free命令来检察 free/used/buffers/cached，抱负来说，buffers和cached该当有40%阁下。然后是一个疾速的硬盘掌握器，SCSI会好良多。最快的是Intel SSD 固态硬盘，速度超快，然则写次数无限。

接上去，我们就能够调优文件体系设置装备摆设了，对Linux的Ext3/4来说，简直在一切情况下都有所协助的一个参数是封闭文件体系接见韶光，在/etc/fstab下看看你的文件体系有没有noatime参数(通俗来说该当有)，另有一个是dealloc，它能够让体系在最初时辰决议写入文件发生时利用哪一个块，可优化这个写入步伐。还要注间一下三种日记形式：data=journal、data=ordered和data=writeback。默许设置data=ordered供应机能和防护之间的最好均衡。

虽然，对这些来说，ext4的默许设置根基上是最好优化了。

这里先容一个Linux下的检察I/O的命令—— iotop，能够让你看到各历程的磁盘读写的负载情况。

别的另有一些关于NFS、XFS的调优，大师能够上谷歌搜刮一些相关优化的文章看看。关于各文件体系，大师能够看一下这篇文章——《Linux日记文件体系及机能理会》

4.5)数据库调优

数据库调优其实不是我的刚强，我就仅用我非常无限的常识说上一些吧。注意，下面的这些工具其实不确定精确，因为在分歧的营业场景，分歧的数据库设想下能够会获得完全相反的结论，以是，我仅在这里做一些通俗性的申明，详细标题问题还要详细理会。

A)数据库引擎调优

我对数据库引擎不是熟，然则有几个事变我觉得是确定要去领会的。

• 数据库的锁的体式款式。这个非常非常地主要。并发情况下，锁是非常非常影响机能的。各类断绝级别，行锁，表锁，页锁，读写锁，事务锁，和各类写优先还是读优先机制。机能最高的是不要锁，以是，分库分表，冗余数据，增添分歧性事务处置，能够有效地前进机能。NoSQL就是捐躯了分歧性和事务处置，并冗余数据，从而达到了分布式和高机能。

• 数据库的存储机制。不光要搞清晰各类范例字段是如何存储的，更主要的是数据库的数据存储体式款式，是如何分区的，是如何管理的，比如Oracle的数据文件，表空间，段，等等。领会清晰这个机制能够加重良多的I/O负载。比如：MySQL下利用show engines;能够看到各类存储引擎的撑持。分歧的存储引擎有分歧的侧重点，针对分歧的营业或数据库设想会让你有分歧的机能。

• 数据库的分布式计谋。最简朴的就是复制或镜像，必要领会分布式的分歧性算法，或是主主同步，主从同步。经由历程领会这类技艺的机理能够做到数据库级别的水平扩展。

B)SQL语句优化

关于SQL语句的优化，起首也是要利用工具，比如：MySQL SQL Query Analyzer，Oracle SQL Performance Analyzer，或是微软SQL Query Analyzer，根基上来说，一切的RMDB都邑有如许的工具，来让你检察你的利用中的SQL的机能标题问题。还能够利用explain来看看SQL语句终极Execution Plan会是甚么样的。

另有一点很主要，数据库的各类操纵必要大批的内存，以是就事器的内存要够，优其应对那些多表查询的SQL语句，那是相称的耗内存。

下面我按照我无限的数据库SQL的常识说几个会有机能标题问题的SQL：

• 全表检索。比如：select * from user where lastname = "***x"，如许的SQL语句根基上是全表查找，线性庞大度O(n)，纪录数越多，机能也越差(如：100条纪录的查找要50ms，一百万条纪录必要5分钟)。对这类情况，我们能够有两种要领前进机能：一种要领是分表，把纪录数降上去，另外一种要领是建索引(为lastname建索引)。索引就像是key-value的数据布局一样，key就是where背面的字段，value就是物理行号，对索引的搜刮庞大度是根基上是O(log(n)) ——用B-Tree完成索引(如：100条纪录的查找要50ms，一百万条纪录必要100ms)。

• 索引。对索引字段，最好不要在字段上做盘算、范例转换、函数、空值判定、字段毗连操纵，这些操纵都邑损坏索引本来的机能。虽然，索引通俗都呈今朝Where或是Order by字句中，以是对Where和Order by子句中的子段最好不要举行盘算操纵，或是加上甚么NOT之类的，或是利用甚么函数。

• 多表查询。干系型数据库最多的操纵就是多表查询，多表查询主要有三个症结字，EXISTS，IN和JOIN(关于各类join，能够参看图解SQL的Join一文)。根基来说，当代的数据引擎对SQL语句优化得都挺好的，JOIN和IN/EXISTS在成效上有些分歧，但机能根基上都差不多。有人说，EXISTS的机能要好于IN，IN的机能要好于JOIN，我大家觉得，这个还要看你的数据、schema和SQL语句的庞大度，对通俗的简朴的情况来说，都差不多，以是万万不要利用过量的嵌套，万万不要让你的SQL太庞大，宁可利用几个简朴的SQL也不要利用一个伟大非常的嵌套N级的SQL。另有人说，如果两个表的数据量差不多，Exists的机能能够会高于In，In能够会高于Join，如果这两个表一大一小，那末子查询中，Exists用大表，In则用小表。这个，我没有考证过，放在这里让大师接头吧。另，有一篇关于SQL Server的文章大师能够看看《IN vs JOIN vs EXISTS》

• JOIN操纵。有人说，Join表的挨次会影响机能，只需Join的成效集是一样，机能和join的次序有关。因为背景的数据库引擎会帮我们优化的。Join有三种完成算法，嵌套轮回，排序归并，和Hash式的Join。(MySQL只撑持第一种) • 嵌套轮回，就如同是我们罕见的多重嵌套轮回。注意，背面的索引说过，数据库的索引查找算法用的是B-Tree，这是O(log(n))的算法，以是，全部算法复法式该当是O(log(n)) * O(log(m)) 如许的。

• Hash式的Join，主要处置嵌套轮回的O(log(n))的庞大，利用一个暂且的hash表来标识表记标帜。

• 排序归并，意义是两个表按照查询字段排好序，然后再兼并。虽然，索引字段通俗是排好序的。

还是那句话，详细要看甚么样的数据，甚么样的SQL语句，你才知道用哪种要领是最好的。

• 部门成效集。我们知道MySQL里的Limit症结字，Oracle里的rownum，SQL Server里的Top都是在限定前几条的前往成效。这给了我们数据库引擎良多能够调优的空间。通俗来说，前往top n的纪录数据必要我们利用order by，注意在这里我们必要为order by的字段建立索引。有了被建索引的order by后，会让我们的select语句的机能不会被纪录数的所影响。利用这个技艺，通俗来说我们前台会以分页体式款式来展现数据，Mysql用的是OFFSET，SQL Server用的是FETCH NEXT，这类Fetch的体式款式真实并欠好是线性庞大度，以是，如果我们能够也许知道order by字段的第二页的肇端值，我们就能够在where语句里间接利用>=的表达式来select，这类技艺叫seek，而不是fetch，seek的机能比fetch要高良多。

• 字符串。正如我背面所说的，字符串操纵对机能上有非常大的恶梦，以是，能用数据的情况就用数字，比如：韶光，工号，等。

• 全文检索。万万不要用Like之类的工具来做全文检索，如果要玩全文检索，能够测验考试利用Sphinx。

• 别的。 • 不要select *，而是明白指出各个字段，如果有多个表，确定要在字段名前加上表名，不要让引擎去算。

• 不要用Having，因为其要遍历一切的纪录。机能差得不克不及再差。

• 尽能够地利用UNION ALL 取代 UNION。

• 索引过量，insert和delete就会越慢。而update如果update大都索引，也会慢，然则如果只update一个，则只会影响一个索引表。

本文公布于北京网站建立公司尚品中国http://www.sino-web.net/