利用索引提高SQL Server数据处理的效率
在良好的网站数据库设计基础上,能有效地使用索引是SQL Server取得高性能的基础,SQL Server采用基于代价的网站seo优化模型,它对每一个提交的有关表的查询,决定是否使用索引或用哪一个索引。,因为查询执行的大部分开销是磁盘I/O,使用索引提高性能的一个主要目标是避免全表扫描,因为全表扫描需要从磁盘上读表的每一个数据页,假如如果有索引指向数据值,则查询只需读几次磁盘就可以了。所以假如如果建立了合理的,一、聚簇索引(clustered indexes)的使用,聚簇索引是一种对磁盘上实际数据重新组织以按指定的一个或多个列的值排序。由于聚簇索引的索引页面指针指向数据页面,所以使用聚簇索引查找数据几乎总是比使用非聚簇索引快。每张表只能建一个聚簇索引,并且建聚簇索,1、大多数表都应该有聚簇索引或使用分区来降低对表尾页的竞争,在一个高事务的环境中,对最后一页的封锁严重影响系统的吞吐量。,2、在聚簇索引下,数据在物理上按顺序排在数据页上,重复值也排在一起,因而在那些包含范围检查(between、<、<=、>、>=)或使用group by或order by的查询时,一旦找到具有范围中第一,3、在一个频繁发生插入操作办法的表上建立聚簇索引时,不要建在具有单调上升值的列(如IDENTITY)上,否则会经常引起封锁冲突。,4、在聚簇索引中不要包含经常修改的列,因为码值修改后,数据行必须移动到新的位置。,5、选择聚簇索引应基于where子句和连接操作办法的类型。,聚簇索引的侯选列是:,1、主键列,该列在where子句中使用并且插入是随机的。,2、按范围存取的列,如pri_order > 100 and pri_order < 200。,3、在group by或order by中使用的列。,4、不经常修改的列。,5、在连接操作办法中使用的列。,二、非聚簇索引(nonclustered indexes)的使用,SQL Server缺省情况下建立的索引是非聚簇索引,由于非聚簇索引不重新组织表中的数据,而是对每一行存储索引列值并用一个指针指向数据所在的页面。换句话说非聚簇索引具有在索引结构和数据本身之间的一个额,1、索引需要使用多少空间。,2、合适的列是否稳定。,3、索引键是如何选择的,扫描效果是否更佳。,4、是否有许多重复值。,对更新频繁的表来说,表上的非聚簇索引比聚簇索引和根本没有索引需要更多的额外开销。对移到新页的每一行而言,指向该数据的每个非聚簇索引的页级行也必须更新,有时可能还需要索引页的分理。从一个页面删除数据的进,1、某列经常用的于集合函数(如Sum,....)。,2、某列经常用的于join,order by,group by。,3、查寻出的数据不超过表中数据量的20%。,三、覆盖索引(covering indexes)的使用,覆盖索引是指那些索引项中包含查寻所需要的全部信息的非聚簇索引,这种索引之所以比较快也正是因为索引页中包含了查寻所必须的数据,不需去访问数据页。假如如果非聚簇索引中包含结果数据,那么它的查询速度将快于聚簇索,但是由于覆盖索引的索引项比较多,要占用比较大的空间。而且update操作办法会引起索引值改变。所以假如如果潜在的覆盖查询并不经常用的或不太关键,则覆盖索引的增加反而会降低性能。,四、索引的选择技术,p_detail是住房公积金管理系统中记录个人明细的表,有890000行,观察在不同索引下的查询运行效果,测试在C/S环境下进行,客户机是IBM PII350(内存64M),是DEC Alpha100,1、 select count(*) from p_detail where,op_date>’19990101’ and op_date<’,19991231’ and pri_surplus1>300,2、 select count(*),sum(pri_surplus1) from p_detail,where op_date>’19990101’ and,pay_month between‘199908’ and’199912’,不建任何索引查询1 1分15秒,查询2 1分7秒,在op_date上建非聚簇索引查询1 57秒,查询2 57秒,在op_date上建聚簇索引查询1 <1秒,查询2 52秒,在pay_month、op_date、pri_surplus1上建索引查询1 34秒,查询2 <1秒,在op_date、pay_month、pri_surplus1上建索引查询1 <1秒,查询2 <1秒,从以上查询效果分析,索引的有无,建立相关方式的不同将会导致不同的查询效果,选择什么样的索引基于用户对数据的查询条件,这些条件体现于where从句和join表达式中。一般来说建立索引的思路是:,(1)主键时常作为where子句的条件,应在表的主键列上建立聚簇索引,尤其当经经常用的它作为连接的时候。,(2)有大量重复值且经常有范围查询和排序、分组发生的列,或者非常频繁地被访问的列,可考虑建立聚簇索引。,(3)经常同时存取多列,且每列都含有重复值可考虑建立复合索引来覆盖一个或一组查询,并把查询引用最频繁的列作为前导列,假如如果可能尽量使关键查询形成覆盖查询。,(4)假如如果知道索引键的所有值都是唯一的,那么确保把索引定义成唯一索引。,(5)在一个经常做插入操作办法的表上建索引时,使用fillfactor(填充因子)来减少页分裂,同时提高并发度降低死锁的发生。假如如果在只读表上建索引,则可以把fillfactor置为100。,(6)在选择索引键时,设法选择那些采用小数据类型的列作为键以使每个索引页能够容纳尽可能多的索引键和指针,通过这种相关方式,可使一个查询必须遍历的索引页面降到最小。此外,尽可能地使用整数为键值,因为它能够提,五、索引的维护,上面讲到,某些不合适的索引影响到SQL Server的性能,随着应用系统的运行,数据不断地发生变化,当数据变化达到某一个程度时将会影响到索引的使用。这时需要用户自己来维护索引。索引的维护包括:,1、重建索引,随着数据行的插入、删除和数据页的分裂,有些索引页可能只包含几页数据,另外应用在执行大块I/O的时候,重建非聚簇索引可以降低分片,维护大块I/O的效率。重建索引实际上是重新组织B-树空间。在下面情况下需,(1)数据和使用模式大幅度变化。,(2)排序的顺序发生改变。,(3)要进行大量插入操作办法或已经完成。,(4)使用大块I/O的查询的磁盘读次数比预料的要多。,(5)由于大量数据修改,使得数据页和索引页没有充分使用而导致空间的使用超出估算。,(6)dbcc检查出索引有问题。,当重建聚簇索引时,这张表的所有非聚簇索引将被重建。,2、索引统计信息的更新,当在一个包含数据的表上创建索引的时候,SQL Server会创建分布数据页来存放有关索引的两种统计信息:分布表和密度表。网站seo优化器利用这个页来判断该索引对某个特定查询是否有用。但这个统计信息并不动态地重新,(1)数据行的插入和删除修改了数据的分布。,(2)对用truncate table删除数据的表上增加数据行。,(3)修改索引列的值。,六、结束语,实践表明,不恰当的索引不但于事无补,反而会降低系统的执行性能。因为大量的索引在插入、修改和删除操作办法时比没有索引花费更多的系统时间。例如下面情况下建立的索引是不恰当的:,1、在查询中很少或从不引用的列不会受益于索引,因为索引很少或从来不必搜索基于这些列的行。,2、只有两个或三个值的列,如男性和女性(是或否),从不会从索引中得到好处。,另外,鉴于索引加快了查询速度,但减慢了数据更新速度的特点。可通过在一个段上建表,而在另一个段上建其非聚簇索引,而这两段分别在单独的物理设备上来改善操作办法性能
提高SQL执行效率的几点建议:
◆尽量不要在where中包含子查询;
关于时间的查询,尽量不要写成:where to_char(dif_date,'yyyy-mm-dd')=to_char('2007-07-01','yyyy-mm-dd');
◆在过滤条件中,可以过滤掉最大数量记录的条件必须放在where子句的末尾;
FROM子句中写在最后的表(基础表,driving table)将被最先处理,在FROM子句中包含多个表的情况下,您必须选择记录条数最少的表作为基础表。假如如果有三个以上的连接查询,那就需要选择交叉表(intersection table)作为基础表,交叉表是指那个被其他表所引用的表;
◆采用绑定变量
◆在WhERE中尽量不要使用OR
◆用EXISTS替代IN、用NOT EXISTS替代NOT IN;
◆避免在索引列上使用计算:WhERE SAL*12>25000;
◆用IN来替代OR: WhERE LOC_ID=10 OR LOC_ID=15 OR LOC_ID=20
◆避免在索引列上使用IS NULL和IS NOT NULL;
◆总是使用索引的第一个列;
◆用UNION-ALL替代UNION;
◆避免改变索引列的类型:SELECT...FROM EMP WhERE EMPNO='123',由于隐式数据类型转换,to_char(EMPNO)='123',因此,将不采用索引,一般在采用字符串拼凑动态SQL数据库语句出现;
◆'!=' 将不使用索引;
◆网站seo优化GROUP BY;
◆避免带有LIKE参数的通配符,LIKE '4YE%'使用索引,但LIKE '%YE'不使用索引
◆避免使用困难的正规表达式,例如select * from customer where zipcode like "98___",即便在zipcode上建立了索引,在这种情况下也还是采用顺序扫描的相关方式。假如如果把数据库语句改成select * from customer where zipcode>"98000",在执行查询时就会利用索引来查询,显然会大大提高速度;
◆尽量明确的完成SQL数据库语句,尽量少让网站数据库工作。比如写SELECT数据库语句时,需要把查询的字段明确指出表名。尽量不要使用SELECT *数据库语句。组织SQL数据库语句的时候,尽量按照网站数据库的习惯进行组织