【原创】基于ＧＰＵ的精确串匹配算法综述

摘要：精确串匹配是计算机领域的一个经典问题。在大数据时代，海量的数据给串匹配问题带来巨大的挑战。当前，ＧＰＵ的应用得到学术界和工业界的广泛关注，基于ＧＰＵ的串匹配算法研究已成为学术界的焦点。为展示近年的研究，综述了基于ＧＰＵ的精确串匹配技术，针对不同的算法和ＧＰＵ架构介绍精确串匹配技术在ＧＰＵ上的改进：不同算法的改进具有差异性，研究时需扩展具体算法，并比较上述算法的优缺点。最后对评测指标进行介绍，展望其发展趋势。
关键词：模式串匹配；精确串匹配；ＧＰＵ加速；计算统一装置结构

引言
精确串匹配问题是计算机领域的一个经典问题，它广泛应用于信息安全、文本检索和计算生物学等领域。著名的入侵检测系统Ｓｎｏｒｔ［１，２］包含多种规则匹配法，如ＢｏｙｅｒＭｏｏｒｅ（ＢＭ）、ＷｕＭａｎｂｅｒ（ＷＭ）和ＡｈｏＣｏｒａｓｉｃｋ（ＡＣ）算法。其中ＢＭ算法适合单模式串匹配，ＡＣ和ＷＭ算法适用于多模式串匹配。随着计算机网络的快速发展，需要处理的数据规模越来越大，因此在上述领域中对匹配效率的要求也越来越高。单纯基于软件的串匹配算法虽然实现上比较灵活，但其性能已经难以满足当前日益增长的网络需求。如何对大规模模式串进行实时匹配是目前工业界和学术界面临的严峻挑战。与此同时，随着并行计算机体系结构的蓬勃发展，学术界逐渐将串匹配问题的视点转向众核处理器或一些专用硬件设备，如ＧＰＵ、ＦＰＧＡ、ＴＣＡＭ（ｔｅｒｎａｒｙｃｏｎｔｅｎｔａｄｄｒｅｓｓａｂｌｅｍｅｍｏｒｙ）等。因此，研究并设计基于硬件的模式串匹配算法具有重要的理论价值和实际意义。在硬件实现方面，ＰＦＧＡ和ＴＣＡＭ具有一定局限性。文献［３］详细地对ＦＰＧＡ和ＴＣＡＭ两种硬件设备的优劣性进行了介绍。基于ＦＰＧＡ的串匹配方法存储空间有限，不能存储大规模的模式串；基于ＴＣＡＭ的串匹配方法对于长模式串的处理比较复杂，降低了匹配速度，同时硬件成本较高，耗能较大。基于ＧＰＵ的串匹配方法通常采用ＧＰＵ与ＣＰＵ相结合的异构计算架构，ＧＰＵ负责高度并行计算密度的任务，ＣＰＵ负责串行计算密度高、控制逻辑复杂的任务。因此不仅提高了计算能力，而且降低了成本、节约了资源，是当前高性能计算应用比较广泛的方法。ＧＰＵ具有并行计算的能力，它广泛应用于机械力学、数学计算、物理学、图像处理和字符串匹配等方面。

本文对基于ＧＰＵ的精确串匹配技术的研究进展进行了综述。根据不同的算法特征以及ＧＰＵ独特的架构特点对精确串匹配技术在ＧＰＵ上的改进进行介绍；对基于ＧＰＵ的精确串匹配算法的优缺点进行了总结。最后，介绍和分析研究中的性能指标，并对基于ＧＰＵ的串匹配技术的未来发展趋势进行了展望。

GPU简介
近年来，由Ｉｎｔｅｌ、ＩＢＭ、ＳＵＮ、ＡＭＤ等厂商生产的ＣＰＵ虽然有很大的发展，但是ＣＰＵ的性能提高速度却远远不能与２０世纪８０年代、９０年代初相比。ＰＵ显示出在单线程处理性能方面的限制，这些限制来自于功耗墙（ｐｏｗｅｒｗａｌｌ）、存储墙（ｍｅｍｏｒｙｗａｌｌ）、频率墙（ｆｒｅｑｕｅｎｃｙｗａｌｌ）和过低的指令级并行。ＧＰＵ的出现为算法设计和优化带来了新的契机。

在架构上ＧＰＵ和ＣＰＵ的差异十分明显。如图１［４］所示，ＣＰＵ采用复杂的控制逻辑，能适应复杂运算环境，大部分的晶体管用于构建控制电路和ｃａｃｈｅ，少部分晶体管完成实际运算工作；ＧＰＵ控制相对简单，对ｃａｃｈｅ的需求比较小，流处理器和显存控制器占据了绝大部分晶体管，主要负责大规模的密集型数据并行计算。ＧＰＵ的执行能力往往是ＣＰＵ的１０～１００倍［４］。

２００７年，ＮＶＩＤＩＡ［５］发布了ＣＵＤＡ（ｃｏｍｐｕｔｅｕｎｉｆｉｅｄｄｅｖｉｃｅａｒｃｈｉｔｅｃｔｕｒｅ）并行计算架构。ＣＵＤＡ并行计算架构采用一种新的通用并行编程接口，在Ｃ语言基础上添加了适用于ＧＰＵ并行计算的ＡＰＩ和开发库，能在ＧＰＵ强大计算能力基础上建立起效率更高的密集数据计算。ＣＵＤＡ中最基本的处理单元是流处理器ＳＰ（ｓｔｒｅａｍｐｒｏｃｅｓｓｏｒ）。最小的程序执行单位是ｔｈｒｅａｄ（线程），多个ｔｈｒｅａｄ组成一个ｂｌｏｃｋ（块），多个ｂｌｏｃｋ组成一个ｇｒｉｄ（网格），如图２［４］所示。同一个ｂｌｏｃｋ中的ｔｈｒｅａｄ可访问同一块共享存储器（ｓｈａｒｅｄｍｅｍｏｒｙ）。此外，ＧＰＵ的存
储器还有本地存储器（ｌｏｃａｌｍｅｍｏｒｙ），全局存储器（ｇｌｏｂａｌｍｅｍｏｒｙ）、纹理存储器（ｔｅｘｔｕｒｅｍｅｍｏｒｙ）、常量存储器（ｃｏｎｓｔａｎｔｓｍｅｍｏｒｙ）、寄存器（ｒｅｇｉｓｔｅｒ）等。

2基于GPU 的模式串匹配算法分类
近年来，关于在ＧＰＵ上实现串匹配算法的研究越来越多。文献［６］将ＢＦ、ＫＭＰ、ＢＭ和ＱｕｉｃｋＳｅａｒｃｈ几种在线的经典字符串匹配方法在ＧＰＵ设备中进行了实现。它采用了ＤＮＡ序列，文本数据直接存储在全局存储器中或共享存储器中，文中对不同算法的加速比进行了比较，得出无论实现在串行结构还是ＧＰＵ上的并行结构，运行时间都会随着文本大小、线程数目的不同而随之变化，当文本比较大、规则串比较小时，并行结果的加速比是串行的２４倍以上。在文献［７］中，为了检测癌症的
基因序列，简要对比了ＢＦ、ＢＭ、ＫＭＰ、ＭＳＭＰＭＡ、ＩＫＰＭＰＭ、ＥＰＭＳＰＰ算法和并行算法（ｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍ）的优劣，并行算法
以能并行计算、预处理时间最小的优势成为文中采用的算法，它将输入文本分为不同大小的ｃｈｕｎｋ，每个线程处理一个基因模式串，所以对一个ｃｈｕｎｋ可以并行匹配。文中指出随着基因模式串规模的增长，ＧＰＵ相比ＣＰＵ在匹配方面的时间几乎不增长，并行效果的加速比是串行设备的３０倍。传统的精确串匹配算法种类繁多，分类方法也不尽相同，根据文献［８］可分为单模式串匹配算法和多模式串匹配算法，单模式串匹配算法一次可以匹配一条规则，多模式串匹配算法一次可以匹配多条规则。单模式串匹配算法主要分为ＢＦ、ＫＭＰ、ＢＭ和Ｓｕｎｄａｙ等算法；多模式串匹配算法可以分为ＡＣ、ＷｕＭａｎｂｅｒ和ｈａｓｈ等一系列算法。在ＧＰＵ方面，上述算法近年来的发展历程如表１所示。

从表１中可以看出，基于ＧＰＵ的精确串匹配算法在最近六年中发展迅速，多种经典算法都在ＧＰＵ中得以实现。表２描述了ＡＣ算法在ＧＰＵ上的发展历程，该算法在近几年内发展飞速。本文将从单模式串匹配算法和多模式串匹配算法分别介绍各算法的具体发展和改进。在ＧＰＵ架构中改进方面介绍了利用共享内存和循环展开（ｌｏｏｐｕｎｒｏｌｌｉｎｇ）来进一步优化时间效率。

3基于GPU的单模式串匹配算法
基于ＧＰＵ的单模式匹配算法主要包括ＢＦ、ＢＭ、ＫＭＰ、Ｈａｓｈ等算法，以下根据近几年的文献进行了总结，从各算法的改进方向给予介绍'"

3.1基于GPU 的brute force,算法改进

Ｂｒｕｔｅｆｏｒｃｅ（蛮力，ＢＦ）算法是最简单的字符串匹配算法，其思想是从规则中的第一个字符开始向后匹配，直到遇到不匹配时，从文本串的下一个字符开始再进行匹配。它的优点是无须进行预处理，不需要多余的空间进行操作，时间复杂度是Ｏ（ｍｎ）。理论上算法性能远差于ＫＭＰ、ＢＭ、ＢＯＭ等，但在具体应用中，最坏情况极少出现，性能还是较优的。ＢＦ算法在ＣＰＵ中的实现机制较为简单。文献［１７］利用ＧＰＵ实现ＢＦ串匹配算法，优化改进是将其中的ｗｈｉｌｅ等循环控制语句转换为数值计算语句，实验对比了ＧＰＵ和ＣＰＵ上匹配时间。实验结果表明基于ＧＰＵ的并行算法能够取得较好的加速比，同时也给出了在现有ＧＰＵ架构上通用计算的瓶颈问题：在使用ＧＰＵ进行通用计算时，应当尽量减少在一个计算周期里读取纹理存储器（ｔｅｘｔｕｒｅｍｅｍｏｒｙ）的次数。文献［１８］为了高效率地对ＤＮＡ序列探测，采用了ＢＦ算法在ＧＰＵ上实现串匹配，指出基于ＧＰＵ的ＢＦ并行方法的性能要优于传统的串行算法。虽然蛮力算法思想比较简单，实践到ＧＰＵ上可以对文本任意位置开始进行匹配，而不必考虑“文本漏检”的问题，但是由于算法原始，在极端情况下性能低下。

基于GPU 的多模式串匹配算法
基于ＧＰＵ的多模式串匹配算法包括ＡＣ、ｓｕｆｆｉｘｔｒｅｅ、ＢＮＤＭ、ＺＺＬ等一系列算法，各算法的改进各不一样。其中对于ＡＣ和ＷＭ算法的改进种类繁多，下面将主要介绍ＡＣ和ＷＭ算法的改进，同时简要介绍其他算法的改进。

4.1基于GPU的AC算法改进
ＡＣ算法（ＡｈｏＣｏｒａｓｉｃｋａｌｇｏｒｉｔｈｍ）是多模式串匹配算法中比较成熟的一种，它对于文本串不进行回退操作，且能同时进行多模式串的匹配，建立一个ｔｒｉｅ树，从而实现对于多条文本串规则的匹配。现已成为常用的模式串查找算法，如著名的入侵检测系统Ｓｎｏｒｔ的核心就是基于ＡＣ算法。近期研究比较经典的是ＰＦＡＣ和GＡＣ算法，下面简要介绍各自的改进。

４１１基于ＧＰＵ的ＰＦＡＣ算法
文献［２８］中提出了ＰＦＡＣ（ｐａｒａｌｌｅｌｆａｉｌｕｒｅｌｅｓｓＡＣ）算法，主要思想是一个线程匹配文本串中每个比特，将其作为文本串的初始状态进行ＡＣ自动机的匹配，如图５所示。并且ＡＣ自动机去除了失效边，减少了转移边的数目。它具有以下几个优点：ａ）不存在对文本的依赖，可以从任意位置开始匹配，加大了吞吐量；ｂ）最坏和平均线程的生命周期很短，由于很多线程从开始进行匹配的时候是无效的转移状态，它们结束的时间很早；ｃ）删除了失效边使得内存占用比较小。

文中线程分配原则采用平均分配的方法，即若共有ｎ个线程、ｍ比特的数据流（ｍ能整除ｎ），那么每个线程分到ｍ／ｎ个比特，以第一个线程为例，它将定位在第０个位置，第ｎ个位置，第２ｎ个位置，第３ｎ个位置，…，第ｍ－ｎ个位置。结构上将ＡＣ自动机放在共享存储器中，并尽可能多地运用ＧＰＵ的线程。文献［３９］中为了减少对ｏｕｔｐｕｔ表的查询，对状态编号进行了重排，如图６所示。对于可接收状态（设总共有ｎ个），编号设置为１～ｎ，初始态设置为ｎ＋１，当查询到了状态编号小于ｎ＋１时，就到了可接收状态，即可匹配。与此同时，每次从全局存储器中同时取出ｎ个线程所需要的文本量来节省全局存储器访问带来的延迟。当数据规模达到２５６ＭＢ时ＰＦＡＣ算法实验结果的吞吐量能达到１４３．１６Ｇｂｐｓ。然而，ＰＦＡＣ算法也有其缺陷性，它应用的模式串长度较小，不适用于大数据规模的模式串；ＡＣ自动机状态数量多，没有作相应的压缩处理。

面对ＡＣ自动机状态数量多的缺陷，文献［４２］对ＰＦＡＣ的存储进行了改进，对ＡＣ自动机作定长压缩。具体的存储方式是将ＡＣ自动机存储采用特殊的方式，如图７所示，将原来的ＡＣ自动机按照宽度优先的原则进行顺序存储，每个状态包含三个结构：节点标号ｎｏｄｅ［］、偏移量ｏｆｆｓｅｔ和状态偏移值ｂｉｔｍａｐ［８］［３２］，２５６种转移状态用ｂｉｔｍａｐ来存储。由ｏｆｆｓｅｔ确定当前状态转移的第一个节点标号，其他转移节点标号由ｏｆｆｓｅｔ和ｂｉｔｍａｐ共同确定。下面举例说明：图７中规则给出了三条，对应的ＡＣ自动机中第一个节点为Ａ，子节点是Ｂ和Ｄ。Ａ转移状态先通过ｏｆｆｓｅｔ到达Ｂ，则为ｎｏｄｅ［３］，为了找第二个节点，增加了ｐｏｐｕｌａｔｉｏｎｃｏｕｎｔ操作，寻找当前在Ｄ（以ＡＳＣＩＩ码为准）之前的ｂｉｔｍａｐ中有ｉ个１，进行相加，即

ｃｕｒＮｏｄｅ＝ｃｕｒＮｏｄｅ→ｏｆｆｓｅｔ＋ｉ
上述改进的优点是比ＰＦＡＣ算法有效地降低了空间。当字符集是３２时，该算法能降低１８７％的空间，并能达到８Ｇｂｐｓ的吞吐量。缺点在于该算法在字母集（Σ）比较小的应用场景下表现得比较好，如果字符集太大，效果不明显。

４１２基于ＧＰＵ的ｇＡＣ算法
由于ＧＰＵ的ＳＰＭＤ机制中分支转移处理对性能的影响很大，所以文献［２９，３４］对ＡＣ自动机的ｆａｉｌｕｒｅ函数进行改进，即在匹配时不使用ｆａｉｌｕｒｅ函数来指示当失效时需转向的状态，而直接使用ｇｏｔｏ函数来完成ｆａｉｌｕｒｅ函数的功能，如图８和９所示。在

在文本数据结构上采取与３．２节一致的方法，将文本平均分配给每个线程，所不同的是每个线程分配的大小变为ｔｅｘｔＳｉｚｅＰＡＧＥＳＩＺＥ＋ｍａｘＰａｔｔｅｒｎＬｅｎｇｔｈ其中：ｔｅｘｔＳｉｚｅ为单个文本大小；ＰＡＧＥＳＩＺＥ为页面大小，一般为２ＫＢ，对于不足ＰＡＧＥＳＩＺＥ大小的文件或分割后的最后一页将
填充至ＰＡＧＥＳＩＺＥ；模式串的最大长度为ｍａｘＰａｔｔｅｒｎＬｅｎｇｔｈ，如图１０所示。每个页面的前８Ｂｙｔｅ为页面头，记录该页所在文本文件的ＩＤ号和偏移量ｏｆｆｓｅｔ。由于自动机状态占用空间比较大，所以模式串构成的自动机存储在纹理存储器中；匹配结果占用空间比较小，需要全局操作，故存储在全局存储器中；待匹配文本现分为一个个页面大小，将页面部分内容从全局存储器批量搬移到共享存储器中，匹配程序从共享存储器中读取。

ｇＡＣ算法的优点在于它使得ＡＣ自动机的结构发生了变化，分支转移操作减少，从而使得访问延迟大大减少。当模式串数目为２４００个、数据规模为８００ＭＢ时，ｇＡＣ算法的实验结果的并行匹配速度能达到５１Ｇｂｐｓ，是单机串行方法的２８倍。ｇＡＣ算法的缺点在于文本需要重叠，降低了吞吐量。

5GPU基于ＷｕＭａｎｂｅｒ的8*139(,) 算法改进
ＷｕＭａｎｂｅｒ算法是一种常用的多模式串匹配算法，它是ＢｏｙｅｒＭｏｏｒｅ［９］算法的一种派生形式，采用了ＢｏｙｅｒＭｏｏｒｅ算法的框架，使用长度为ｂ的字符块Ｂ（ｂｌｏｃｋｃｈａｒａｃｔｅｒ）而不是单个字符来计算坏字符（ｂａｄｃｈａｒａｃｔｅｒ）的距离表ＳＨＩＦＴ。此外，在进行匹配的时候，它用散列表ｈａｓｈ选择模式串集合中的一个子集与当前文本进行匹配验证，能减少运算。ＷｕＭａｎｂｅｒ算法的执行时间主要依赖模式串集合中最短的模式串长度，它不
会随着模式串集合大小的增加而成比例增长，其时间要远少于使用每一个模式串和ＢｏｙｅｒＭｏｏｒｅ算法对文本进行匹配的时间总和。文献［２２］介绍了ＧＷＭ的算法，它在ＧＰＵ上实现了ＷＭ算法。当模式串长度为３２、数目为３０００条时，所得性能是传统串行算法的１２倍左右；当模式串长度不相等、数目为５０００条时，所得性能是传统串行算法的１１．２倍。

文献首先将传统ｈａｓｈ链表设置为二维的，为防止哈希冲突添加了ｃｌａｓｈ表，如图１１所示。其中Ｂ值为２，所以共有６５５３６（２５６×２５６）个块字符，ｈａｓｈ表设置为ｈａｓｈ［６５５３６］［２］。ＦｉｒＰＩＤ是ｈａｓｈ表中哈希值为ｈ的第一条规则ＩＤ，ＬａｓｔＰＡＴ是哈希值仍为ｈ的最后一条规则ＩＤ。图３中展示了ｈａｓｈ过程，举例如下：哈希值为１的规则共有三条，分别是Ｐ３、Ｐ９、Ｐ３６。故ＦｉｒＰＩＤ＝Ｐ３，ＬａｓｔＰＡＴ＝１８，１８是在Ｃｌａｓｈ表中表示Ｐ３６的位置。Ｃｌａｓｈ表中的Ｐｒｅｖ代表与当前规则ｈａｓｈ值相同的前一条规则ＩＤ。Ｐｒｅｖ＝ｎｕｌｌ表示ｈａｓｈ值相同的本条规则的前一条规则在ｈａｓｈ表中的ＦｉｒＰＩＤ位置。

其次，在结构上将ｈａｓｈ表和Ｃｌａｓｈ表存储在纹理存储器中。文本采用３．２节的文本分割方法，将文本分割成一个个均等ｐａｇｅ。对于ｐａｇｅ的存储采用了两个版本，版本１是将ｐａｇｅ存储在全局存储器中，每个线程直接读取全局存储器中的内容；版本２是将文本ｐａｇｅ从全局存储器移到共享存储器中，每个线程都从共享存储器中读取数据。整体架构如图１２所示。

在ＧｅＦｏｒｃｅ９６００ＧＳＯ和ＧＴＸ５７０（计算能力分别为１．１和２．０）两种实验平台上对吞吐量进行比较，得出ＧＴＸ５７０比ＧｅＦｏｒｃｅ９６００ＧＳＯ的吞吐量更高。对于文本的不同存储，发现存储在全局存储器中的文本速度更快些。虽然片上共享存储器的访问速度比片下的全局存储器要快２０倍以上，但是数据从全局存储器移到共享存储器的通信代价比较大，从而吞吐量下降。

文献［２３］在Ｇｅｆｏｒｃｅ９８００ＧＴ上面也实现了ＷＭ算法ＧＰＵ的加速。文本数据处理与３．２节一致，文献在ＧＰＵ的优化方面为了节约内存带宽采取了从常量存储器读取数据，这样在某些情况下可以有效提高性能。与此同时，纹理存储器中的内容在芯片有缓存，并且是只读的，故能减少显存的请求有效提高带宽。实验中比较了不同大小的ｇｒｉｄ和ｂｌｏｃｋ分布对于加速比的影响，模式串数目在１００～２０００、长度在６～１７时，最低加速比仍能达到１０倍以上。当模式串数目为１０００个时，最佳加速比达到２０倍。

4.3 基于GPU的其他多模式串算法改进

除了以上介绍的多模式匹配算法外，还有很多其他多模式串匹配算法也在不断发展。文献［２４］利用后缀树方法进行并行匹配，应用在ＤＮＡ序列匹配方面。文献［３１］将位并行的算法运用在编辑距离（ｅｄｉｔｄｉｓｔａｎｃｅ［４４］）方面。实验结果表明当文本长度小于３７０００时，匹配速度ＧＰＵ比ＣＰＵ匹配速度要慢，当文本长度大于３７０００时，匹配速度ＧＰＵ要优于ＣＰＵ。原因是ＧＰＵ中有同步（ｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ）信号，会导致线程同步作用。因此当文本规模比较小的时候，ＧＰＵ的扫描文本速度小于ＣＰＵ。

文献［２６］对ＺＺＬ［１６］算法进行了并行改进，在ＧＰＵ上实现，并对其时间复杂度进行分析，主要将ＺＺＬ算法的预处理阶段和匹配阶段构造两个核函数在ＧＰＵ上实现。实验中文本数据选取蛋白质序列和ＤＮＡ序列，在ＧＰＵ上对改进后的ＺＺＬ和原ＺＺＬ的加速比进行了分析：在ＤＮＡ序列字符串匹配实验中，加速比在１１２．０～１１３．０；在蛋白质系列序列字符串匹配实验中，加速比在５６．７～５７．５。

文献［４５］中介绍了Ｓｕｎｄａｙ算法在ＧＰＵ上的实现。文中对文本串的处理与３．２节一致。实验结果表明并行的Ｓｕｎｄａｙ算法加速比是传统Ｓｕｎｄａｙ算法的三倍左右。文献［２５］在ＧＰＵ上实现了基于位并行技术的多模式串匹配算法ＭＢＮＤＭ（ｂａｃｋｗａｒｄｎｏｎｄｅｔｅｒｍｉｎｉｓｔｉｃｄａｗｇｍａｔｃｈｉｎｇ）。通过在ＣＰＵ上对需要处理的文本数据进行预处理，文本数据分割方式与３．２节一致，将串匹配的过程简化为更适合ＣＵＤＡ计算数据的位操作，随后在ＧＰＵ上完成匹配部分。利用ＧＰＵ可以使移植以后的位并行多模式串匹配算法与等同条件下的ＣＰＵ程序相比获得约１３倍的加速比。

5 基于gpu结构的算法改进
本章在ＡＣ算法的基础上，提出在ＧＰＵ架构方面上的改进。下面只针对ＧＰＵ架构方面进行介绍。Ｔｕｍｅｏ等人［３０］首先提出两点对于ＧＰＵ架构方面的瓶颈：ａ）分支操作要求在同一个ｗａｒｐ中的线程等待所有其他线程都结束后才能进行下一步操作，这使得性能降低，因此分支操作需要考虑ｗａｒｐ的粒度；ｂ）共享存储器中有体冲突（ｂａｎｋｃｏｎｆｌｉｃｔ）。为了解决ｂａｎｋｃｏｎｆｌｉｃｔ，需要在一次访存操作中对于一个ｗａｒｐ中的每个线程并行地读取相邻的内存单元的数据。此外，还有第三个问题是共享存储器受显存和存储控制器设计影响，只有按照对齐方式访问（ｃｏａｌｅｓｃｅｄｒｅａｄ）时才能获得最大带宽。以上三个问题在此后的研究中具有巨大意义，有很多研究者也基于这三个方面进行了相应改进。

由于ＧＰＵ的结构特性，在ＧＰＵ上面的优化主要是基于分支操作、共享存储器和全局存储器三个方面展开的，其中分支操作中主要是基于循环展开进行的优化；共享存储器主要是针对ｂａｎｋ冲突进行的优化，全局存储器主要针对对齐方式访问进行优化。

GPU分支操作方面

ＧＰＵ的分支操作对于性能影响很大，主要在于一个ｗａｒｐ中的线程需要等待所有其他线程都结束后才能进行下一步操作。分支操作主要针对ｉｆ、ｓｗｉｔｃｈ等条件语句和ｆｏｒ、ｗｈｉｌｅ等循环语句。对于条件语句，主要针对数据预处理的方式，使得分支操作结束在同一个周期内，例如文献［３３，３６～３８］就采用了数据预处
理的方式；对于循环语句，ＣＵＤＡ中有专门的关键字＃ｐｒａｇｍａｕｎｒｏｌｌ来进行优化，通常情况下会对循环展开和非循环展开进行对比，讨论其性能优劣，文献［１９］就是利用循环展开的方式优化的。分支操作是ＣＵＤＡ编程中难以避免的一个问题，实际中需根据具体的问题处理不同的情况，以避免其影响。

5.2 GPU共享存储器方面

文献［３５，４６］对ＧＰＵ共享存储器的ｂａｎｋ冲突进行了改进。为了解决ｂａｎｋ冲突问题，假设Ｓｔｈｒｅａｄ＝２２４，ｔＷｏｒｄ＝Ｓｔｈｒｅａｄ／４＝５６（Ｓｔｈｒｅａｄ为单个线程处理的比特数据，ｔＷｏｒｄ为单个线程处理的ｕｉｎｔ４数据，ｕｉｎｔ４是四维存储结构），则第ｔ个线程处理的数据在ｔ×ｔＷｏｒｄ位置。由于不能在同一个ｂａｎｋ中，即（ｔ×ｔＷｏｒｄ）ｍｏｄ１６不能在相同的位置，作者用引理证明当ｔＷｏｒｄ是奇数时，不会发生ｂａｎｋ冲突。

文献［３３，３６～３８］也意识到由于共享存储器是由多个ｍｅｍｏｒｙｂａｎｋ组成，每个ｂａｎｋ只能同时被一个线程访问，如果出现了同时访问，就会出现ｂａｎｋ冲突。为了解决ｂａｎｋ冲突问题，提出将数据访问时每次线程都是访问间隔１６个以后的数据，这样避免了两个线程同时处理相同数据的现象，如图１３和１４所示。

GPU 全局存储器方面
Ｔｕｍｅｏ等人［３０］对于对齐方式访问的问题提出了解决方案，原始方法中将输入的文本流平分，每个单元称之为块（ｃｈｕｎｋ），对于线程分配没有进行合并访问存储器，从图１５中可以看到每个线程是间隔访问的数据，不利于对齐访问数据，造成带宽降低、访问延迟变大。文中提出的改进方案首先将输入的文本顺序重排，使得线程访问能够符合合并访问的要求，然后将文本块分割为每四个字节为矩阵中一个单元的列模型，如图１６所示，所以每次访问时能够符合合并访问的要求，使得延迟最小。文献［２７］将这种方法应用在ＴＣＰ／ＩＰ包检测中，并且在ＧｅＦｏｒｃｅ９５００ＭＧＳ和ＴｅｓｌａＣ１０６０两种设备上做了ＧＰＵ并行实验，并与ＩｎｔｅｌＸｅｏｎＥ５３５进行了比较，得出加速比分别为２．８５和６．６７的结果。此后，作者在分布式和共享存储的并行结构中［３２］又作了进一步研究，比较了在不同硬件环境下的吞吐量。

文献［３３，３６～３８］等对ＧＰＵ分层存储器数据访问的改进，由于ＧＰＵ每次都是以半个线程束为单位同时进行的，为了减少从全局内存到共享内存的访问延迟，需要运用对齐方式访问的方法来一次性读取多个待匹配的文本数据到共享内存中，其结构可用图１７和１８表示。

优化后的方法将匹配数据从全局存储器转移到共享存储器中，发现采用对齐方式访问的方法比直接从全局存储器中取数据方法的加速比为７．３～１９．３，比在单个ＣＰＵ下的加速比为３６．１～２２２．０．最优吞吐量可以达到１２５Ｇｂｐｓ。

Ｚｈａ等人［３５，４６］对ＧＰＵ全局存储器的对齐访问也作了改进。ＴｅｓｌａＧＰＵ设备可以将半个线程束中的访问数据合并到一次事务中。合并技术经常发生在同一个线程束中多个线程访问连续的１２８Ｂｙｔｅ的情况下，当每个线程读取的字节多于１２８Ｂｙｔｅ，就会导致合并技术处于无效。由于每个线程先后读取的字节都不在相邻的单元中，所以每次事务只能访问有效字节数为１，带宽变为总的１／１２８。利用ｕｉｎｔ４的四维存储结构，一个线程每次读取４×４＝１６Ｂｙｔｅ，为了利用合并技术，每个线程访问的都是线程总数个之后的数据，相邻的线程访问的是相邻的数据，从而保证对齐访问的进行。

6 算法比较分析及评价指标
与传统的精确串匹配算法相比，基于ＧＰＵ的串匹配算法在性能上有着明显的优势，更适用于入侵检测系统、深度包检测等方面。本章将讨论各个算法的优劣性并对基于ＧＰＵ的精确串匹配技术的评价指标进行分析，便于研究人员参阅。

6.1 基于GPU的各算法优劣性比较
研究者对于算法的改进方式各有千秋，本文仅对前文中所列举的算法存在的优点和缺点进行了分析，详见表４。前文中３．２节提到过文本平均分割的方法，它能够使得各线程间防止出现文本漏检的情况，但是这种文本重叠的现象也使得算法吞吐量降低，线程的平均负载文本量减小。前文中介绍的ＫＭＰ、ＷｕＭａｎｂｅｒ、ｈａｓｈ、ｇＡＣ、ＢＮＤＭ、ＺＺＬ等算法改进都存在文本重叠的现象。类似ＢＦ、ＰＦＡＣ、ＰＦＡＣｃｏｍｐｒｅｓｓｉｏｎ等算法中对文本数据不存在依赖性，能从文本数据的任意位置进行读取，吞吐量相对来说比较高。从表４可以看出各算法的优缺点，这些优势与劣势对今后的研究能起到一定的启发作用。针对算法的优势，可以在ＧＰＵ平台上有效加以利用；针对劣势，可以找出方法降低劣势带来的影响。总之，多种算法的优势和劣势可以指引今后研究中有针对性地进行扩展。

6.2评价指标方面
基于ＧＰＵ的精确串匹配算法的评价指标根据文献的不同而具有差异性。根据文献归纳，主要有两个方面的评价指标：ａ）吞吐量，是指一段时间内测量出来的系统单位时间处理的任务数或事务数，在文献中所给出的单位基本上是Ｇｂｐｓ或者Ｍｂｐｓ。对于吞吐量来说需要考虑主机端到设备端的延迟时间、设备端到主机端的延迟时间以及在ＧＰＵ执行时的吞吐量。对于不同的ＧＰＵ设备来说，上述的参数会略有不同，在进行实验时需要考虑以上的因素所带来的影响。文献［２８，３９］中就考虑了延迟带来的影响。

ｂ）加速比，主要将并行算法和串行算法的执行时间作为比值，从而得出并行算法的加速倍数。在进行性能分析时，常常利用线程数目、文本规模大小与吞吐量或者时间进行对照，分析实验性能。
此外，ＧＰＵ中不同的存储器结构对于性能影响很大，表５列出了ｇｒｉｄ、ｂｌｏｃｋ和ｔｈｒｅａｄ各自可访问的存储器结构。其中，全局存储器、纹理存储器空间比较大，适合存储文本数据，全局存储器访问延迟较大，往往对文本数据存储位置进行优化处理；寄存器、本地存储器空间比较小，可存储线程间的私有变量；共享存储器可存储块ｂｌｏｃｋ之间的私有变量，比寄存器和本地存储器要大一些，但空间有限，延迟比较小，在模式串规模不是很大的情况下存储在其中较为合适；常量存储器访问延迟也比较大，通常将内核函数的形参放入其中。

所以存储器结构不同，产生的访问延迟也不同，文献中文本数据和模式串数据如何分布到不同的存储器结构上也是影响性能指标的重要因素之一。

结束语

本文总结了近年来在ＧＰＵ上基于ＣＵＤＡ模型实现的精确串匹配的算法。总体来说，由于算法之间的差异性，不同的算法改进方式也各不相同。本文介绍了经典的几种基于ＧＰＵ的串匹配算法的改进方式，并且针对ＧＰＵ的结构特性列举了具体的改进方法，最后对于算法的优劣和应用现状作了简要介绍，并对其中的评价指标进行了分析。下一步工作将从两个方面展开：

ａ）从本文中可以得出对于ＧＰＵ的结构，需要考虑共享存储器的ｂａｎｋ冲突、分支操作和全局存储器的对齐访问模式三个方面的改进。对于具体的串匹配算法改进形式多样，研究者可根据具体算法进行扩展。与此同时，也要注意ＧＰＵ的存储器结构是否能负载模式串或文本数据的规模，根据存储器的分层结构进行具体优化。

结构进行具体优化。
ｂ）针对基于ＧＰＵ的精确串匹配算法的改进并不仅仅利用ＣＵＤＡ模型，对于ＯｐｅｎＣＬ、ＯｐｅｎＧＬ、ＯｐｅｎＭＰ、ＭＰＩ等利用ＣＰＵ和ＧＰＵ混合的方法也层出不穷，研究者可针对上述ＧＰＵ混合的模式实现多样性并行匹配。面对新型ＧＰＵ设备的逐步更新换代，如何应对新型ＧＰＵ结构、如何应用ＧＰＵ的新技术（如ｚｅｒｏｃｏｐｙ、ＨｙｐｅｒＱ技术等）这些问题都面临着巨大的挑战。本文所列举的性能仅仅是针对单台ＧＰＵ设备或者多台ＧＰＵ设备分别实践所得出的，如何面对多台ＧＰＵ相互协作这一工作模式也是研究者亟需解决的一大问题.

结束语
本文对各种基于ＧＰＵ的串匹配算法进行了回顾，包括单模式串、多模式串等，介绍了基本原理以及在ＧＰＵ上的改进。最后比较了各算法的优缺点，并对算法进行了总结与展望。

参考文献：

［１］Ｓｎｏｒｔ公司．Ｓｎｏｒｔ［ＥＢ／ＯＬ］．［２０１５１１０１］．ｈｔｔｐｓ：／／ｗｗｗ．ｓｎｏｒｏｒｇ／．

［２］ＫｈａｒｂｕｔｌｉＭ，ＡｌｄｗａｉｒｉＭ，ＭｕｇｈｒａｂｉＡ．ＦｕｎｃｔｉｏｎａｎｄｄａｔａｐａｒａｌｌｅｌｉｚａｔｉｏｎｏｆＷｕＭａｎｂｅｒｐａｔｔｅｒｎｍａｔｃｈｉｎｇｆｏｒｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｓ［Ｊ］．ＮｅｔｗｏｒｋＰｒｏｔｏｃｏｌｓａｎｄＡｌｇｏｒｉｔｈｍｓ，２０１２，４（３）：４６６１．
［３］李伟男，鄂跃鹏，葛敬国，等．多模式匹配算法及硬件实现［Ｊ］．软件学报，２００６，１７（１２）：２４０３２４１５．
［４］ＫｉｒｋＤＢ，ＨＷｕＷＭ．大规模并行处理器编程实战［Ｍ］．陈曙辉，
熊淑华，译．北京：清华大学出版社，２０１０．
［５］ＮＶＩＤＩＡ公司．ＮＶＩＤＩＡ［ＥＢ／ＯＬ］．［２０１５１１０１］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｎ／ｐａｇｅ／ｈｏｍｅ．ｈｔｍｌ．
［６］ＫｏｕｚｉｎｏｐｏｕｌｏｓＣＳ，ＭａｒｇａｒｉｔｉｓＫＧ．ＳｔｒｉｎｇｍａｔｃｈｉｎｇｏｎａｍｕｌｔｉｃｏｒｅＧＰＵｕｓｉｎｇＣＵＤＡ［Ｃ］／／ＶａｓｓｉｌｉｏｓＣ，ＮｉｋｏｌａｏｓＡ，ＣｈｒｉｓｔｏｓＤ，ｅｔａｌ．Ｐｒｏｃｏｆｔｈｅ１３ｔｈＰａｎｈｅｌｌｅｎｉｃＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｃｓ．ＷａｓｈｉｎｇｔｏｎＤＣ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００９：１４１８．
［７］ＮａｇａｖｅｎｉＶ，ＲａｊｕＧＴ．ＶａｒｉｏｕｓｓｔｒｉｎｇｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒＤＮＡｓｅｑｕｅｎｃｅｓｔｏｄｅｔｅｃｔｂｒｅａｓｔｃａｎｃｅｒｕｓｉｎｇＣＵＤＡ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＥｎｇｉｎｅｅｒｉｎｇ＆Ｔｅｃｈｎｏｌｏｇｙ，２０１４，１4（３）：４２．
［８］ＮａｖａｒｒｏＧ，ＲａｆｆｉｎｃｅＭ．柔性字符串匹配［Ｍ］．中科院计算所网络信息安全研究组，译．北京：电子工业出版社，２００２．
［９］ＢｏｙｅｒＲＳ，ＭｏｏｒｅＪＳ．Ａｆａｓｔｓｔｒｉｎｇｓｅａｒｃｈｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，１９７７，２０（１０）：７６２７７２．
［１０］ＫｎｕｔｈＤＥ，ＪｒＭｏｒｒｉｓＪＨ，ＰｒａｔｔＶＲ．Ｆａｓｔｐａｔｔｅｒｎｍａｔｃｈｉｎｇｉｎｓｔｒｉｎｇｓ［Ｊ］．ＳＩＡＭＪｏｕｒｎａｌｏｎＣｏｍｐｕｔｉｎｇ，１９７７，６（２）：３２３３５０．
［１１］ＫａｒｐＲＭ，ＲａｂｉｎＭＯ．Ｅｆｆｉｃｉｅｎｔｒａｎｄｏｍｉｚｅｄｐａｔｔｅｒｎｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｓ［Ｊ］．ＩＢＭＪｏｕｒｎａｌｏｆＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，１９８７，３１
（２）：２４９２６０．
［１２］ＡｈｏＡＶ，ＣｏｒａｓｉｃｋＭＪ．Ｅｆｆｉｃｉｅｎｔｓｔｒｉｎｇｍａｔｃｈｉｎｇ：ａｎａｉｄｔｏｂｉｂｌｉｏｇｒａｐｈｉｃｓｅａｒｃｈ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，１９７５，１８（６）：３３３３４０．
［１３］ＷｕＳｕｎ，ＭａｎｂｅｒＵ．Ａｆａｓｔａｌｇｏｒｉｔｈｍｆｏｒｍｕｌｔｉｐａｔｔｅｒｎｓｅａｒｃｈｉｎｇ，ＴＲ９４１７［Ｒ］．Ｔｕｃｓｏｎ：ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＵｎｉｖｅｒｓｉｔｙｏｆＡｒｉｚｏｎａ，１９９４．
［１４］ＭｃＣｒｅｉｇｈｔＥＭ．Ａｓｐａｃｅｅｃｏｎｏｍｉｃａｌｓｕｆｆｉｘｔｒｅｅｃｏｎｓｔｒｕｃｔｉｏｎａｌｇｏｒｉｔｈｍ
［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ，１９７６，２３（２）：２６２２７２．
［１５］ＮａｖａｒｒｏＧ，ＲａｆｆｉｎｏｔＭ．Ｆａｓｔａｎｄｆｌｅｘｉｂｌｅｓｔｒｉｎｇｍａｔｃｈｉｎｇｂｙｃｏｍｂｉ
ｎｉｎｇｂｉｔｐａｒａｌｌｅｌｉｓｍａｎｄｓｕｆｆｉｘａｕｔｏｍａｔａ［Ｊ］．ＪｏｕｒｎａｌｏｆＥｘｐｅｒｉｍｅｎｔａｌＡｌｇｏｒｉｔｈｍｉｃｓ，２０００，５（４）：２０００．．
［１６］纪福全，朱战立．一种可做特殊用途的字符串匹配算法［Ｊ］．计算机与信息技术，２００６，２００６（８）：０２８．
［１７］张庆丹，戴正华，冯圣中，等．基于ＧＰＵ的串匹配算法研究［Ｊ］．计算机应用，２００６，２６（７）：１７３５１７３７．
［１８］ＳｈｉｒｕｄｅＲ，ＮｉｋａｍＶＢ，ＭｅｓｈｒａｍＢＢ．ＰｅｒｆｏｒｍａｎｃｅｅｆｆｉｃｉｅｎｔＤＮＡｓｅ
ｑｕｅｎｃｅｄｅｔｅｃｔｉｏｎｏｎＧＰＵｕｓｉｎｇｐａｒａｌｌｅｌｐａｔｔｅｒｎｍａｔｃｈｉｎｇａｐｐｒｏａｃｈ
［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｉｅｓ，２０１４，５（４）：５３８０５３８５．
［１９］ＢｅｌｌｅｋｅｎｓＸ，ＡｎｄｏｎｏｖｉｃＩ，ＡｔｋｉｎｓｏｎＲＣ，ｅｔａｌ．ＩｎｖｅｓｔｉｇａｔｉｏｎｏｆＧＰＵｂａｓｅｄｐａｔｔｅｒｎｍａｔｃｈｉｎｇ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１４ｔｈＡｎｎｕａｌＰｏｓｔＧｒａｄｕａｔｅＳｙｍｐｏｓｉｕｍｏｎＣｏｎｖｅｒｇｅｎｃｅｏｆＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，ＮｅｔｗｏｒｋｉｎｇａｎｄＢｒｏａｄｃａｓｔｉｎｇ．２０１３．
［２０］ＨｕｎｇＣＬ，ＷａｎｇＨＨ，ＣｈａｎｇＣＹ，ｅｔａｌ．ＥｆｆｉｃｉｅｎｔｐａｃｋｅｔｐａｔｔｅｒｎｍａｔｃｈｉｎｇｆｏｒｇｉｇａｂｉｔｎｅｔｗｏｒｋｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｕｓｉｎｇＧＰＵｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎ＆ｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｂｅｄｄｅｄＳｏｆｔｗａｒｅａｎｄＳｙｓｔｅｍｓ．２０１２：１６１２１６１７．
［２１］ＨｕｎｇＣＬ，ＬｉｎＣＹ，ＷａｎｇＨＨ．ＡｎｅｆｆｉｃｉｅｎｔｐａｒａｌｌｅｌｎｅｔｗｏｒｋｐａｃｋｅｔｐａｔｔｅｒｎｍａｔｃｈｉｎｇａｐｐｒｏａｃｈｕｓｉｎｇＧＰＵｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｙｓｔｅｍｓＡｒｃｈｉｔｅｃｔｕｒｅ，２０１４，６０（５）：４３１４３９．
［２２］ＸｕＤｏｎｇｌｉａｎｇ，ＺｈａｎｇＨｏｎｇｌｉ，ＦａｎＹｕｊｉａｎ．ＴｈｅＧＰＵｂａｓｅｄｈｉｇｈｐｅｒｆｏｒｍａｎｃｅｐａｔｔｅｒｎｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ９，２０１３，２０１３（１０）：３７９１３８００．
［２３］马计，王国平，杨明．基于ＣＵＤＡ的ＷｕＭａｎｂｅｒ多模式匹配算法［Ｊ］．计算机系统应用，２０１２，２１（３）：５１５４．
［２４］ＳｃｈａｔｚＭＣ，ＴｒａｐｎｅｌｌＣ．ＦａｓｔｅｘａｃｔｓｔｒｉｎｇｍａｔｃｈｉｎｇｏｎｔｈｅＧＰＵ，Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ［ＥＢ／ＯＬ］．（２００７０５０８）．ｈｔｔｐ：／／ｍ．ｇｐｕｃｏｍｐｕｔｉｎｇ．ｎｅｔ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｐａｐｅｒｓ／３１５２／Ｃｍａｔｃｈ．ｐｄｆ．
［２５］赵光南，吴承荣．基于ＧＰＵ的位并行多模式串匹配研究［Ｊ］．计算机工程，２０１１，３７（１４）：２６５２６７．
［２６］谷岳，谷建华．基于ＧＰＵ加速的并行字符串匹配算法［Ｊ］．微电子学与计算机，２０１３，３０（９）：３０３３．
［２７］ＴｕｍｅｏＡ，ＶｉｌｌａＯ，ＳｃｉｕｔｏＤ．ＥｆｆｉｃｉｅｎｔｐａｔｔｅｒｎｍａｔｃｈｉｎｇｏｎＧＰＵｓｆｏｒｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ７ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｉｎｇＦｒｏｎｔｉｅｒｓ．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，２０１０：８７８８．
［２８］ＬｉｎＣＨ，ＴｓａｉＳＹ，ＬｉｕＣＨ，ｅｔａｌ．ＡｃｃｅｌｅｒａｔｉｎｇｓｔｒｉｎｇｍａｔｃｈｉｎｇｕｓｉｎｇｍｕｌｔｉｔｈｒｅａｄｅｄａｌｇｏｒｉｔｈｍｏｎＧＰＵ［Ｃ］／／ＰｒｏｃｏｆＧｌｏｂａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ．２０１０：１５．
［２９］ＰｅｎｇＪｉａｎｇｈｕ，ＣｈｅｎＨｕ，ＳｈｉＳｈａｏｈｕａｉ．ＴｈｅＧＰＵｂａｓｅｄｓｔｒｉｎｇｍａｔｃｈｉｎｇｓｙｓｔｅｍｉｎａｄｖａｎｃｅｄＡＣａｌｇｏｒｉｔｈｍ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ．２０１０：１１５８１１６３．
［３０］ＴｕｍｅｏＡ，ＳｅｃｃｈｉＳ，ＶｉｌｌａＯ．Ｅｘｐｅｒｉｅｎｃｅｓｗｉｔｈｓｔｒｉｎｇｍａｔｃｈｉｎｇｏｎｔｈｅｆｅｒｍｉａｒｃｈｉｔｅｃｔｕｒｅ［Ｃ］／／ＭｌａｄｅｎＢ，ＷｉｌｌｉａｍＦ，ＵｗｅＢ，ｅｔａｌ．Ｐｒｏｃｏｆｔｈｅ２４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｃｈｉｔｅｃｔｕｒｅｏｆＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１１：２６３７．
［３１］ＹａｎｇＣ，ＺｈａｎｇＫ．Ｐａｒａｌｌｅｌａｐｐｒｏａｃｈｅｓｔｏｅｄｉｔｄｉｓｔａｎｃｅａｎｄａｐｐｒｏｘｉｍａｔｅｓｔｒｉｎｇｍａｔｃｈｉｎｇ［ＥＢ／ＯＬ］．（２０１４０５１０）［２０１５１１０１］．ｈｔ
ｔｐ：／／ｃａｒｙｙａｎｇ．ｍｅ／ｅｄｉｔｄｉｓｔａｎｃｅ／ｆｉｎａｌｐａｒａｌｌｅｌｅｄｉｔ．ｐｄｆ．
［３２］ＴｕｍｅｏＡ，ＶｉｌｌａＯ，ＣｈａｖａｒｒíａＭｉｒａｎｄａＤＧ．ＡｈｏＣｏｒａｓｉｃｋｓｔｒｉｎｇｍａｔｃｈｉｎｇｏｎｓｈａｒｅｄａｎｄｄｉｓｔｒｉｂｕｔｅｄｍｅｍｏｒｙｐａｒａｌｌｅｌａｒｃｈｉｔｅｃｔｕｒｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍｓ，２０１２，２３（３）：４３６４４３．
［３３］ＴｒａｎＮＰ，ＬｅｅＭ，ＨｏｎｇＳ，ｅｔａｌ．ＭｅｍｏｒｙｅｆｆｉｃｉｅｎｔｐａｒａｌｌｅｌｉｚａｔｉｏｎｆｏｒＡｈｏＣｏｒａｓｉｃｋａｌｇｏｒｉｔｈｍｏｎａＧＰＵ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎ＆ｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｂｅｄｄｅｄＳｏｆｔｗａｒｅａｎｄＳｙｓｔｅｍｓ．
２０１２：４３２４３８．
［３４］陈虎，彭江锋，施少怀．ｇＡＣ：基于ＧＰＵ的高性能ＡＣ算法［Ｊ］．计算机工程与应用，２０１２，４８（１２）：４３４８．
［３５］ＺｈａＸ，ＳａｈｎｉＳ．ＧＰＵｔｏＧＰＵａｎｄｈｏｓｔｔｏｈｏｓｔｍｕｌｔｉｐａｔｔｅｒｎｓｔｒｉｎｇｍａｔｃｈｉｎｇｏｎａＧＰＵ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＣｏｍｐｕｔｅｒｓ，２０１３，６２（６）：１１５６１１６９．
［３６］ＴｒａｎＮＰ，ＬｅｅＭ，ＨｏｎｇＳ，ｅｔａｌ．ＰｅｒｆｏｒｍａｎｃｅｏｐｔｉｍｉｚａｔｉｏｎｏｆＡｈｏＣｏｒａｓｉｃｋａｌｇｏｒｉｔｈｍｏｎａＧＰＵ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１２ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＴｒｕｓｔ，ＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙｉｎＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ．２０１３：１１４３１１５２．
［３７］ＴｒａｎＮＰ，ＬｅｅＭ，ＨｏｎｇＳ，ｅｔａｌ．ＨｉｇｈｔｈｒｏｕｇｈｐｕｔｐａｒａｌｌｅｌｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＡｈｏＣｏｒａｓｉｃｋａｌｇｏｒｉｔｈｍｏｎａＧＰＵ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ２７ｔｈ
ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇ＆ＰｈＤ
Ｆｏｒｕｍ．２０１３：１８０７１８１６．
［３８］ＴｒａｎＮＰ，ＬｅｅＭ．Ｈｉｇｈｐｅｒｆｏｒｍａｎｃｅｓｔｒｉｎｇｍａｔｃｈｉｎｇｆｏｒｓｅｃｕｒｉｔｙａｐｐｌｉｃａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｏｆ２０１３ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩＣＴｆｏｒＳｍａｒｔＳｏｃｉｅｔｙ．２０１３：１５．
［３９］ＬｉｎＣＨ，ＬｉｕＣＨ，ＣｈｉｅｎＬＳ，ｅｔａｌ．ＡｃｃｅｌｅｒａｔｉｎｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇｕｓｉｎｇａｎｏｖｅｌｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍｏｎＧＰＵｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＣｏｍｐｕｔｅｒｓ，２０１３，６２（１０）：１９０６１９１６ＴｒａｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２００１，１０（２）：２６６２７７．［４３］郝家胜．基于几何流的医学图像分割方法及其应用研究［Ｄ］．哈
尔滨：哈尔滨工业大学，２００８．
［４４］贾同，魏颖，吴成东．基于几何形变模型的三维肺血管图像分割方
法［Ｊ］．仪器仪表学报，２０１０，３１：２２９６２３０１．
［４５］ＡｇａｍＧ，ＡｒｍａｔｏＳＧＩ，ＷｕＣ．ＶｅｓｓｅｌｔｒｅｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｉｎｔｈｏｒａｃｉｃＣＴｓｃａｎｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｎｏｄｕｌｅｄｅｔｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００５，２４（４）：４８６４９９．
［４６］ＦｒａｎｇｉＡＦ，ＮｉｅｓｓｅｎＷＪ，ＶｉｎｃｋｅｎＫＬ，ｅｔａｌ．Ｍｕｌｔｉｓｃａｌｅｖｅｓｓｅｌｅｎｈａｎｃｅｍｅｎｔｆｉｌｔｅｒｉｎｇ［Ｃ］／／ＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔａｔｉｏｎ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，１９９８：１３０１３７．
［４７］尚岩峰，汪辉，汪宁，等．管状特性和主动轮廓的３维血管自动提取［Ｊ］．中国图象图形学报，２０１３，１８（３）：２９０２９８．
［４８］ＫｏｒｆｉａｔｉｓＰＤ，ＫａｌｏｇｅｒｏｐｏｕｌｏｕＣ，ＫａｒａｈａｌｉｏｕＡＮ，ｅｔａｌ．ＶｅｓｓｅｌｔｒｅｅｓｅｇｍｅｎｔａｔｉｏｎｉｎｐｒｅｓｅｎｃｅｏｆｉｎｔｅｒｓｔｉｔｉａｌｌｕｎｇｄｉｓｅａｓｅｉｎＭＤＣＴ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙｉｎＢｉｏｍｅｄｉｃｉｎｅ，２０１１，１５
（２）：２１４２２０．
［４９］ＫｕｈｎｉｇｋＪＭ，ＨａｈｎＨ，ＨｉｎｄｅｎｎａｃｈＭ，ｅｔａｌ．Ｌｕｎｇｌｏｂｅｓｅｇｍｅｎｔａｔｉｏｎｂｙａｎａｔｏｍｙｇｕｉｄｅｄ３Ｄｗａｔｅｒｓｈｅｄｔｒａｎｓｆｏｒｍ［Ｃ］／／ＰｒｏｃｏｆＳＰＩＥ，ＭｅｄｉｃａｌＩｍａｇｉｎｇ：ＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＯｐｔｉｃｓａｎｄＰｈｏｔｏｎｉｃｓ．２００３：１４８２１４９０．v

［５０］ＵｋｉｌＳ，ＲｅｉｎｈａｒｄｔＪＭ．ＡｎａｔｏｍｙｇｕｉｄｅｄｌｕｎｇｌｏｂｅｓｅｇｍｅｎｔａｔｉｏｎｉｎＸ
ｒａｙＣＴｉｍａｇｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００９，２８（２）：２０２２１４．
［５１］ＶａｎＲｉｋｘｏｏｒｔＥＭ，ＤｅＨｏｏｐＢ，ＶａｎｄｅＶｏｒｓｔＳ，ｅｔａｌ．ＡｕｔｏｍａｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｓｅｇｍｅｎｔｓｆｒｏｍｖｏｌｕｍｅｔｒｉｃｃｈｅｓｔＣＴｓｃａｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００９，２８（４）：６２１６３０．
［５２］ＺｈａｎｇＬｉ，ＨｏｆｆｍａｎＥＡ，ＲｅｉｎｈａｒｄｔＪＭ．ＡｔｌａｓｄｒｉｖｅｎｌｕｎｇｌｏｂｅｓｅｇｍｅｎｔａｔｉｏｎｉｎｖｏｌｕｍｅｔｒｉｃＸｒａｙＣＴｉｍａｇｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００６，２５（１）：１１６．
［５３］ＶａｎＲｉｋｘｏｏｒｔＥＭ，ＰｒｏｋｏｐＭ，ＤｅＨｏｏｐＢ，ｅｔａｌ．Ａｕｔｏｍａｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｌｏｂｅｓｒｏｂｕｓｔａｇａｉｎｓｔｉｎｃｏｍｐｌｅｔｅｆｉｓｓｕｒｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２０１０，２９（６）：１２８６１２９６．
［５４］ＤｉｃｉｏｔｔｉＳ，ＬｏｍｂａｒｄｏＳ，ＦａｌｃｈｉｎｉＭ，ｅｔａｌ．ＡｕｔｏｍａｔｅｄｓｅｇｍｅｎｔａｔｉｏｎｒｅｆｉｎｅｍｅｎｔｏｆｓｍａｌｌｌｕｎｇｎｏｄｕｌｅｓｉｎＣＴｓｃａｎｓｂｙｌｏｃａｌｓｈａｐｅａｎａｌｙｓｉｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，２０１１，５８（１２）：３４１８３４２８．
［５５］ＤｉｃｉｏｔｔｉＳ，ＰｉｃｏｚｚｉＧ，ＦａｌｃｈｉｎｉＭ，ｅｔａｌ．３ＤｓｅｇｍｅｎｔａｔｉｏｎａｌｇｏｒｉｔｈｍｏｆｓｍａｌｌｌｕｎｇｎｏｄｕｌｅｓｉｎｓｐｉｒａｌＣＴｉｍａｇｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙｉｎＢｉｏｍｅｄｉｃｉｎｅ，２００８，１２（１）：７１９．
［５６］ＫｏｓｔｉｓＷＪ，ＲｅｅｖｅｓＡＰ，ＹａｎｋｅｌｅｖｉｔｚＤＦ，ｅｔａｌ．ＴｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｓｅｇｍｅｎｔａｔｉｏｎａｎｄｇｒｏｗｔｈｒａｔｅｅｓｔｉｍａｔｉｏｎｏｆｓｍａｌｌｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｉｎｈｅｌｉｃａｌＣＴｉｍａｇｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００３，２２（１０）：１２５９７４．

［５７］ＫｕｈｎｉｇｋＪＭ，ＤｉｃｋｅｎＶ，ＢｏｒｎｅｍａｎｎＬ，ｅｔａｌ．ＭｏｒｐｈｏｌｏｇｉｃａｌｓｅｇｍｅｎｔａｔｉｏｎａｎｄｐａｒｔｉａｌｖｏｌｕｍｅａｎａｌｙｓｉｓｆｏｒｖｏｌｕｍｅｔｒｙｏｆｓｏｌｉｄｐｕｌｍｏｎａｒｙｌｅｓｉｏｎｓｉｎｔｈｏｒａｃｉｃＣＴｓｃａｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００６，２５（４）：４１７４３４

［５８］ＯｋａｄａＫ，ＣｏｍａｎｉｃｉｕＤ，ＫｒｉｓｈｎａｎＡ．ＲｏｂｕｓｔａｎｉｓｏｔｒｏｐｉｃＧａｕｓｓｉａｎｆｉｔｔｉｎｇｆｏｒｖｏｌｕｍｅｔｒｉｃｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｉｎｍｕｌｔｉｓｌｉｃｅＣＴ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２００５，２４（３）：４０９４２３．
［５９］ＢｏｙｋｏｖＹ，ＪｏｌｌｙＭ．Ｉｎｔｅｒａｃｔｉｖｅｏｒｇａｎｓｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇｇｒａｐｈｃｕｔｓ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ．２０００：２７６２８６．
［６０］ＢｏｙｋｏｖＹ，ＫｏｌｍｏｇｏｒｏｖＶ．Ａｎｅｘｐｅｒｉｍｅｎｔａｌｃｏｍｐａｒｉｓｏｎｏｆｍｉｎｃｕｔ／ｍａｘｆｌｏｗａｌｇｏｒｉｔｈｍｓｆｏｒｅｎｅｒｇｙｍｉｎｉｍｉｚａｔｉｏｎｉｎｖｉｓｉｏｎ［Ｊ］．ＩＥＥＥ
ＴｒａｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓ＆ＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００４，２６（９）：１１２４１１３７．
［６１］ＦｏｒｄＬ，ＦｕｌｋｅｒｓｏｎＤ．Ｆｌｏｗｓｉｎｎｅｔｗｏｒｋｓ［Ｍ］．ＮｅｗＪｅｒｓｅｙ：ＰｒｉｎｃｅｔｏｎＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９６２．
［６２］ＧｏｌｄｂｅｒｇＡＶ，ＴａｒｊａｎＲＥ．Ａｎｅｗａｐｐｒｏａｃｈｔｏｔｈｅｍａｘｉｍｕｍｆｌｏｗｐｒｏｂｌｅｍ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｒｙ，１９８８，３５（４）：９２１９４０．
［６３］ＢｏｙｋｏｖＹ，ＶｅｋｓｌｅｒＯ，ＺａｂｉｈＲ．Ｆａｓｔａｐｐｒｏｘｉｍａｔｅｅｎｅｒｇｙｍｉｎｉｍｉｚａｔｉｏｎｖｉａｇｒａｐｈｃｕｔｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓ＆ＭｅｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００１，２３（１１）：１２２２１２３９．

［６４］ＹｅＸ，ＳｉｄｄｉｑｕｅＭ，ＤｏｕｉｒｉＡ，ｅｔａｌ．Ｇｒａｐｈｃｕｔｂａｓｅｄａｕｔｏｍａｔｉｃｓｅｇ
ｍｅｎｔａｔｉｏｎｏｆｌｕｎｇｎｏｄｕｌｅｓｕｓｉｎｇｓｈａｐｅ，ｉｎｔｅｎｓｉｔｙａｎｄｓｐａｔｉａｌｆｅａｔｕｒｅｓ
［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＰｕｌｍｏｎａｒｙＩｍａｇｅＡ
ｎａｌｙｓｉｓ．２００９：１０３１１３．
［６５］ＹｅＸ，ＢｅｄｄｏｅＧ，ＳｌａｂａｕｇｈＧ．Ａｕｔｏｍａｔｉｃｇｒａｐｈｃｕｔｓｅｇｍｅｎｔａｔｉｏｎｏｆ
ｌｅｓｉｏｎｓｉｎＣＴｕｓｉｎｇｍｅａｎｓｈｉｆｔｓｕｐｅｒｐｉｘｅｌｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌ
ｏｆＢｉｏｍｅｄｉｃａｌＩｍａｇｉｎｇ，２０１０，２０１０：１１２．
［６６］ＨｉｎｔｏｎＧＥ．Ｒｅｄｕｃｉｎｇｔｈｅｄｉｍｅｎｓｉｏｎａｌｉｔｙｏｆｄａｔａｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２００６，３１３（５７８６）：５０４５０７．
［６７］ＨｉｎｔｏｎＧＥ，ＯｓｉｎｄｅｒｏＳ，ＴｅｈＹＷ．Ａｆａｓｔｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｄｅｅｐｂｅｌｉｅｆｎｅｔｓ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，２００６，１８（７）：１５２７１５５４．
［６８］ＥｇｍｏｎｔＰｅｔｅｒｓｅｎＭ，ＲｉｄｄｅｒＤＤ，ＨａｎｄｅｌｓＨ．Ｉｍａｇｅｐｒｏｃｅｓｓｉｎｇｗｉｔｈ
ｎｅｕｒａｌｎｅｔｗｏｒｋｓ：ａｒｅｖｉｅｗ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２，３５（１）：
２２７９２３０１．
［６９］ＭｉｓｒａＪ，ＳａｈａＩ．Ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｉｎｈａｒｄｗａｒｅ：ａｓｕｒｖｅｙｏｆｔｗｏｄｅｃａｄｅｓｏｆｐｒｏｇｒｅｓｓ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１０，７４（１３）：２３９２５５．
［７０］ＬｉＱｉｎｇ，ＣａｉＷｅｉｄｏｎｇ，ＷａｎｇＸｉａｏｇａｎｇ，ｅｔａｌ．Ｍｅｄｉｃａｌｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｎｔｒｏｌＡｕｔｏｍａｔｉｏｎＲｏｂｏｔｉｃｓａｎｄＶｉｓｉｏｎ．２０１５：８４４８４８．

［７１］李梭．肺部ＣＴ影像慢阻肺病灶三维定量化分析研究［Ｄ］．上海：
中国科学院研究生院（上海技术物理研究所），２０１４．
［７２］ＬｏＰ，ＶａｎＧｉｎｎｅｋｅｎＢ，ＲｅｉｎｈａｒｄｔＪＭ，ｅｔａｌ．ＥｘｔｒａｃｔｉｏｎｏｆａｉｒｗａｙｓｆｒｏｍＣＴ（ＥＸＡＣＴ’０９）［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＭｅｄｉｃａｌＩｍａｇｉｎｇ，２０１２，３１（１１）：２０９３２１０７．
［７３］ＬＯＬＡ１１［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｌｏｌａ１１．ｃｏｍ／．
［７４］ＶＥＳＳＥＬ１２［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｖｅｓｓｅｌ１２．ｇｒａｎｄｃｈａｌｌｅｎｇｅ．ｏｒｇ／．

【原创】基于ＧＰＵ的精确串匹配算法综述

《计算机应用研究》杂志社 | 2016-07-27 17:50

TA的文档

温馨提示

友情链接

联系我们

壹学者机构版

壹学者客户端

壹学者微信号

【原创】 基于ＧＰＵ的精确串匹配算法综述

《计算机应用研究》杂志社 | 2016-07-27 17:50

TA的文档

温馨提示

友情链接

联系我们

壹学者机构版

壹学者客户端

壹学者微信号

【原创】基于ＧＰＵ的精确串匹配算法综述