【原创】 本文主要是利用文本挖掘以及网络分析的方法进行疾病基因的预测。首先寻找已知的疾病基因作为种子基因,然后利用文本挖掘技术构建基因互作网络,主要是从全文中筛选句子中共同出现两个基因以及互作词语,利用依存分析以及SVM构建了基因互作网络,这种方法不仅考虑了种子基因间的互作,以及种子与邻居基因间的互作,而且考虑了非种子基因间的互作。以前的方法不考虑非种子基因间的互作会使方法偏向于种子基因。构建了基因互作网络之后,利用4个拓扑学测度对基因进行排秩,然后取top20作为候选的疾病基因。四个测度分别为度、特征向量、紧密度与介数。以前方法都是将基因的贡献等同,本文利用特征向量来考虑不同基因对于疾病的贡献,是一个新的方法,主要思想是来自于社会网络的威望效应。利用4中测度对基因进行排秩结构发现,度和特征向量的效果比较好,介数以及紧密度预测较多的基因用于以后的实验分析。本文分析的疾病为前列腺癌疾病,用于验证的数据库为PGDB数据库,如果新的预测不在此数据库内,在搜索相关文献进行证实。 启示:以前的疾病基因优化的方法对于种子基因对于疾病的贡献都是等同的,能否利用本文提出的特征向量来对种子基因进行加权,然后对候选的疾病基因进行优化。
|