<wbr id="a7gzs"></wbr>
    <wbr id="a7gzs"></wbr>
  1. 
    

      收藏本站
      《江苏大学》 2019年
      收藏 | 手机打开
      二维码
      手机客户端打开本文

      SNP选择的关键技术及精神分裂症诊断模型研究

      陆信蓓  
      【摘要】:单核苷酸多态性(Single nucleotide polymorphism,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP数据作为重要的基因变异数据适合复杂性状与疾病的遗传解剖等方面的研究,关于SNP数据的研究已经成为生物信息学领域中的重要课题之一。但SNP位点之间存在较多的冗余,因此,将SNP数据直接用于复杂疾病的诊断分类中,必须选择出具有代表性的SNP子集。随着机器学习技术的飞速发展,选择SNP子集问题可归类为特征选择问题,因此,本文将特征选择技术和分类模型应用到选择SNP子集和精神分裂症诊断中。首先,提出基于K-MIM的信息SNP子集选择方法;然后,设计基于Xgboost的精神分裂症的诊断模型。具体工作如下:(1)针对SNP位点之间存在强相关性问题,提出新的算法——K-MIM对SNP位点聚类分组。该算法在K-Means算法中引入互信息的概念,提出一种新的距离度量,利用互信息能够度量特征之间相关性的特性有效解决欧式距离不能挖掘出SNP位点之间内在联系的问题。此外,K-MIM算法针对K-Means的簇中心更新在新的距离度量下失效的问题,提出新的簇中心更新方式,根据样本点到均值点的距离与样本点到其他点距离之和呈近似的增函数特点,用n个与簇中其他SNP距离最小的SNPs作为簇中心体代替原来的簇均值向量。经实验验证,KMIM算法较K-Means算法和其他改进的K-Means算法,具有更好的非信息SNP重构度,且与MCMR、ReliefF等信息SNP选择方法相比,本文提出的信息SNP选择方法在两个数据集的分类准确率上平均提升了1.83%和3.33%。因此,本文提出的基于K-MIM算法的信息SNP选择方法在信息SNP子集选择中具有较大的优势。(2)针对原蚁群算法在计算信息素累加时默认越短的信息SNP子集具有更好的非信息SNP重构效果的问题,提出新的信息素累加机制,将信息SNP子集对非信息SNP子集的预测误差引入该机制,在考虑解的长度的同时考虑解的质量,完善原信息素的累加机制。同时,为了避免算法陷入局部最优提出一种新的信息素挥发机制,该机制利用信息SNP子集的冗余度对信息素进行自适应地挥发。经实验验证,改进的蚁群算法较原蚁群、粒子群算法和遗传算法,具有更好的非信息SNP重构度,且与MCMR、ReliefF等其他信息SNP选择方法相比,本文提出的信息SNP选择方法在两个数据集的分类准确率上平均提升了1.33%和1.11%。因此,改进的蚁群算法加强了基于K-MIM算法的信息SNP子集构造方法在SNP子集选择中的优势。(3)针对精神分裂症分类中,将患者诊断为健康人和将健康人诊断为患者的误诊断代价不同问题,提出代价敏感Xgboost算法。由于无法得知数据集的错分代价,该算法提出自适应的错分代价权重,兼顾分类模型准确率的同时,在Xgboost目标函数中,对将患者诊断为健康人的样本根据其预测误差和所有样本的误差均值自适应地修改误分代价权重,减少将患者诊断为健康人的可能性。同时,在目标函数的正则项中加入树的深度,防止算法过拟合。在分类效果实验中,代价敏感Xgboost算法与Xgboost、SVM和神经网络算法在分类准确率上基本持平,且在误分类次数统计实验中,较原Xgboost算法,在两个数据集上将患者诊断为健康人的误分类次数减少了7.5%和6.67%,减少了将患者诊断为健康人的可能性。
      【学位授予单位】:江苏大学
      【学位级别】:硕士
      【学位授予年份】:2019
      【分类号】:R749.3;TP18

      【参考文献】
      中国期刊全文数据库 前1条
      1 徐峻岭;周毓明;陈林;徐宝文;;基于互信息的无监督特征选择[J];计算机研究与发展;2012年02期
      【共引文献】
      中国期刊全文数据库 前10条
      1 杜双育;王红斌;李峰;;变压器油温异常状态识别方法[J];电气应用;2015年S2期
      2 潘舒;祁云嵩;;多重假设检验及其在大数据特征降维中的应用[J];计算机科学;2015年S1期
      3 刘帅;杨英杰;刘武越;;一种面向聚类的加权特征选择算法[J];计算机应用研究;2015年12期
      4 吕成戍;;基于特征选择和支持向量机的托攻击检测方法[J];计算机应用与软件;2015年05期
      5 简彩仁;陈晓云;;基于局部保持投影和稀疏表示的无监督特征选择方法[J];模式识别与人工智能;2015年03期
      6 简彩仁;陈晓云;;局部和稀疏保持无监督特征选择法[J];华侨大学学报(自然科学版);2015年01期
      7 王连喜;蒋盛益;;一种基于特征聚类的特征选择方法[J];计算机应用研究;2015年05期
      8 王晋;张小龙;赵涓涓;;孤立性肺结节诊断模型的特征选择算法[J];中国科技论文;2014年10期
      9 谭学清;周通;罗琳;;一种基于类平均相似度的文本分类算法[J];现代图书情报技术;2014年09期
      10 潘俊;王瑞琴;孔繁胜;;基于结构和约束保持的半监督特征选择[J];南京理工大学学报;2014年04期
      【二级参考文献】
      中国期刊全文数据库 前1条
      1 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
      【相似文献】
      中国期刊全文数据库 前10条
      1 焦雪;张培军;冷东泽;王建超;巴翠玉;李月红;;2株温和气单胞菌SNP位点比较分析[J];中国兽医学报;2017年03期
      2 招丽蓉;王巍;伍婧;胡斌;林秀强;徐绮华;林奔;冯芬;陈永昌;;VEGF的SNP状态预测贝伐株单抗治疗转移性结直肠癌的长期疗效[J];实用癌症杂志;2017年04期
      3 闫晓玲;李会彬;孙鑫博;边秀举;王丽宏;;低温层积和SNP处理对白颖薹草种子萌发的影响[J];种子;2017年05期
      4 王丽丽;林余霖;陈晓辰;廖保生;王晓玥;金钺;韩建萍;;基于SNP位点鉴定藏菖蒲及其近缘种[J];中国现代中药;2014年11期
      5 王文斌;徐淑兔;高杰;张兴华;郭东伟;李向阳;薛吉全;;基于SNP标记的玉米自交系遗传多样性分析[J];玉米科学;2015年02期
      6 丛晓霏;丁君;常亚青;;虾夷马粪海胆溶菌酶基因SNP标记的开发及多态性分析[J];中国农业科技导报;2012年05期
      7 康闽;王宏伟;程佩萱;;幼年特发性关节炎患儿甘露糖结合凝集素基因启动子区SNP研究[J];中国优生与遗传杂志;2006年04期
      8 孙芳园;王越甲;杨炜峰;车路平;卢胜明;王小珂;;大小鼠微卫星和SNP遗传检测的研究进展[J];实验动物科学;2014年03期
      9 吴雁斌;王一航;胡新元;文国宏;李高峰;郑永伟;张荣;李建武;阎耀廷;;外源SNP对低温下马铃薯试管苗相关酶活性的影响[J];甘肃农业科技;2013年06期
      10 宋伟;王凤格;田红丽;易红梅;王璐;赵久然;;利用核心SNP位点鉴别玉米自交系的研究[J];玉米科学;2013年04期
      中国重要会议论文全文数据库 前10条
      1 王世维;刘琳琳;原恺;郭芳芳;杨仕新;柳慧;杨藜;孙涛;吴波明;;稻瘟病菌基因组变异因子SNP检测[A];植保科技创新与农业精准扶贫——中国植物保护学会2016年学术年会论文集[C];2016年
      2 王沙沙;陈锋;崔党群;;普通小麦籽粒大小相关基因SNP突变对产量相关性状的影响[A];第六届全国小麦基因组学及分子育种大会论文集[C];2015年
      3 周晋;王树叶;曹峰林;王巍;李丽敏;;阵发性睡眠性血红蛋白尿的SNP的研究[A];第十一届全国红细胞疾病学术会议暨学习班论文汇编[C];2007年
      4 于茜;李仰平;邢强;李雪;胡晓丽;包振民;;皱纹盘鲍(Haliotis discus hannai)基因组预测序及群体间差异SNP位点的筛查[A];遗传多样性:前沿与挑战——中国的遗传学研究(2013-2015)——2015中国遗传学会大会论文摘要汇编[C];2015年
      5 汪纯;何进卫;傅文贞;章振林;;16个骨质疏松候选基因133个SNP与绝经后妇女骨质疏松性骨折的相关性研究[A];中华医学会第六次全国骨质疏松和骨矿盐疾病学术会议暨中华医学会骨质疏松和骨矿盐疾病分会成立十周年论文汇编[C];2011年
      6 朱红艳;李先明;伍涛;杨夫臣;涂俊凡;秦仲麒;;梨抗黑斑病SNP标记及候选基因筛选[A];中国植物病理学会2015年学术年会论文集[C];2015年
      7 王珊;包振民;胡晓丽;苏海林;贺艳;张月月;李艳;付晓腾;;基于454测序的栉孔扇贝(Chlamys farreri)基因和SNP筛查[A];中国动物学会、中国海洋湖沼学会贝类学会分会第十四次学会研讨会论文摘要汇编[C];2009年
      8 王珊;包振民;胡晓丽;贺艳;任晓亮;张月月;;基于454测序的栉孔扇贝(Chlamys farreri)基因和SNP筛查[A];2008年中国水产学会学术年会论文摘要集[C];2008年
      9 张强;唐斌;何芳;王树人;邹放君;王刚;石晓鹏;杨剑锋;王振焕;陈雄英;邓峰美;;内皮型一氧化氮合酶基因标签SNP多态性与新疆哈萨克族原发性高血压的关联研究[A];第八届海峡两岸心血管科学研讨会论文集[C];2011年
      10 刘建新;;外源一氧化氮供体SNP对盐胁迫下多年生黑麦草幼苗根生长抑制和氧化损伤的缓解效应[A];第十届中国科协年会论文集(三)[C];2008年
      中国重要报纸全文数据库 前2条
      1 记者 张建松;中华民族基因组 SNP 系统目录即将构建[N];新华每日电讯;2000年
      2 孙丽萍 仇逸;日本基因学者呼吁:尽快建立亚洲人种基因组SNP数据库[N];中国医药报;2002年
      中国博士学位论文全文数据库 前10条
      1 刘松;系统性鉴定调控肿瘤风险的SNP变异[D];北京协和医学院;2017年
      2 Haile Berihulay Gebreselase;全基因组重测序和SNP芯片对埃塞俄比亚和中国山羊群体的全基因组种质特性研究[D];中国农业科学院;2019年
      3 谢健;基于高密度SNP芯片的香猪产仔数性状基因筛选和鉴定[D];贵州大学;2016年
      4 褚延广;欧洲黑杨(Populus nigra L.)水、光资源高效利用相关单核苷酸多态性(SNP)研究[D];中国林业科学研究院;2009年
      5 冯凯;18个重要炎症相关基因SNP分析及TLR4基因5’区SNP功能研究[D];第三军医大学;2004年
      6 许琪;多巴胺代谢通路上的SNP型组合与偏执型精神分裂症的系统关联分析[D];中国协和医科大学;2004年
      7 李振丽;基于SNP芯片技术的结直肠癌全基因组罕见拷贝数变异研究及相关基因的临床意义探索[D];浙江大学;2016年
      8 代平;文蛤(Meretrix meretrix)选育群体的遗传测定及生长相关SNP鉴定[D];中国科学院研究生院(海洋研究所);2014年
      9 康晓军;基因序列比对算法在SNP中的研究及应用[D];华中农业大学;2011年
      10 牛晖;不同品种牛群子宫内膜炎流行病学调查及其SNP差异分析[D];吉林大学;2016年
      中国硕士学位论文全文数据库 前10条
      1 陆信蓓;SNP选择的关键技术及精神分裂症诊断模型研究[D];江苏大学;2019年
      2 贺思程;标签SNP集分析方法在全基因组关联研究中的应用[D];中国石油大学(华东);2017年
      3 吕爽;MTX治疗RA副作用相关SNP的Meta分析及其与寒热证型相关性研究[D];北京中医药大学;2019年
      4 刘家鑫;利用不同密度SNP芯片进行绵羊全基因组ROH检测及候选基因鉴定[D];中国农业科学院;2019年
      5 周东珂;绵羊高密度SNP芯片GGP OvineHD的设计[D];西北农林科技大学;2019年
      6 彭丹;细胞色素P450基因家族SNP与抗结核药物性肝损伤的相关性研究[D];南华大学;2018年
      7 揭英纯;骨连接蛋白标签SNP与冠心病遗传易感性和临床表型的关联分析[D];南方医科大学;2017年
      8 韩兰春;肥胖GWAS关联基因和SNP的功能注释与实验验证[D];华中师范大学;2016年
      9 施伟;基于仿生算法的标签SNP选择方法研究[D];湖南大学;2015年
      10 张维维;CTLA-4基因启动子区SNP预测非小细胞肺癌放疗近期疗效的研究[D];中国医科大学;2018年
      中国知网广告投放
       快捷付款方式  订购知网充值卡  订购热线  帮助中心
      • 400-819-9993
      • 010-62791813
      • 010-62985026


      福利黄片