背景糖尿病肾病(Diabetic kidney disease,DKD)作为2型糖尿病(Type 2diabetes mellitus,T2DM)最常见的微血管并发症之一,已成为我国终末期肾脏病的主要原因。DKD作为遗传易感因素和环境因素共同作用所引起的复杂性疾病,分子发病机制尚不完全清楚。全基因组关联研究(Genome-Wide Association Studies,GWAS)已识别出一系列与DKD发病风险相关的单核苷酸多态性(Single nucleotide polymorphism,SNP)位点,为DKD的发病风险评估与早期预防提供了重要分子标志物,但这些遗传易感位点大部分功能不明晰,无法阐明其在DKD发生发展过程中的生物学作用。因此,如何对GWAS现有数据进行高效深入挖掘,并逐步明晰其致病位点的生物学功能意义已成为DKD分子发病机理面临的重大挑战。功能性SNPs是指位于基因转录调控区(启动子与增强子)和蛋白表达翻译区的具有影响基因表达与蛋白功能的SNPs位点。这些功能位点的判定标准包括SNPs位点是否处于基因功能位置(转录调控区、基因编码区等),是否影响基因表达,是否能够影响转录因子与DNA调控元件结合等。充分应用生物信息学技术挖掘GWAS大数据库资源,将基因组中的SNPs信息与调控数据整合起来,优化筛选功能性SNPs靶基因,对高效探寻SNPs致病变异,阐明其与DKD发生发展的作用及其机制具有重要意义。本研究通过表型与基因Bioconcentration factor型整合数据库(PheGenI)获取与DKD发病风险相关的SNPs,应用生物信息数据库进行SNPs位点多种功能注释信息分析,筛选功能性SNPs,在我国东北地区人群病例对照体系中进行功能性SNPs的基因分型、等位基因频率、不同遗传模型以及SNPs之间的交互作用与DKD发病风险及临床表型的关联分析。运用生物信息数据库分析与临床样本血浆蛋白检测实验相结合的方法观察与DKD发病风险阳性关联的SNPs不同基因分型与相应基因m RNA和血浆蛋白表达的差异,探讨SNPs位点影响基因表达可能存在的分子机制,为建立DKD分子水平防治对策提出科学依据及潜在分子靶点,促进分子病因学研究与DKD临床防治及早对接。研究方法1、与2型糖尿病肾病发病风险相关的功能性SNPs的优化筛选:(1)应用PheGenI数据库查询与2型糖尿病肾病发病风险及肾小球滤过率相关的SNPs。(2)运用Haplo Reg、PheGenI等数据库综合评价这些SNPs是否具有eQTL信息、是否处于转录因子结合的motif区域内、是否具有组蛋白修饰标记、是否处于DNase I超敏感位点(DHS)等信息,精选具有调控功能的SNPs。(3)应用Omics Bean、STRING数据库对这些SNPs相应的eQTL靶基因进行功能注释聚类分析(GO分析、KEGG分析)及蛋白交互作用分析,以此探讨靶基因功能。2、功能性SNPs在中国人群中与DKD发病风险的相关性研究:(1)建立中国东北地区498例DKD病例对照体系,包括DKD患者166例,T2DM患者166例,正常对照组166例。采集入组人群外周血,分离血浆低温保存待用,提取血细胞DNA。(2)应用Mass ARRAY飞行质谱技术对498例样本DNA进行SNPs位点基因分型检测。(3)应用SHEsis在线软件分析病例组和对照组每个SNP位点上的基因分型、等位基因频率分布的差异;应用Logistic回归分析加性、显性、隐性遗传模型下基因分型与DKD发病风险的关系。(4)应用PLINK软件分析SNP-SNP两两交互作用与DKD发病风险的关系;应用广义多因子降维法(GMDR)寻找多个SNPs交互作用预测DKD的最佳模型。3、功能性SNPs与DKD临床表型的相关性研究:(1)采集入组样本人群的基本信息、生化指标等临床资料。(2)应用卡方检验、t检验分析DKD组和T2DM组之间的临床资料是否存在统计学差异;应用logistic回归分析筛查DKD的独立危险因素。(3)应用t检验分析功能性SNPs不同基因分型与临床表型的相关性。(4)应用R语言运用决策树方法以T2DM组与DKD组样本的多个SNPs分型与多个临床表型数据为研究对象进行DKD的风险预测模型检测。4、与DKD发病风险显著相关的功能性SNPs位点对相应基因表达的影响及调控机制分析:(1)应用基因型-组织表达(GTEx)数据库分析4个与DKD发病风险显著相关的功能性SNPs位点(包括rs6420094、rs4453858、rs594074与rs10952362)在人体不同组织中与相应基因m RNA表达水平的关系。(2)应用酶联免疫吸附法(ELISA)检测样本血浆中4个与DKD发病风险显著相关的功能性SNPs位点靶基因蛋白表达水平,包括rs6420094影响的SLC34A1蛋白、rs4453858影响的SUCLG2蛋白、rs594074影响的LY86蛋白、rs10952362影响的NAPSA蛋白。(3)分析病例对照体系不同分组中血浆蛋白表达水平的差异及其与DKD临床表型的相关性。(4)分析SNPs不同基因分BMS-354825供应商型人群血浆蛋白表达的差异,进一步明确上述SNPs对基因表达的影响。(5)应用PERFECTOS-APE在线软件和基因表达谱(GEO)数据库分析rs6420094对SLC34A1基因表达影响的相关调控作用。研究结果1、与2型糖尿病肾病发病风险相关的功能性SNPs优化筛选结果:应用PheGenI数据库共查询到238个与糖尿病肾病风险相关和40个与肾小球滤过率相关的SNPs。通过多种生物信息数据库对上述278个SNPs进行优化筛选,共鉴定了34个具有调控功能的SNPs,均具有eQTL信息记录。其中32个SNPs位于转录因子结合的motif区域内;33个SNPs具有不同程度的H3K4me1、H3K4me3、H3K27ac及H3K9ac组蛋白修饰标记物富集;23个SNPs位于启动子或增强子的组蛋白修饰区域;16个SNPs既可影响转录因子的motif,又具有组蛋白修饰信息,还处于DHS区域。这些功能性SNPs的优化选择为本研究发现功能性SNPs在DKD发生发展中的生物学作用奠定了关键基础。2、功能性SNPs与DKD发病风险相关性的病例对照体系研究结果:(1)在498例DKD病例对照研究体系中成功完成了21个SNPs的基因分型、等位基因频率及遗传模型分析,发现SLC34A1基因rs6420094位点G等位基因、AG+GG型,SUCLG2基因rs4453858位点AA型具有降低DKD发病风险的保护作用,以上P值均<0.05,OR值均<1;LY86-AS1基因rs594074位点AA型、LINC01003和RPS20P19基因间区的rs10952362位点CC型与DKD发病风险增加相关,以上P值均<0.05,OR值均>1。本研究未见其它SNPs与DKD发病风险相关。(2)应用PLINK软件分析发现了13对SNPs两两交互作用与DKD发病风险相关。其中,rs17319721与rs6420094、rs17319721与rs594074、rs1260326与rs903552、rs2780902与rs6503503、rs4453858与rs304029、rs4453858与rs4879670、rs13254600与rs7975752共7对SNPs两两交互作用显著相关于降低DKD发病风险的保护作用,P值均<0.05,OR值均<1;而rs17319721与rs6930576、rs4453858与rs6432852、rs35716097与rs955333、rs903552与rs955333、rs6503503与rs955333、rs12523822与rs903552共6对SNPs两两交互作用显著相关于升高DKD的发病风险,P值均<0.05,OR值均>1。(3)应用GMDR模型分析发现了与DKD风险相关的最佳模型rs6420094-rs1260326-rs903552-rs6503503-rs4453858-rs6432852-rs4879670-rs35716097(CVC=9/10,P=0.011)。3、功能性SNPs基因分型与DKD临床表型相关性分析结果:(1)rs7975752、rs594074、rs4453858、rs4879670位点的多态性可能影响DKD的血脂水平。(2)rs304029位点、rs6432852位点的多态性可能影响DKD的肾功能。(3)rs7975752位点、rs1260326位点的多态性可能影响DKD的血压水平。(4)决策树构建模型引入的指标包括糖尿病视网膜病变、甘油三酯、空腹血糖、游离脂肪酸、肾小球滤过率、糖化血红蛋白、尿素氮、空腹胰Erastin生产商岛素水平与rs594074位点。构建模型对于预测T2DM患者发生DKD风险的准确性为83.7%,灵敏性为86.74%,特异性为80.72%,验证数据构建的ROC曲线的AUC面积为0.885。4、与DKD发病风险显著相关的功能性SNPs位点对相应基因表达的影响及调控机制分析结果:(1)在基因转录水平,应用GTEx数据库对与DKD发病风险阳性关联的SNPs进行eQTL分析,结果提示rs6420094位点GG型与SLC34A1m RNA表达水平升高显著相关;rs594074位点GG型也与LY86m RNA表达水平升高显著相关;rs4453858位点AA型则与SUCLG2m RNA表达水平降低显著相关,以上P值均<0.05。(2)在血浆蛋白水平,DKD组rs6420094GG型、AG型及AG+GG型人群血浆SLC34A1蛋白表达水平均较AA型人群显著下降,P值均<0.05;而正常对照组rs6420094GG型人群血浆SLC34A1蛋白表达水平较AA型人群则显著升高,P=0.002。提示在不同分组人群中rs6420094分型与SLC34A1蛋白表达差异存在不同。其余SNPs不同分型人群血浆靶基因蛋白含量无统计学差异。(3)不同分组人群中的血浆蛋白检测结果显示DKD组和T2DM组血浆SLC34A1、SUCLG2及NAPSA蛋白表达水平均显著低于正常对照组,P值均<0.05。但在DKD组和T2DM组之间上述血浆蛋白表达均无统计学差异。(4)PERFECTOS-APE软件分析显示rs6420094位点等位基因的变异可使该SNP位点所在基因组区域结合多个转录因子的能力发生改变,等位基因A到G的变异,可使其与GATA2、GATA1、GATA3转录因子的结合能力降低21.65-38.87倍不等,也可使其与CTCF转录因子的结合能力增加8.15倍。提示rs6420094位点等位基因的变异可使多种转录因子的结合能力发生不同程度的改变。(5)通过对GEO数据库GSE1009数据集研究发现GATA2在DKD组织样本中表达量显著高于正常组织样本,CTCF在DKD组织样本中表达量低于正常组织样本,该结果结合rs6420094位点影响转录因子GATA2和CTCF与DNA调控元件结合,部分解释了不同分组人群中rs6420094分型与SLC34A1蛋白表达差异存在不同的原因。综上,本研究从挖掘功能性SNPs为切入点,应用GWAS公共数据库及多种生物信息数据库优化筛选与DKD发病风险相关的功能性SNPs,进一步在DKD病例对照体系中验证了rs6420094、rs4453858、rs594074及rs10952362位点与我国东北地区人群DKD发病风险相关,通过生物信息数据库分析与临床样本血浆蛋白检测实验发现rs6420094位点与SLC34A1基因表达相关,提出该位点可能通过影响转录因子与其DNA调控元件结合的能力而影响SLC34A1基因表达。并整合SNPs位点分型与临床信息,建立预测T2DM患者发生DKD风险的决策树模型。本研究阐述的与中国汉族人群DKD显著关联的功能性遗传变异,或可成为新型生物标志物,为DKD诊断和个性化治疗提供新策略。