数据挖掘流程
Inmolecularbiology,STRING(SearchToolfortheRetrievalofInteractingGenesProteins)isabiologicaldatabaseandwebresourceofknownandpredictedproteinproteininteractions。(fromWkkipedia)
大家好,我是在生信技能书练习了2月半的学徒,爱好是唱,跳,rap和生信。之前在复现论文的时候,有遇到过PPI网络,老师说可以使用STRING这个网页工具来完成。这个PPI网络图不仅可以表达蛋白之间的相互作用,而且还能把相应基因的功能展现出来。其实还可以做KEGGGO注释,那么R语言的代码也可以做,他们二者的区别是什么呢?就是我们接下来要讲的东西啦。
首先,在生信学徒培训的前一个半月里,主要是攻克了R语言,然后做了一些RNAseq和GEO数据的挖掘。这里展示一下GEO数据挖掘的流程。
下载数据(这里提供三种方式)
1。GEO主页下载原始数据(RAW。tar)
下载下来是CEL格式,需要自己进行预处理。hgu95系列和133系列的芯片常用affy包中ReadAffy函数进行读取,有些平台用affy包处理不了,例如〔HuGene11st〕AffymetrixHumanGene1。1STArray这个平台,就需要oligo包read。celfiles函数进行读取。illumina的芯片用lumi包来处理。之后可以进行rma或mas5进行归一化操作。
2。GEO主页下载seriesmatrix。txt文件
exprSetread。table(GSE42872seriesmatrix。txt。gz,sep,fillT,comment。char!,headerT)
3。GEOquery包直接下载表达量
library(GEOquery)
gsetgetGEO(GSE42872)返回一个list
exprSetexprs(gset〔〔1〕〕)
getGEO这个函数,输入不同的参数,下载的东西不一样。输入参数是GDS号时,下载soft文件,参数是GPL号时,下载芯片设计信息,参数是GSE号时,下载seriesmatrix。txt。gz文件,返回的是ExpressionSet对象,需要掌握geneNames,sampleNames,pData,exprs等对ExpressionSet对象操作的函数。
ID转换、表达矩阵
从GEO上下载的表达谱的行名是probeid探针名,但是不同的平台,探针名不同,我们也无法直观地知道某个样本在某个探针上的表达量是那个基因的表达量,于是就需要将探针名转换为大家公认的NCBI的entrezID,或者HUGO组织规定的genesymbol以便于后续分析。于是,我们要根据不同的GPL找到该芯片平台有对应的bioconductor注释包来找到探针与基因的对应关系,再进行转换。这里会遇到,一个探针对应着多个基因或者一个基因对应多个探针或者探针没有对应基因的情况,这就需要过滤整合表达矩阵,处理方法不尽相同。
表达矩阵描述的就是各个基因在各个样本上的表达量。这讲主要是表达矩阵的可视化。无论是芯片表达数据或是转录组高通量测序数据,下载完表达谱需要根据生物学背景验证一下表达谱是不是正确的。只有确定了所得表达谱是正确的,之后的差异分析等一系列分析手段才是有意义的。这里提到的方法是看看管家基因的表达量是不是在表达谱中处于高表达。也可以用boxplot看看每个样本的表达量分布图,看看是否有批次效应等等。这里就需要去了解一些画图函数的使用方法。
表达矩阵的提取(这里的‘GSE42872’是个例子)
library(GEOquery)
gsetamp;lt;getGEO(GSE42872,destdir。,
AnnotGPLF,注释文件
getGPLF)平台文件
save(gset,fileGSE42872eSet。Rdata)保存到本地
}
class(gset)查看数据类型
length(gset)
class(gset〔〔1〕〕)
gset
assayData:33297features,6samples
因为这个GEO数据集只有一个GPL平台,所以下载到的是一个含有一个元素的list
agset〔〔1〕〕
datexprs(a)a现在是一个对象,取a这个对象通过看说明书知道要用exprs这个函数
dim(dat)看一下dat这个矩阵的维度
分组信息的话,就通过下面的方法得到。而且,分组信息的个数和样本是一一对应的。
library(GEOquery)
gsetamp;lt;getGEO(GSE42872,destdir。,
AnnotGPLF,注释文件
getGPLF)平台文件
agset〔〔1〕〕
datexprs(a)
pdpData(a)通过查看说明书知道取对象a里的临床信息用pData
挑选一些感兴趣的临床表型。
library(stringr)
groupliststrsplit(pdtitle,,simplifyT)〔,4〕
table(grouplist)
在R中看到的是这样子的:
差异分析及可视化
差异分析呢,就是把表达量特别高和表达量特别低的基因给筛选出来,因为理论上,只有这种不平凡的基因,才会对你想要研究的东西影响最大。提取出来了之后,用图形和表格直观地展示出来,就是所谓的数据可视化。
下面的代码,就是在R中,设置条件,筛选出差异基因DEGs(differentiallyexpressedgenes)。一般来说,火山图,MA图和热图都是我们DEGs可视化的选择。
不知道怎么作差异分析和可视化,不知道怎么用R。无所谓,大神已经把代码post到这里https:github。comjmzeng1314GEO,操作顺序放了在这里。https:www。bilibili。comvideoav25643438
富集分析KEGG、GO注释
介绍基因的注释及富集分析。差异分析通过自定义的阈值挑选了有统计学显著的基因列表后我们其实是需要对它们进行注释才能了解其功能,最常见的就是GOKEGG数据库注释,当然也可以使用Reactome和Msigdb数据库来进行注释。而最常见的注释方法就是超几何分布检验。
当然还有其他的注释方法。超几何分布检验,运用到通路的富集概念就是总共有多少基因(这个地方值得注意,主流认为只考虑那些在KEGG等数据库注释的背景基因),你的通路有多少基因,你的通路被抽中了多少基因(在差异基因里面属于你的通路的基因)。目的就是知道,哪些通路中的哪些基因的表达因为药物或者某些操作的作用发生了较大的变化,导致通路有较大改变。
KEGG输入的基因是EntrezID,在此之前需要进行转换。当然,上面的ID转换已经包括在里面了,其实蛮多人是会嫌麻烦漏掉这一步的。
在中如何进行注释,这里就不在多说,不知道如何运用R或者还没有试过在R中进行GOKEGG注释的小伙伴们,可以到JM大神的b站观看视频。
https:www。bilibili。comvideoav25643438
https:www。bilibili。comvideoav26731585
看完教学视频,下面的图表唾手可得!!!
STRING的基操和文件下载
我们得到了筛选出来的DEGs,还可以通过包来做ID转换,把symbol转换成ENSEMBL的蛋白ID。但是,之前本人转换过了,发现ENSEMBL的protIDpost上去匹配不了,后来的某天早晨,由于看了cxk的篮球视频,我直接把symbollist放上了STRING,发现居然可以识别,而且自动匹配成对应的蛋白ID!
只要把你的基因粘贴到右边的大方框,下面选好物种就OK了。当然,记得左边选择第三个,除非你是有蛋白ID或者是AA序列。
就会导出一个PPI图。有很多圆球和连线。这些又大又圆的球代表的是基因,也可以是蛋白质。在图中,用Node表示。而且那些又细又长的是连接Node的线,叫做edge。edge不仅连接node,而且还有表示interaction的功能。
点击Node,还有有相关的信息和域的显示。
不仅如此,下面的Analysis,还有整个PPI基因蛋白的GO,KEGG注释。
在它输出的文档里面,前面三个download都属于图形文件,下面的三个属于文本文件,可以用来导入cytoscape。可以从下面的表中看到,PPI各个node的关系都已经列好,还对应出每个蛋白ID与注释信息,连它们间的score都有了。这样,就可以基本得到了PPI和比较全面的interaction信息了。
好了,下面的就是从STRING上面下载的5个download文件。可见,下面5个文本文件分别为:stringinteraction。tsv(以tab分割);XML总结;网络坐标;蛋白序列和蛋白注释。应该都可以用excel打开。
在stringinteraction中,有15列,上图为前面6列。第一列为每一个node的基因名,3,5分别是它们对应的内部ID和蛋白ID(这里的蛋白ID还在前面加了物种编号)。2则是和之前那个node有关系的另一个node,4,6也分别是node2的对应内部ID和蛋白ID。
后面9列,分别为染色体上临近点,基因融合,系统发育,同源性,共表达,实验性相互关系,数据库注释,自动文本挖掘,综合评分。
networkcoordinate记录的是Node名称,坐标,颜色和注释。
proteinsequences记录的是氨基酸的序列。
proteinannotations及记录了基因名,蛋白ID和结构域的信息来源。但是由于格式太大,用excel不能完全打开。最后一个XML,是以psimi格式制备的,因此不适宜用excel打开。不然看起来就像cxk打篮球一样。
STRING与R的backgroundgene区别
而在中,也同样可以对基因进行KEGGGO注释。那到底哪个更方便,更可信呢。
在中如何进行注释,这里就不在多说,不知道如何运用R或者还没有试过在R中进行GOKEGG注释的小伙伴们,可以到JM大神的b站观看视频。
那我们就分别来对比下同样的基因,在STRING和R得到的KEGGGO注释有啥区别。这里主要是比较STRING和R中的KEGGGO的backgroundgene库的大小。如果数据库太久或比较小,有很多基因就没有被收录进去,这样有可能我们的目的基因就不会被注释到。(GO注释包括BP,CC和MF)。
基因名如何导入,和网站如何使用,JM大神已经在视频里有详细说明了,而我们就在PPI图下面的exports下载相应的文件就好了。
注意:在名为‘GeneRation’和‘BgRatio’两列的数据里,我们只看分子。
在KEGG注释方面,我们可以看到,各自的区别不大。
那么下面,我们来看看GO中的BP、MF和CC。
在GO注释方面,同样识别的基因和background区别也不大,所以在KEGGGO功能注释中,两种方法大家都可以放心使用。
PS:
虽说大多说情况如此,既然可以在STRING这种onlinetools中做出来的东西,为何我要在R中敲代码来实现呢。
然后,我就发现了某些功能,STRING是很笼统的归为一类,而R中,则会进行比较细致的分类。在这,R中,可以通过p,q值进行cutoff,而在STRING中,只能通过调节interactionscore来cutoff了。所以STRING几秒钟的便捷,和R中细腻还是有一点区别的,看大家所需吧。毕竟鱼与熊掌不可兼得。(但AJ和钢丝球可以)
爱的名义一,背叛银迈着轻快的步子走回家。明天是周末。身边终于有空余的钱可以给她买身衣服了。想着都觉得开心。打开门的那一瞬间,银以为自己走进了淫乱的电影世界,丢得满地的衣服和……
大众首台国产1。5T发动机下线最快明年装车大众集团在欧洲市场销售的车型陆续换装了EA211系列的第二代产品mdash;mdash;1。5TEVO涡轮增压发动机。该发动机后续会逐步代替1。4TTSI发动机,而国内的上汽大……
大众或将推出自动驾驶租赁服务55元小时作为传统燃油车的霸主,大众汽车也加快了向无人驾驶、智能化方向转型的步伐,同时,在无人驾驶方面,大众也开辟了新的运营模式,用租赁的方式,来满足一些车主的体验与使用,而不是一次性买……
大众改名叫伏特汽车闹剧翻车!美国SEC介入调查改名对于任何一家企业来说影响都是非常巨大的,而最近,大众就因为愚人节的一则玩笑,而陷入麻烦之中。日前,据多家媒体报道,美国证券交易委员会(SEC)已对大众汽车美国公司展开……
美丽的河心公园星期日的早上,我和爸爸一起到河心公园去玩。我们刚走大门,就被里面的湖水吸引住了。天上的白云映在水中,随波荡漾。岸边有一棵棵高大的柳树,就像站岗的士兵。柔软的枝条在微风中摆……
南大光电高端ArF光刻胶获得突破未来可用于7nm工艺在半导体制造上,国内厂商需要突破的不只是光刻机等核心设备,光刻胶也是重要的一环。南大光电日前宣布,该公司研发的高端ArF光刻机已经获得了国内某企业的认证,用于55nm工艺制造。……
煮粥造句用煮粥造句大全1、立夏养生忙,首先灭心火,莲子芯泡茶,一杯放十颗,煮粥放百合,早晚适宜喝,绿茶配菊花,降火功效强,牛奶豆制品,强心是良方。立夏已来到,关怀不停歇,真心送祝福,快乐又安康!……
谷歌即将与法国达成反垄断协议交付罚款5月28日消息,据国外媒体报道,谷歌(Google)即将就法国反垄断案达成和解,该案指控谷歌滥用其在线广告领域的权力,为此谷歌可能会支付罚款,并改变其市场行为。在该诉讼案……
这是袁大头的生产地还有一枚更为珍贵阿巡谈历史2020。03。3014:23袁大头是民国时期主要流通货币之一,袁大头是对袁世凯像系列硬币的口语俗称,严谨点说叫袁世凯像背嘉禾银币。有的版本的袁大头价值已有10……
假如韩信是企业高管在公司中,一旦上级领导认定你从一开始就没安好心或者别以为我不知道你在打什么主意,这种逼反效应就已经开始发酵。汉初韩信被杀的故事为人们所熟知,关于他是否真要谋反,学界却一直……
站台印象从朱自清先生写入教科书的《背影》,到戛纳电影节金马车奖影片《站台》,还有无数首歌曲里传唱的站台,在作家、影人和歌手眼里,列车停靠的站台,充满了送别和亲情。站台,旧时称月台……
独立开发者成功实现谷歌FuchsiaOS模拟器谷歌在上周确认,将为初代NestHub智能显示器更新FuchsiaOS,正式使这一等待了数年的系统问世。然而,普通用户想要体验到该系统可能有点复杂,虽然FuchsiaOS……
润滑油是危险固体垃圾吗危险固体废物又称为有害废物、有毒废渣等,通常是指具有毒性、腐蚀性、易燃性、反应性和感染性等一种或一种以上危险特性的固体废物。那么润滑油是危险固体垃圾吗?接下来本站来为你解答。……
珊瑚色妆容仿朴寒星性感魅惑珊瑚妆完成图朴寒星的这款珊瑚色妆容,美在色调的统一,整个妆容使用的珊瑚色系,统一的色调美,看着特别舒服!黑色的大眼妆,性感外漏!很适合金秋季节哦!化妆步骤STEP1……
维生素缺乏症有哪些临床表现B族元素通常包括很多种类,其中之一就是维生素B2。然而生活中很多人却忽略了维生素B2缺乏,那么维生素B2缺乏症有哪些临床表现?维生素B2是人体不可缺少的必须的维生素之一,……
我只是需要一点勇气天空阴暗,空气还有些潮湿,我就住在海边的年检二楼,每一次上下楼,都要爬长长的一段铁架子,进入大门,然后穿过住着十几个工人的大厅,每次经过大厅需要用手捂住鼻子,大厅的窗户没有打开……
美丽的乡村山村里多姿多彩,和城市里大有不同。今天,我给大家介绍一个青山环绕,群山起伏的乡村。夏天,是一个绿树成荫的季节。湖水清澈见底,荷花也正开得茂盛,突然,一阵风吹来,荷花翩翩起……
河北袖珍女孩开网店创业剪纸作品卖出国门图为袖珍女孩杜小旭和她的剪纸作品。翟羽佳摄中新网石家庄8月16日电(刘明怡)1987年出生的杜小旭,是一个身高只有1。3米的袖珍女孩,曾经从事过多种职业的她最近决定自己开……
补脑的食物上班族的八大补脑神器上班族尤其是脑力工作者,每天消耗的脑细胞可谓数以万计。对于费脑力的上班族们补脑健脑就成了一个不可或缺的工作了。那么补脑健脑的食物有哪些呢?吃什么对我们的大脑运作有帮助呢?下面我……
最难忘的笑世界上有很多笑,有孩子们天真可爱的笑,有父母看见孩子长大欣慰的笑。其中让我印象最深刻的是朋友久别重逢的笑。这一天天气晴朗,万里无云,我一蹦一跳地走在乡间小道上,小草冲着我……
接种卡介苗有什么用卡介苗是一种用来预防儿童结核病的预防接种疫苗,简称BCG,它是使用活的无毒牛型结核杆菌制成。接种后可使儿童产生对结核病的特殊抵抗力。由于这一疫苗是由两位法国学者卡迈尔与介兰发明……
一张纸造句用一张纸造句大全31、为何人生最后会像一张纸屑,还不如一片花瓣曾经鲜艳。32、千年古法造纸重起炉灶,从采集原料,到浸泡、切割、晾晒,造出一张纸过程需要72道工序。33、他递给观察许……
怀孕七个月胎动孕育宝宝七个月的胎动情况怀孕七个月胎动是怎么样的呢,在我们生活中想必大家对于怀孕七个月胎动还是有所了解的吧,那么大家知道快七个月了宝宝稳定吗,快七个月的宝宝胎动怎么样的呢,下面就让我们一起来了解一下吧……
露薇花多年生吗露薇花是多年生草本植物,叶片多肉质,颜色为深绿色,花朵颜色丰富,观赏性很强。露薇花株型秀美,花叶美观,适合盆栽种于室内,可供人观赏,还能净化室内的空气。将露薇花种植在将景区,净……