啥门道？两篇文章一字之差，影响因子竟天壤之别！

曹娉 · 发表于 2018-11-6 14:28

最近在写工具盒里WGCNA工具的使用教程，检索素材时发现了一篇文章，哦不，是两篇，他们长的几乎一样，且看：

而另一篇：

看了半天，愣是没看出差别，最后发现除了首字母大写以外，就差了一个单词：

Identified/revealed

这勾起了我的极大兴趣，虽然两篇文章分数都不高，但是相比之下Identified似乎显得牛逼了不少。

我们先看一下分数较低的这篇文章 Prognostic genes of breast cancer revealed by gene co-expression network analysis（doi: 10.3892/ol.2017.6779）

文章讲的是基于权重共表达网络（WGCNA）来揭示了乳腺癌的预后基因，通俗来讲就是用了WGCNA的方法分析乳腺癌数据，找到一些跟乳腺癌预后相关的基因

一句话解释WGCNA：一种根据基因表达水平分析两两基因之间相关性，来对基因进行分类形成不同的模块（共表达模块），这些模块中的基因在不同肿瘤样本的表达变化上非常相似，所以可以推测这些模块中的基因可能共同参与某些功能或与某种表型相关。

分析流程：

步骤简单解释：

1.整理数据——在ArrayExpress上找了两套带有预后信息的乳腺癌数据，分别包含分别有286个、508个样本

2.使用RMA进行标准化，绘制标准化后各个样本的表达的箱线图

3.由于我们选择的都是肿瘤样本，没法去做差异分析，也就没法得到差异基因，那么想做功能富集该怎么办呢？思来想去得到妙计一条：我们研究的是预后，也就是说一个基因如果在各个肿瘤样本中表达都没变化那么他跟预后肯定没啥关系，而那些在不同的肿瘤病人样本中表达变化较大的更有可能与病人的预后相关，基于此我们可以通过计算每个基因在各个肿瘤样本变化程度来衡量这些基因的相对重要性，所以我们选择“变异系数”这个指标来计算每个基因在各个肿瘤样本中的重要性，最终我们选择变异系数大于0.5筛选出了2669个基因（主观上觉得0.5这个阈值还行，你觉得不行可以换）

4.拿这些筛出来的基因做了功能富集分析，发现这些基因它们主要与免疫应答，细胞增殖，细胞分化和细胞粘附相关

5.下一步我可以根据这些基因的表达水平对这些基因进行分类一下，做个WGCNA，如图：

此图依然长相奇特，图中横向的代表基因，纵向的代表基因之间的距离（可以认为是相似度，图中越高表示越不相似），隐约中我们可以看出有八种颜色，他们一簇一簇的存在，这个图告诉了我这些基因可以分为八个模块，其中相同颜色都在一起，这说明这这些同一个模块内的基因他们之间的相关性非常高，那么这里还有一个无处不在的灰色为啥都是穿插着的呢？那是因为灰色是垃圾模块，那些不能正常分类到其他模块中的基因全都丢到灰色的模块里了，所以实际上我们最终得到的是七个有效的模块，所以我们这2669个基因根据他们之间的表达相似程度被分到了这八个模块中，每个模块中的基因他们之间存在紧密联系，我们可以根据这些基因在各个样本中的表达水平来计算出这个模块中的基因整体上的在各个样本中的表达水平我们假定为特征向量，那么分别计算这八个模块，我们就能得到具有代表模块中所有基因的八个特征向量，这个时候我们就可以根据这个特征向量结合样本的生存时间来分析一下这几个模块与生存时间的关系了，我们分别计算了两套数据集八个模块的生存时间关系如图：

从图中可以看出在两套数据中黄色模块很显眼，他与病人的生存时间呈现明显的正相关性，具有非常高的显著性，9.3×10 -13，9.3×10 -6，这提示了黄色模块中的大部分基因可能与预后密切相关。猜测不是实践，我们进一步的通过单因素生存分析分析了每个模块中的基因与预后的关系，统计显著与预后相关的基因如图：

从图中可以看出黄色模块中显著预后相关的基因明显最多，比其他各个模块中的都多。

到这里我们就可以把焦点挪到黄色模块上了，黄色模块中总共包含了144个基因，我们先看一下这144个基因在各个样本中的表达是什么样本的，根据这144个基因在各个样本中的表达水平线聚个类如图：

图中横向的代表样本，纵向代表基因，从图中横向的可以看出整体上样本可以分成两组GroupA、GroupB，纵向也差不多能分成两组，一组在GroupA中表达高（图中红色表示低表达），一组在GroupB中表达高，因为我们这个模块中的大多数基因与预后是显著相关的，那么我们有理由猜测GroupA、GroupB两组样本预后有差异，所以我们分析了两组样本的生存时间，发现他们确实存在显著的差异p=0.008，如图：

从图中可以看出GroupB的预后显著差于GroupA

从表型分析上我们看到了黄色模块的基因与预后密切相关，那么这些基因他们是通过什么途径参与到肿瘤的发展中的呢？我们使用功能富集分析对这黄色模块的144个基因做了KEGG 功能富集分析发现这些基因富集到了细胞周期、卵母细胞减数分裂、p53信号通路、孕酮介导的卵母细胞成熟等生物学通路中，这提示了这些基因可能通过这些通路从而参与到乳腺癌的发展中。

从功能上我们看到了这些基因所富集到的与肿瘤和女性密切相关的通路，那么这144个基因中哪些基因是最具有代表性的呢？我们根据黄色模块的特征向量，分别计算模块中每个基因与模块的特征向量的相关性来筛选与黄色模块最相关的基因（hub gene），最终我们得到了最相关的10个基因：

到这里文章就结束了，总结一下，合理的归纳总结统计，是生物信息学分析的核心，这篇文章整体工作还还算严丝合缝，但是图略显粗糙，因此造成了分数不高的局面。

看了以上，你肯定想说：如何学习人家的做法才是王道！

来源：弗雷赛斯

夏华向教授呕心沥血，倾情奉献....30年科研历程，500万科研经费，3项科技进步/发明奖，180余篇科研论文……由诺贝尔生理学或医学奖获得者Barry Marshall教授，American Journal of Gastroenterology前主编Nicholas J. Talley教授，JAMA杂志副主编Edward H. Livingston教授，New England Journal of Medicine编委照日格图教授联合作序力荐！《一本通》是生物医学科研工作者最实用的论文写作与发表工具书，更是医药健康企业馈赠合作机构和关键客户的超值选择。

长按二维码识别关注“美捷登”

啥门道？两篇文章一字之差，影响因子竟天壤之别！

账号		自动登录	找回密码
密码			注册会员

啥门道？两篇文章一字之差，影响因子竟天壤之别！

晓木虫

啥门道？两篇文章一字之差，影响因子竟天壤之别！