我能不能做生信？生信难吗？

科研论文时间2022-07-15

3772

什么是生信，现在有没有必要学，怎么学？相信一提到生信，很多人是又爱又恨的。爱的是现在流传的一种让人心动的说法，「不用做实验就能发文章，好棒啊」。恨的是「R 语言太难了吧，我不会写代码！」或「我数学不好，统计学差，几万个数据怎么处理看得头都大」。

就像朋友跟我讲的「找到数据库后，后续不知道怎么做了，密密麻麻的看着密集恐惧症都犯了」。

今天，我们就来聊一聊，生信有那么可怕吗？

一、生物信息学的前世今生

「生物信息学」，这个名字听起来特别高大上。看名字除了生物学，又是计算机，又是信息学的。很多人一打开生信文章就被它各种复杂图表吓倒，如下图。

图片来源：文献截图

但实际上不用怕的，阿 Q 一点你甚至可以这么想「如果我学会了，是不是很牛逼？」生信表面上看起来难，但我自己学习时的理念一直都是：生信是生物学和计算机的交叉学科，计算机大神多，很多技术上的难题都已经帮我们解决，跟着大神的脚步走就可以了。

今天，想跟大家简单介绍下生信的前世今生，并通过一个小例子告诉大家，生信并不可怕，生信可以学！

个人十分推荐学新东西的时候花点时间了解它的历史，了解它在什么背景下为解决什么问题而出现，目前进展到什么程度，将来又将去往何方。

如果你想了解一个疾病或一个分子，一份高质量的 Review 是很不错的选择。但对于一项新技术，百度百科或维基百科就够了。

图片来源：文献截图

如维基百科\百度百科的介绍：「Bioinformatics」是 Biology（生物学）+information（信息学）+omics（组学）以及数学和统计学组成的新兴交叉学科。

它伴随着上个世纪八九十年代人类基因组计划的诞生而出现。「人类基因组计划其宗旨在于测定组成人类染色体（指单倍体）中所包含的 30 亿个碱基对组成的核苷酸序列，从而绘制人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的（百度百科）」。

30 亿个碱基对这么庞大的数据，做过实验的大家都知道这个叫「原始数据」，本身并没有什么意义，就是些数值而已。得到这些数据后如何处理、分析，以解决现实生活中的问题，是科学家们进一步思考的问题。

由于传统的生物学方法无法处理这么庞大的数据量，利用计算机强大的计算能力，生物信息学运应而生。

这就是生物信息学诞生最初的背景。近年来的蓬勃发展，主要归功于测序技术的飞速迭代。早期人类基因组计划 1 个碱基对测序的价格在 1 美元，全基因组测下来 30 亿美元。而如今，基因组已经进入了千元时代，人人都可以想做就做，因而产生了大量的有待分析数据。

二、生物信息学的基本功能

了解了什么是生物信息学，下一步就是要知道怎么利用它来解决实际问题，包括指导基础实验方向或结合临床数据解决实际问题等。

这里就回到一开始的问题：

「用生信手段辅助自己课题进展，一定要会写代码，会复杂的 R 语言并掌握大量的数学、统计知识才能开始吗？」答案是否定的。

上面提到的知识都懂当然最好，但作为一个临床医生或医学生，显然是不现实的，不然计算机或统计学专业的人早该下岗了。

幸运的是，计算机高手们理解我们的需求并已经帮我们解决了相当一部分问题。诸多在线工具，简单几步操作便能高效产出自己想要的效果。

不信我们来试一试。现在，就让我们看看如何用在线工具——「GEO2R」画一张漂亮又高大上的差异基因表达 Differentially Expressed Genes（DEGs）火山图，并理解其基本含义及价值。

生信的最基本步骤是对从数据库检索出的数据进行「差异基因筛选」。我们就以此为例，看看统计学家和计算机学家有多贴心。

图片来源：网页截图

这里我们选用 GEO 数据库，GEO 数据库全称为（GENE EXPRESSION OMNIBUS），感兴趣的可以去了解下，储存了大量肿瘤跟非肿瘤的数据。

首先进入 PubMed，选择 GEO DateSets，在此以「lung cancer」检索出的第一个数据为例。点击打开后，我们会看到对这个数据集的简单介绍，类似文章的摘要，介绍作者用的什么芯片，有多少例病人，以及如何分组等。

我们直接点击「Analyze with GEO2R」试试。

图片来源：网页截图

根据作者定义的「Source name」我们可以点击「Define groups」进行待分析组别的定义。然后，左键点击勾选，得到如下图。

图片来源：网页截图

这时候我们把需要分析的数据都选上了，直接拉到底部点击「Analyze」开始分析。

图片来源：网页截图

短暂的等待，神奇的事情就发生啦，我们会得到如下界面，图可以直接保存，数据可以下载！

图片来源：网页截图

有没有上面觉得很漂亮，很棒！我们暂时不展开解释这些图的意义，而是来看看统计学家和计算机大神们有多贴心。

刚刚我们直接选择了「Analyze」，会用鼠标，一键点击就能出图。

我们再回过头来「GEO2R」旁边的「Options」，你会看到这个在线工具选用了什么统计方法。

比如这里用的「Benjamini & Hochberg」以及后面几栏内容，相信大多数临床医生是看不懂的。但没关系，工具就是这么傻瓜式，选默认值就可以！

图片来源：网页截图

这些漂亮的图通过 R 语言进行可视化的，不知不觉中你已经用到 R 语言了，是不是自己都没注意到？

点击第四栏「R script」，鼠标滚动一下就能看到密密麻麻的代码。学过编程的都知道，一个空格敲错电脑都会报错，代码别人已经帮你写好了，很幸福有没有！

图片来源：网页截图

怎么样，到这里学生信是不是有点信心了？

今天，我们只展示了差异基因筛选的在线插件使用。生信后续的数据处理其实类似，你懂 R 语言最好，但很多时候是可以借助一些公认可以使用的工具跳过的。

具体如何使用有机会后续再交流，总之，生信可以学，要有信心！

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序