生物专业如何从零信息学基础开始自学生物信息学？

千姿百态 · 发表于 2025-3-1 14:31

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

本人南京某211高校生物学基地专业大三学生，马上面临保研，导师已联系了本校资环院做植物营养与土壤肥料专业的老师，以后应该主要做微生物与土壤及肥料的互作方面的课题，暑假就去那边实验室学习了。深感现在生物学研究中生物信息学的重要性，而且了解了一些信息，感觉想要做好，信息学方面的基础很重要。现一整个暑假除了在实验室学习有大量自学时间，想趁着暑假开始自学，但本科生物学出身，没有任何基础，计算机语言只学过Vb，数学比较渣，不知如何入门。本科上过选修过生物信息学的课程，主要都是mega等程序的应用，老师讲原理又听不懂，感觉原理其实长远来看很重要，现请问我该如何从信息学0基础开始入门学习，有什么好参考资料或视频课程？菜鸟谢各位大神解惑！万分感谢
原文地址：https://www.zhihu.com/question/31977229

队长是我 · 发表于 2025-3-1 14:31

学生信还是要多看文章，先看会被人是怎么用的，然后学会怎么做。

看看本文的目标细胞发现过程，单细胞在很多实验的文章中作为一个引子，很合适

近日，上海交通大学医学院的研究团队在前列腺癌免疫抑制的研究中揭示了一类富含铁的癌症相关成纤维细胞（FerroCAF）通过铁依赖的表观遗传机制推动癌症的进展。这一发现不仅揭示了FerroCAF在前列腺癌中的作用，还为肿瘤免疫治疗提供了潜在的治疗靶点。
看看他们的发现过程
他们的起点是利用单细胞RNA测序技术分析前列腺癌小鼠模型中的癌症相关成纤维细胞（CAF）的异质性。CAF是肿瘤微环境中的重要成分，它们以往被认为主要通过物理屏障阻止T细胞进入肿瘤组织。然而，随着单细胞技术的发展，CAF被发现具备多种支持肿瘤生长的功能。

在研究团队的分析中，CAF被分为5个不同的亚群，其中一个亚群特别引起了研究人员的关注。通过进一步分析，这个亚群（命名为Cluster-1 CAF）显示出“铁吸收”和“铁死亡”相关的分子特征，提示其与铁代谢密切相关。通过普鲁士蓝染色，研究人员在前列腺癌小鼠模型的肿瘤组织中观察到肿瘤基质中存在大量富含铁的细胞。
为了确认这些富含铁的细胞确实是CAF，研究团队通过免疫荧光染色进一步验证了这些细胞表达CAF的标志物Pdpn（Podoplanin），而不是上皮细胞或免疫细胞的标志物。这一发现首次确认了一类铁富集的CAF在前列腺癌中存在。

铁富集CAF的功能验证（怎么看这群细胞的免疫抑制功能的）
为了探明这些富含铁的CAF的功能，研究人员采用了多种实验方法。通过对这些细胞的进一步分析，他们发现FerroCAF分泌了一些与髓样细胞（如巨噬细胞、髓源性抑制细胞）相关的蛋白质，如CCL2、CSF1和CXCL1，这些蛋白质被认为能够招募免疫抑制性髓样细胞，从而抑制T细胞的功能，促进肿瘤的免疫逃逸。
此外，研究人员发现，FerroCAF中的铁是通过一种名为HMOX1的铁代谢酶介导的，该酶通过降解血红素释放铁，从而导致细胞内铁的积累。这些铁激活了一种铁依赖的表观遗传酶Kdm6b，后者通过调节染色质的开放状态，促进了上述髓样细胞相关蛋白的基因转录。这一机制为FerroCAF在肿瘤免疫抑制中的作用提供了新的解释。
FerroCAF在前列腺癌患者中的临床相关性（结合临床）
为了进一步验证这一发现是否适用于人类，研究团队对前列腺癌患者的临床样本进行了分析。他们发现，在高分级前列腺癌（即Gleason评分高的癌症）患者中，FerroCAF的富集程度显著高于低分级癌症患者。这一结果表明，FerroCAF的存在可能与前列腺癌的不良临床结局有关。
同时，研究还发现FerroCAF不仅存在于前列腺癌中，还在肺癌和卵巢癌等其他癌症中表现出类似的免疫抑制作用，这提示FerroCAF可能是多个癌症类型中的普遍现象。

潜在的治疗靶点
该研究的重要意义在于，FerroCAF依赖于HMOX1/铁/Kdm6b这一信号轴来维持其免疫抑制功能。因此，研究人员通过药理学手段抑制HMOX1活性，成功降低了FerroCAF的铁含量，并显著减少了髓样抑制性细胞的招募，从而增强了抗肿瘤免疫反应。这一发现为前列腺癌及其他肿瘤的免疫治疗提供了新的思路，未来或可通过靶向FerroCAF来改善患者的预后。
总的来说，本研究揭示了一类通过铁代谢调控免疫抑制的CAF亚群，并为相关的抗癌免疫治疗提供了潜在的突破口。这一发现有望为临床治疗提供新的策略。
关键词：单细胞测序，生信分析，转录组数据分析，生物信息学，公共数据挖掘
今日的参考文献
Zhang, K., Liu, K., Hu, B. et al. Iron-loaded cancer-associated fibroblasts induce immunosuppression in prostate cancer. Nat Commun 15, 9050 (2024).

长长的路 · 发表于 2025-3-1 14:31

我的观念是，现在湿实验背景的人一定要把信息学至少学到中等以上程度，否则对自己未来的就业会有困扰。除非你的湿实验真的可以让你持续的发表出好文章。学习信息学还是能让自己提高下线，并且促进自己的湿实验的方向。
所以专门写一篇文章，零基础的人如何开始在一个湿实验室自学生物信息学甚至有机会变成一个更高阶的数据科学玩家。
一、最重要的学习方法上
一定要在有了一点点知识后，去实践。边实战，边搜索，边听课作为一个休息。听课是系统学习，但是实践才能让你有更深的印象。
学生思维的人总想着先听课，然后几个月后再开始实战，你的老板绝对等不了你这么久。
二、观念上，为什么要学习生物信息学？
首先，生物信息和计算生物学本质上都是研究生物学问题。如果你有生物信息学的手段，那你可以更好的理解你要研究的这个生物学问题。
由于主要做湿实验是一些非生信专业的首选，而且生物学的问题最终也都是使用湿实验来验证结论的。再加上很多生信流程并不需要太多的基础背景，网上代码都能爬到。尽管在准确性或是可视化水平上比不上生信专业人士，但是基础的流程通过自学完全可以胜任。如果有生信专业的同门挚友帮忙，那就太好了，一些困难的点稍微求助一下很快就能跑通顺。
另外主要做湿实验的人学习生信也开始降低了门槛，很多生信流程已经逐渐向大众化发展：大量的在线软件、小白教程等等就是在让不懂编程的人也能做上生信。当然了，最好还是懂编程，不说别的，学会R就行，R的编程思维很简单，本身也是面相统计的语言而不是用来编写程序的，很好入门。学会R之后你会发现至少70%的生信流程你都能自己跑。

所以作为湿实验室训练出来的人，抽空学习生物信息学，这是一件学习成本低而且上手快的事情；你学会了一些生信的内容，也可以帮助你很好地和生信专业人士沟通合作完成大项目，也可以自力更生，偶尔求助便能干湿结合发文章；主湿副干目前是生物领域的发展大趋势，绝大多数人的最优选择，无论是求学求职还是考虑未来发展都不错。
有人担心自己掌握了几个流程，未来可能用的次数也不多，跟你学会ai的一些一些工具、学会spss和学会prism等等或者一些湿实验技能的投报不成正比。花费很大心血跑通的流程可能就用那么一次，过段时间又忘了又过期了。但是其实这也是一个学习的过程，让你在这个AI的时代可以有更多底气。
你可以想象一下，大多数生物学博士，其实都没有拿得出手的生信技能，也没有好的成果（很多成果都周期长），这会直接导致你在找工求学时没有优势；不了解生信的话可能在构建实验流程上片面，赶不上热点；因为没有生信基础错失一些机会。
有人觉得，自己可以纯湿，就把实验技能学好了，把科研能力训练好了，自己强了，自然就有人跟你合作，自然就有更好的成果。这个想法其实也没错。
但你觉得目前最火最有前景的职业是机器学习、大数据、AI还是传统的经典的分子生物学？
生物医学向大数据大模型的数字革命趋势已经很明显，很多老PI都已经在从传统学科向AI转变了，不然感觉混不到退休。
湿实验当然应该成为你的优势，如果你能干湿结合，能发表的文章的分数也会高一点，重点还是验证你的生信分析结论。另外即使你是All in生物信息学，但是如果没有自己的大样本支持和靠谱的实验技巧，生信是否有可靠性还是一个大问号，所以还是要干湿结合。
个人觉得对于一篇文章来说，生信分析很多时候是一个科学故事的开始，理想情况是生信找到自己感兴趣的内容，再开展湿实验。当然，实验的过程中没有那么多理想情况，能找到有价值的点最后串成一个故事才是最重要的。干和湿都只是手段，科学问题才是必要的。任何一个最好的实验室，老板大多数都是湿实验的背景，不太懂信息学。但是他一定会需要信息学很强的人，为了争取到这样的人甚至会开更高的工资。
当然，如果觉得学一点信息学就可以拿高薪那也还是别做那个梦，任何一个领域都得做到专家的水平并且你能证明你真的有这个能力才能拿到高薪。只能说目前高薪的岗位里面，有信息学技能的人找到高薪岗位的概率大一些。

那么，生信可以碰瓷赶上未来产业的风口？什么“生物医学大数据”、“医疗人工智能”、“CADD”、“ai4science”听着挺酷的，投资也不错。
看着初创公司的招聘，要的是计算机、人工智能、数学统计以及计算生物学背景。生信不具备对口的专业和技术，也许行不通，只能灰溜溜的回去生物实验室搬砖。
最后注意一点，生产力工具对很多编程高手的冲击最大。用一下ChatGPT Code Interpretor感受一下吧。当然，现在也是依靠这些工具让自己能够较短时间成为干湿结合高手的最佳时间。
三、言归正传，生物信息学都有哪些内容，需要学习什么？

其中最重要的测序和组学如火如荼，各种RNA测序、单细胞测序、蛋白组、翻译组、空间转录组等。
关于测序和组学是最热门的，也是需求量最大的部分，你需要准备什么知识：
其实大多数人自学生物信息学主要是为测序而生。当前最成熟，应用最广的是二代测序（Illumina，MGI，Ion Torrent）。目前格局大致如下：
传统测序
新一代的三代测序
蛋白组，代谢组、翻译组、空间转录组等等。
组学涵盖面也是非常大的。有DNA的序列分析、RNA-seq、ChIP-seq、bid-seq等。

要说哪些东西是组学中必须掌握的，我觉得有以下这些。

测序原理：一代、二代、三代测序。Illumin、MGI、Ion Torrent、PacBio
基本的文件格式：Fasta, Fastq, BAM, VCF, GFF
数据质控：fastp，Fastqc, Multiqc
比对软件：blast等。序列相似，推断结构相似，结构相似，推断功能相似，是生物学的基本假设。因而要深刻理解生物信息学中相似性比对的思想

四、你想自学到生物信息学到什么程度？
可以参考一下知乎大神孟浩巍的回答里面的内容，这里这贴一张他的图：

现在生物信息学需要解决的主要问题的方向：

一般而言生物信息专业人士的成长路线是：

掌握细胞与分子生物学基础知识
掌握Linux常用命令
掌握Python编程基础
学习组学相关知识
学习一门高级语言
研究优秀生信算法
发现问题，解决痛点，成为专家

五、如何自学生物信息学
0. 从windows到linux
无论是做计算生物学还是生物数据的挖掘，都是在linux平台或者相类似的平台下完成计算与分析的。一个很重要的原因是，linux下面有很完善的开源体系，基本上所有的生物信息学软件在设计之初都首先考虑linux平台。
《鸟哥的linux私房菜》作为参考书，不要一章一章的学习。
北大罗静初老师在自己的网站上总结了《linux十大常用命令》、《Unix十大实用命令》和《Unix十大高级命令》。
教程：https://www.runoob.com/linux/linux-tutorial.html

1.基础知识（其实可以跳过，或者与代码等实践学习同步进行）
入门了解：北大的生物信息学MOOC好好看
https://www.coursera.org/learn/sheng-wu-xin-xi-xue

2.测序技术原理（湿实验室已经基本都在各种测序了）
B站的陈巍学基因，挑选你会接触到的生物信息学技术看一下。

3.编程基础主要是R和python
R语言
解螺旋的课程可以做一个快速入门，没有渠道看也没关系，系统学习推荐北大李东风老师的R语言教程：
https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/index.html

B站《R语言入门与数据分析》
https://www.bilibili.com/video/BV19x411X7C6/?spm_id_from=333.976.0.0&vd_source=93d8d178747faaa19395111a980f317d

一定要把数据结构和tidyverse包学好。
不是很适合当作一门编程语言来学，更像一门统计语言。这门语言的确真的为统计而生的，所以学生信一定要学统计。

生物统计学的学习，可以看看孟浩巍的腾讯课堂的课程。
R语言的学习，孟老师的知乎live和R语言编程艺术。只需要看前9章节的内容。
最后就是练习：https://zhuanlan.zhihu.com/p/336278893

推荐另外一个知乎大神的题目，帮助自己不断地提高。他给的练习方法也可以快速的go through一下，主要是好好的理解知识和练习。

关于Python：
南京大学MOOC、北京大学MOOC，当然还有一些入门课程，可以私信我要网盘。
https://www.icourse163.org/course/PKU-1003479006

生信的多，基本上多多少少都会用点机器学习的东西，二Python做机器学习几乎都是首选语言了，推荐廖雪峰老师的课程。把知识的主刊都理清楚了。
书的话就是《跟老齐学python》
另外还有就是如何保持学习的进度和做题巩固提高。我推荐是理论和实践齐头并进最后效果才最好，如果一味的被动灌输，效果一定不好，也容易放弃。下面提到的这个100天项目链接：
https://github.com/thinkergithub/Python-100-Days

Python里面这里面有一个很重要的包叫Matplotlib 包
其实就是在python环境中的MATLAB （科学制图里大神级的软件），而且和它语法结构和用法大致相同。
相当于上边提到的ggplot2，只是一个运行与R环境一个是Python环境里的可视化工具包，这两款看个人喜好来学习一个，另一个了解就好。
4.读文献，拆解文献里面的生物信息学方法。
有了一定基础后，一定要和以上三步同步进行和练习！绝对不能一步步来，效率低，你的老板也会觉得你没啥用的。
了解你的方向的相关纯生信文章套路，练习一些简单的生信分析方法。例如差异分析三大 R 包、富集分析、GSEA、生存分析，等等。
一旦复现不了或者有什么问题，可以去看看张旭东老师的基因课、曾健明老师的生信技能树、孟浩巍老师的腾讯课程等等。这个阶段一定要动手自己写代码，多练。有问题可以在知乎、CSDN、简书上查找。
5.有所小成后要开始做项目
包括复现一些纯生信的内容文章：选择一个你所关注的领域，选择一篇比较重要的文章，最好是和你以后研究类似方法的文章，把文章读懂，再把文章的数据都下载下来，，根据文章的描述复现文章的结论。重点放在如何实现上。
推荐一个这个网站：
https://www.homolog.us/blogs/

覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者
6.学习渠道（单纯好用，不是广告）
生信菜鸟团：适合生信初学者，包括常用软件，格式，流程的教程，主要由文献推荐，帮助新手快速进入生信状态。
生信技能树：包含论坛和公众号，有高质量的推文，包括生信分析的方法，软件教程，生信会议信息，还有彩蛋和吐槽推文。
生信人：有生信文献的推文，研究方法的教程
宏基因组：主要发微生物方面的推文，也包含生信分析的教程
CSDN：https://blog.csdn.net/u011262253

简书：https://www.jianshu.com/u/edebc0f5f8ba

各种大神的知乎专栏，比如上文提到的好几位，这里不再贴链接。
六、如何入门机器学习/深度学习

再次提醒，有了一定基础后直接看文章，注释代码，别被动的看什么课学习，学到一定程度后看课都是浪费时间。做任何事情都是这样，实践出真知。
要全面地入门机器学习领域，需要经过一系列精心设计的学习路径。下面是一个详细的步骤指南，可以帮助你从零开始逐步掌握机器学习的核心概念和技术。
1. 计算机科学基础知识及Python编程技能
哈佛大学CS50课程：这门课程提供了计算机科学的全面介绍，涵盖了算法、数据结构、网络等基础知识。它适合初学者，并且可以通过edX平台免费在线学习。
Python编程：Python是机器学习领域中最常用的编程语言之一。你可以通过Coursera、Codecademy或其他在线资源学习Python。重点掌握数据处理、函数编写、面向对象编程等核心概念。
实战练习：通过完成小项目或参与Kaggle竞赛来应用所学的Python技能，例如简单的数据分析任务或可视化项目。
2. 经典机器学习理论与实践
理论学习：阅读经典的机器学习教材，如《Pattern Recognition and Machine Learning》或《The Elements of Statistical Learning》，了解监督学习、无监督学习、强化学习的基本原理。
实操训练：利用scikit-learn库来实践常见的机器学习算法，如线性回归、逻辑回归、决策树和支持向量机等。
数学基础：加强数学基础，包括但不限于微积分、线性代数、概率论和统计学。这些知识对于理解机器学习算法至关重要。
额外技能：学习数值计算方法和优化理论，以更好地理解模型训练过程中的数学原理。
3. 深度学习基础与进阶
Yann LeCun的NYU讲座：Yann LeCun是深度学习领域的先驱之一，他的讲座提供了深度学习的深入见解。当然也可以看看马毅教授的最新讲座和他未来要出的一系列通识与进阶课程。
fast.ai课程（我大哥强推）：fast.ai提供了一套实用的深度学习课程，注重实际应用而非纯理论。
deeplearning.ai系列课程：由Andrew Ng教授创建的这套课程专注于深度学习的专业化训练，覆盖了从基础到高级的各种主题。
实战项目：使用TensorFlow或PyTorch框架来实现深度学习模型，并尝试解决图像识别、自然语言处理等领域的问题。
4. 机器学习软件工程与部署
Full Stack Deep Learning课程：这门课程专注于机器学习系统的构建与部署，涵盖从数据管道到模型服务化的全过程。
软件工程基础：如果缺乏软件工程背景，可以先通过“Full Stack Open”课程学习Web开发、分布式系统、DevOps和数据库管理等基础知识。
持续集成/持续部署(CI/CD)：学习如何使用Git进行版本控制，并设置自动化的测试和部署流程。
5. 发展专业领域与项目经验
定位专业方向：选择一个你感兴趣的领域，比如自然语言处理、计算机视觉、推荐系统等。
Hugging Face课程：Hugging Face提供了丰富的自然语言处理课程和工具，适合希望在此领域发展的学习者。
项目实践：通过GitHub等平台分享你的项目，参与开源项目贡献，或构建自己的项目来展示你的技能。
论文复现：尝试复现最新的研究论文中的实验结果，不仅可以加深对前沿技术的理解，还可以作为简历上的亮点。
通过遵循上述步骤，你将能够建立起坚实的机器学习基础，并逐渐成长为一名专业的机器学习工程师或研究员。

检验医师 · 发表于 2025-3-1 14:32

楔子

经过半年的准备，一年的筹备我们的Python课程终于来了！
因为上半年我们一直在忙自己文章的修回，因此一直没有机会跟大家进行交流。好在最后有个好结果，也算是付出终有回报！这次我们终于有时间跟大家聊一聊我们对编程学习的想法和理解，希望大家能读到最后。
我们对生信的粗浅理解

生物信息学（Bioinformatics）是一门交叉学科。
从本科开始到现在，我做生信分析大概10年左右，以我目前粗浅的理解，我认为：生物信息学是一门以“信息学”为手段进行“生物学”研究的学科。
因此想要做好生物信息学其实并不容易，因为这不但需要研究者能够深入地理解生物学问题，同时还要求研究者能够懂统计，懂算法，懂编程。能够建立起数据与生物学问题的关联，并应用合适的算法以及编程的手段挖掘数据，解决问题。
因此，想要做好生物信息学，编程永远是绕不过去的一道坎。
学习的痛点与难点

Python，R以及Perl语言等高级语言都是做生物信息学分析，尤其是组学分析，最常用的语言。
这几种语言各有特色: R语言更擅长统计学分析与可视化绘图；Perl语言虽然执行效率高，但可读性较差，并且有日渐衰落的趋势；而选择Python作为本次课程的讲解，一方面是因为Python是一门高级编程语言，有着比拟自然语言书写的过程，入门非常方便；另一方面是Python应用广泛，有庞大的社区及标准库，遇到问题方便通过网络交流解决；最后一方面是虽然Python入门容易，但它支持函数式编程、面向对象编程等多种编程范式，学习以后非常容易再接受其它编程语言的学习。
但是在学习生物信息学的过程中，“生物学”与“信息学”的学习难度往往并不相同。“生物学”的学习，在实验室或者公司的氛围中耳濡目染，通过逐渐地积累总会有所提高。
但是“信息学”尤其是编程的学习，往往需要点拨，需要有人能够在关键时候指导。很多时候，学习过程中会有一个特别深刻的感受：跟随网络上优秀的编程课学习以后，所有的编程基础，编程知识点都知道了，但是依然不会使用编程手段解决在做生信分析时遇到的问题。
为了解决这个痛点，我们才下定决心，开设本门课程——《利用Python进行生信分析》
本次课程亮点

本次课程主要分成两个部分：基础部分与项目实战部分。
因为Python非常火爆，网络上已经有非常不错的入门课程，珠玉在前我们不奢求自己能够比他们做得更好。因此在基础部分，我们会简明扼要地介绍Python的基础语法，帮助大家学习基础的Python语法、搭建Python运行环境，确保能够让你的Python顺利“跑”起来。
至于项目实战部分，则是本次课程的重点与精华。我们安排了6个大的项目进行实战，其中会涉及到生信分析的常见格式如FASTA、FASTQ、BED、GTF、GFF、BAM、SAM等格式的的解析。也会带着大家从零开始逐渐学习，紧密结合生物问题进行编程分析并最终实现命令行工具的开发。
站在一个生信工作者的角度，本课程将尝试带领你成为一位合格Python coder的同时，也希望能让你学到如何完成生物信息学中的编程开发流程，并最终帮助你在编程和科研学习中更进一步，随心所欲地使用Python。
项目实战部分课程大纲

项目一测序序列的处理
- 序列储存格式的介绍
- FASTQ文件的操作
- 读取FASTQ文件并以FASTA格式输出
- 解析FASTQ的质量值，计算Q30比例
- 根据FastQC报告对FASTQ文件进行截取
- 根据FastQC报告，过滤低质量的lane，tile数据

- FASTA文件的操作
- 读取FASTA文件，并将其中U替换成T
- 读取FASTA文件，并输出反向互补序列
- 计算基因组序列的长度
- 计算基因组各染色体的平均GC含量
- 计算基因组中N的总长度（effective length）

项目二 BED文件的操作与处理
- BED文件格式的说明
- 使用bedtools对BED文件进行排序
- 获取两个BED文件的交集、并集
- bedtools展示 + 编写python代码
- 将基因组分成等长区间
- bedtools展示 + 编写python代码
- 按照binsize=1Mb计算染色体的平均GC含量
- 根据给定的BED文件提取基因组序列
- bedtools展示 + 编写python代码

项目三基因注释文件处理
- 基因注释与GTF/GFF文件的介绍
- GFF与GTF文件进行转换
- 统计各条染色体的基因密度
- 获得基因的的TSS，TES及启动子坐标
- 计算全基因组可转录区域长度及所占基因组比例
- 计算基因的转录长度、外显子数目及翻译区长度
- 计算基因的转录长度
      - 统计平均长度，中位数长度
- 计算基因的外显子（exon）个数
      - 统计平均个数，中位数个数
      - 统计最多exon的基因，最少exon的gene
- 读取genebank注释文件
- 计算基因的5’UTR，CDS，3’UTR的长度
      - 统计平均长度，中位数长度
      - 比较5’UTR，CDS，3’UTR哪个区域更长，哪个区域更短
- 提取各基因5’UTR，CDS，3’UTR的序列

项目四 BAM文件操作
- SAM文件与BAM文件的介绍与基本操作
- 如何理解 SAM 转为 BAM 以及必须 sort 之后 build index？(BAI INDEX 寻址)
- 使用Pysam读取BAM文件中的比对信息
- 对BAM文件进行过滤
- 根据MAPQ进行过滤
- 根据fragment length进行过滤（以ATAC-seq为例）
- 过滤softclip
- 计算给定区域的FPKM/RPKM/CPM信号
- ChIP or ATAC-seq 任意基因组给定区域计算 FPKM/RPKM/CPM信号
- 计算ATAC-seq的TSS enrichment score；
- 计算ATAC-seq的FRiP指标；
- 读取指定坐标位置的突变信息，并进行统计检验
- pysam
- Fisher检验

项目五：复杂命令行工具的编写与搭建
- 对基因组任意给定区域进行切割与信号强度计算
- ChIP-seq富集信号的计算与绘制
- ATAC-seq在TSS附近富集信号的计算与绘制

项目六：支持多核计算程序的编写
- ChIP or ATAC-seq 任意基因组给定区域计算 FPKM/RPKM/CPM信号【多核版本的编写】
- 计算时间的比较开课时间与福利信息

我们本次课程依然采用线上的形式，支持直播观看与在线回看。第一次上课的时间为2022年9月11日。
因为这么多年以来，支持我们的大多数都是还在硕士、博士阶段求学的朋友，所以长久以来我们都本着低价优质的宗旨在进行课程的制作。本次我们制定的课程价为398元人民币，也希望大家能够根据自己的需求理性选购。
另外，跟往次课程一样，我们在开课前会给大家限时发送优惠券，可以减免190元RMB，总共50张，数量有限，感兴趣的朋友可以直接私信我领取！
截止到9月10日，先到先得，总共50张送完为止，谢谢大家的支持与厚爱！

队长是我 · 发表于 2025-3-1 14:32

生物信息学需要什么能力?

通用能力：R语言、linux、高通量测序、数据库
进阶能力：python、数据结构、统计学、生信算法
高阶能力：java或者C++，机器学习
从工作角度来讲，通用能力熟练，有一定的进阶能力即可。
那么关键来了，该如何提高相关的能力呢？

复制我在如何学习生物信息学下的回答，增加了一下数据库的内容。
开始生物信息这个专业今年已经是第七个年头了，本科自己所学的专业就是生物信息学，同样是从一个小白开始，经过了相对系统的训练。更加能够体会生信学习如果没有领路人是非常困难的这一事实，因为要学习的东西确实很多，整个大一大二的时候课程几乎排满，但有幸的是现在入行生物信息学有很多优秀的项目以及很多经验可以参考，可以快速入门。我会把自己学习过程中踩过的帮大家毙掉，减少学习成本。
你真的知道什么是生物信息学吗？
生物信息学和应用生物信息学不知道大家有没有分清，现在生信炒的很热，说的大多也都是基于测序技术的发展，目前来看，大多数人理解的生信都是应用生物信息学，题主是临床医学，那么可以断定是应用生物信息学了。
什么意思呢？就是以生物信息学作为工具，诸如此类，入门相对容易，也并不需要太扎实恶的数理基础和计算机编程能力，而更严谨的生物信息学目前更多的是基于全组学的软件和算法的开发，这个前景是非常广阔的，也是需要很多优秀的生信人为之努力的，在这一块的关键核心技术是掌握在国外的，有点可惜，但是国内的生信时间还不长，相关产业还么有那么高端，未来还有很大的进步空间，相信未来可期。
聊一聊应用生物信息学
很多人是生物学出身，生信的一些大牛也曾说过不用过分迷恋生信，如果你能够把这个工具学好，更好的去解决生物学问题，那是极好的。
还是建议编程基础不强的的尽量不要做硬生信，就是软件开发和算法，这真的需要时间的积累，希望不要被很多人忽悠，做做项目，硬啃下几本书，一年半载就开发算法。这样的回答其实挺不负责任的，每个人的人生每一步都至关重要。如果有志于做这方面的，后期可以一起探究和学习，这里就不展开讲了。
如果做生信需要掌握什么？
1、首先是生物学知识，我的导师在面试我的时候考察了很多恰恰不是编程的知识，而是生物学的知识，她说很多博士对于基因结构的理解都不是很深刻。这里总结了导师讲的这方面的内容，希望有所帮助。
这可能是全网最详细的真核生物基因结构讲解
这一次对于生物学的知识我更加建议是根据自己所在领域的文献查漏补缺，大量阅读本领域的文献，了解自己所需要的基础知识。
2、测序原理
目前市面上测序技术层出不穷，二代三代技术交相辉映，眼花缭乱，认准一个全基因组测序或者转录组测序都可以，这些是基础，一通百通，初学者通一门比门门都懂，但是不精通要好的多。二代illumina测序十分经典，其中的原理一定要特别通透。
可以先看下视频：
Illumina测序原理v.youku.com生信基础
这一部分我进行了整理归类，也是按照学习路径来分的~
总论

转录组

表观遗传

3、项目经历
重复一篇数据好的转录组文章，这里可以给大家推荐一个，数据简单，适合新手
Transcriptome analysis of an apple (Malus × domestica) yellow fruit somatic mutation identifies a gene network module highly associated with anthocyanin and epigenetic regulation
我要自学生信之生信基础-转录组:分析流程大全解，看这一篇就够了
同时我自己也推出了包含数据和代码的转录组宏基因组和代谢组分析资料，详情可联系
另外如果有机会一定要去实习：
比如华大、诺和这些，用来学习是可以的，大多数基因公司对实习的要求是不高的，勇敢向前拼
4、计算机基础
1）linux
基因数据分析，极度不推荐在Windows下完成，有很多的工具不支持，而且不利于学习，也不利于我们对数据的理解，不过，我们不需要成为运维专家，对于生物信息研究人员来说，只有了解Linux的一些常用命令即可。我也总结了常用的一些命令
分为几个部分
软件安装、文件操作、文本处理（awk、sed、grep等）、上传下载、目录（绝对路径、相对路径），基本熟悉这些就可以上手了，后续有需要的命令大家可以自己去找。我自己也总结了部分，还在继续整理中。

也推荐一个学习的网站。
Linux 教程 | 菜鸟教程www.runoob.com2）数据库
生信数据库的学习内容是非常多的，这里只先做个引子，谈一谈基础的数据库mysql，了解on、where、having、case when……
推荐边刷题边学习，当然数据库的学习中还有一个很大的障碍就是软件的安装。
软件安装：MySQL Server +Navicat
用window系统的可以安装下面的版本：MySQL Server 8.0.23

Navicat Premium 15.0软件安装教程
学习资料：牛客网sql题库、sql面试50题

3）编程语言
关于R语言学习路径：

基础技能入门：安装加载包、数据结构、变量类型（str）、数据导入/导出（read）、数据筛选数据（filter/select）、合（merge）、匹配（match）、追加（mutate）、长宽转换（reshape）、数据索引（index）、循环（while.for）、判断（if）、排序（sort/rank）、缺失值（is.na）、正则
这一部分我推荐你看一些书籍，直接对着书上面进行基本技能练习，在这个过程中head、str、help函数的使用频率>=1000次是极佳的。哪一本都可以，比如这一本的第二版前三章：
这个时候你的基础已经初步具备了，下面咱们就要开始做数据分析了。R做数据分析有些人比较喜欢用r-base（基础版本），当然我个人比较倾向于tidyverse（可以理解为加长升级版本）。使用前需要先安装然后加载他（安装就像你买了回来，加载表示你要用他了）。你以为这些就可以直接画图了吗？各种脏数据扑面而来，60%的时候就花费在了数据预处理上，我们看一下数据处理的流程。

第一步：数据预处理：
下面就开始第一步了，这里推荐完成 R语言数据处理120题一定不要复制粘贴，一个一个敲起来。优秀的预处理能力是你的数据分析中的锋利的宝剑。尤其是在缺失值、异常值离群点、冗余数据的处理技巧上。
第二步：数据可视化
做数据可视化的过程中会涉及一些统计的知识，那么下面的一些统计基础就派上了用场。
如果是医学生，恰好有一本深得人心的医学统计书籍。
我自己也在着手更新：

其实什么类型的数据画什么图都是很有讲究的

至于画图的细节每一种类型的图都需要详细进行讲解，我的ggplot2科研绘图篇也即将开始更新了，可以和小柯一起学画图。先来张看一看效果~

赶着学习的可以多看看书，专门挑ggplot2画图这一节即可，理解底层画图逻辑（像PS的图层）。看视频虽然也讲的很清晰，但是最好还是查漏补缺用。我这里也更新了一些：

第三步：数据建模
许多的数据可视化后不用建模就可以得出一定的结论，有些复杂的数据需要通过分类、聚类等不同的方式进行分析。可以分为探索性分析和预测性分析。这一部分我会单独在我的专栏进行讲解，这里就不展开了。至于深度学习的部分还是推荐用python。

关于R语言学习的一些疑虑
1、没有编程基础怎么办
R是我学习的第一门正式学习的编程语言，零基础也可以学会，达成目的即可，有时候只是为了画图而已，坚持一切编程都是纸老虎（怕就永远都不会）。
2、前面的学习路径还是不是很清晰，能不能简单再顺一下

R语言实战前三章
数据处理120题
基本图形+统计学了解
ggplot2科研绘图

3、学习路径太慢，可不可以直接开始科研绘图
亦可，边学边整理数据处理和统计相关知识，但是前面的基础技能还是需要看完，后期需要大量项目来进行补足，题海战术在语言学习中依然适用。你是不是想和我说没有办法实战怎么办？我……好人做到底，论文中的图片哪里来，R绘图来，数据哪里来，论文里面来（拿起论文-下载数据-开始画图）。
R语言的学习教程我已经开始陆续更新，更加贴近实际引用，解决问题：
R总论

R绘图

R语言与统计

关于Python语言：
关于python学习，我不推荐一开始就看太难的书籍，编程语言也很容易劝退，也不希望你只是在单纯的记忆理论，因为那样并没有太大的效果，我个人觉得还是从实战出发：
推荐一本入门的书籍：
与此同时，我常常遇到一些完全零基础的初学者，一看到晦涩难懂的代码就直接放弃，还有一部分人学习的过程中不注意代码规范，写出来的代码可读性很差，可以推荐大家看下百词斩的夜曲编程，这个软件最好的一点是规范性，会把细节的问题做成题目加深理解，比如代码缩进，同时支持在线编程，利于因为软件安装劝退的人

另外很多同学都处于一个比较忙的状态，这个程序可以在微信公众号学也可以网页学，公众号直接关注夜曲编程，网页直接搜索就可以，还是比较方便的。很多初学的编程者路径不正确，对于很对概念理解都非常不清晰，这对于后续的学习是非常不利的，基础不牢，地动山摇，这个软件里的概念卡可以帮助⼤家理解和记忆编程概念，最后的思维导图也可加强记忆。这一点对于初学者还是非常重要的。

理解这本书大约半个月左右的时间，并不会太耽误你的时间。看这本书实战的同时我还希望你做一些很通用的小项目，先在实验楼上进行学习，可以验证你的答案是否正确，这在初期是非常重要的，你一定要能够明确知道你做的是否正确：
精选项目课程_IT热门课程_蓝桥课程 - 蓝桥www.lanqiao.cnwww.lanqiao.cn有一定的基础之后，也许你已经摩肩擦掌准备迎战了，这个时候的你需要有一个大神带带你，一个人闷头苦干虽然很英雄，但我并不认为这样的英雄主义可以提高你的效率，开始入手github吧，如果你对github不算很熟悉，我恰恰写了一篇github的文章:自学生信之番外篇：一键解锁github 希望能够有所帮助
github上面的python100天的项目我本人极为推崇。它可能不是最好的，但是对于初学者是比较适合的，有人带你学习是一件非常幸福的事情。先放一下github的链接。

也许你会觉得有点难，突然觉得自己好婆妈，没有关系，作者把前面入门的15天重新做了一个50天练习的项目。

我希望你能够着重注意一下正则表达式的应用（生信中你将经常用到他们）: 正则表达式30分钟入门教程
这里我特意提及Numpy、Pandas、Matplotlib这三个库，着实是因为他们很重要。
Numpy：利用Python科学计算的基础包，对Numpy的掌握将会帮助你有效地使用Pandas等
Pandas：结构和操作工具，能够使Python数据分析更加快速和容易
Matplotlib和seaborn：Python可视化库。散点图、箱线图、小提琴图等都是手到擒来。
自学生信-机器学习python数据可视化：一节课入门seaborn
如果你能坚持走几年生物信息的道路，我想未来在生物信息学领域的深度学习会大量运用的，这几个库的熟练应用会给你一些助力，如若有机会你自己也可以尝试实现一些数据挖掘的算法，解锁一些你对于python的期待：数据挖掘18大算法实现以及其他相关经典DM算法

一点建议：我不是很希望你看大部头的视频，我希望那些是你在遇到一些问题无法解决时用来查漏补缺的，我看过很多的pyhon学习视频，大多大而全，即便可以坚持，却容易陷入耗时久远而无法解决问题的困境，没错，我在这样的循环中用了一年多才醒悟。走错的路不希望其他人重走自己的路，仅此而已

3）编程原理
当你有了一些基础后，可以开始写一点点代码了，那就要考虑代码的效率问题了，以及如果能够写出优美而省时的代码。这就要依靠数据结构和算法来实现了。
推荐入门书籍：
数据结构与算法篇：

这个一脉相承，是用python写的，有学C的强推大话数据结构
关于计算机这块可以看下之前我的回答，比较详细
生物背景入门生物信息学需要补哪些计算机知识？5、统计学+算法
生物信息离不开统计学，假设检验，贝叶斯推断、随机森林，SVM，回归分析，PCA等等等等，R语言高级绘图的部分和这一块紧密相连。
关于贝叶斯这篇文章写的自认可以（不要脸的自夸）
https://zhuanlan.zhihu.com/p/250777098统计基础（在R语言的部分已经讲）
再加一本入门书籍推荐（除了医学统计学）：
6、机器学习
西瓜书+南瓜书，周志华的西瓜书确为机器学习入门的经典教材，但是其中很多公式的推导初学时真的看不懂啊。南瓜书就解决了这一点，带你的数学水平提到周老师眼中大二下的水平。
南瓜书的电子版恰好准备了电子版，想要的来领取吧。
这个部分有点难度，B站吴老师的机器学习可以作为参考。
[中英字幕]吴恩达机器学习系列课程_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com专栏内也收录了一些经典的算法：

我要自学生信之数据挖掘:朴素贝叶斯
我要自学生信之数据挖掘:范数、凸集、凸优化、梯度
我要自学生信之数据挖掘:最优化条件
机器学习算法实践-岭回归和LASSO
支持向量机 SVM
我要自学生信之数据挖掘:从SVD到PCA到LSA
极大似然估计与最大后验概率估计
人人都懂EM算法
神经网络15分钟入门！足够通俗易懂了吧

7、批判性思维
重要性就不言而喻了，如果你面临一个事件或者一个项目提不出一个问题，或者思维混乱，那么你很难在这条路上走的很远。很多人可能觉得不甚重要，但要是按照重要性来排，我一定把它排在第二位。批判性思维的训练是需要长期进行的，是后天形成的。
推荐学习书籍：
8、好奇心+终身学习
多阅读相关领域顶刊的文章，持续下去，不出半年，定有所成，很多人都想一口气吃成个胖子，但学习往往不是一蹴而就的，树立终身学习的理念，站在巨人的肩膀上起点会高很多。
最后送给大家一句话：人要忠于年轻时候的梦想！

卡卡 · 发表于 2025-3-1 14:32

大家都说生信简单，不做实验就可以产出文章，真正做到的同学又有几个呢？我们在学习生信的过程中或多或少会有各自的问题，今天我们请到解螺旋优秀的生信学员们来为大家讲讲他们学习生信的心得和体会，相信对想入门生信的你或者对生信有点困惑的你会有所帮助。
一、分享人：小雪球
生信学习周期：2.5年
生信学习经历：
非生信专业，基础科研半道出家自学生信。从研二的时候开始接触并学习生信，目前掌握R语言，Linux；能完成基本的芯片，转录组测序分享。
生信学习经验：
1. 先搜索一下生信相关的推文与教程，了解一下生信这个领域能做啥，建立起一个主观概念，建立起知识树的框架；
2. 看生信分析相关的文献，以及公号上的文献思路拆解，了解一下生信分析的逻辑思路；
3. 根据生信教程学着复现一篇文章，思考这篇文章有哪些可以借鉴，有哪些还可以改善；
4. 搜集类似题材的20多篇文献，整理成一套比较完整的分析框架；
5. 对生信文章中需要的哪些技能不会，自己又感兴趣的，可以通过查教程、看说明书的方式进行学习。

二、分享人：棋圣
生信学习经历：
非生信专业，通过网络课程自学生信一年。目前掌握生信基本思路，熟悉从突变，DNA甲基化到转录组，蛋白组的数据处理及分析，以及肿瘤免疫，代谢等常见分析套路。
生信学习经验：
首先搞定转录组数据的处理分析，因为这一块可以用的平台最多，不需要编程基础也能有在线平台可以使用，最适合入门。掌握转录组的数据后也可以尝试一下肿瘤免疫，基因家族等常见套路，获得一定的成就感。之后再去学外显子数据，单细胞测序等一些目前学习资料不是很多，开源平台不是很够的项目，再与之前已掌握的套路结合下。

三、分享人：日行一膳
生信学习周期：4年
生信学习经历：
生信专业在读，目前设计R语言，perl语言python，JAVA，C语言等语言。目前从事肿瘤浸润，单细胞测序。准备学习宏基因组，微生物组信息学
生信学习经验：
1. 常规而言是需要坚实的基础，例如生物统计学，R语言代码基础。
2.对于一门语言而言最主要的还是可以对于已有代码的拆解，改错与应用方面，因为一门语言需要极其漫长的时间去掌握。
3.文献复习，网上有很多手把手复现代码，可以跟着做一下，增加兴趣可以更加深入的学习。
4.发现亮点，可以加入一些生信学习群，了解各路大神目前的研究方向。
5.生信迭代太快，所以要增加文献阅读能力，套路太过于老套的话容易被拒稿。
6.生信之路遥遥无期，要有一颗平常心，生信会经常遇到报错问题，每一次对于报错的处理都可以使大家更上一层楼。

四、分享人：太可乐了
生信学习经历：
非生信专业，从2018年开始通过网络课程自学生信。目前掌握的是R语言基础、芯片及RNA-seq的转录组分析。
生信学习经验：
从最简单的开始入门，如从转录组数据的分析，芯片和RNA-seq的分析方法不一样，但是整体思路一样，两者的转录组分析都要会。数据分析的过程应该要找一篇难度适中的文章去复现一下，尤其是要做哪些分析，哪些图。如果是小白入门，对R语言代码还不熟悉，可以先从解螺旋的生信体系课程入门，是无代码的，但是可以让你弄清楚生信的整体思路，具体要做什么分析来论证一个科学问题（挑圈联靠），在弄清思路的同时补充R语言基础，看了再多不如做一篇文章，边学习边复现，会进步很快。

五、分享人：YuT
生信学习周期：1.5年
生信学习经历：
非生信专业，研一开始接触生信，跟着老师学全基因组的分析
生信学习经验：
1.一定要先读文献，刚入学的时候用了两个月检索了领域所有相关的肿瘤易感基因，汇总成表格；一方面可以对自己的领域有所了解，相关数据可以用作meta分析。另一方面可以知道文章的分析套路，筛基因的方法。
2. 可视化的目的是更好的解读数据，不是为了炫酷。
3.如果想搞生信建议踏踏实实从基础学起，要读R语言和Linux相关的几本经典书籍，磨刀不误砍柴工。

六、分享人：园园
生信学习经历：
非生信专业，通过网络课程自学生信1.5年。目前大概掌握数据下载和分析的基本套路。
生信学习经验:
1. 基础不牢地动山揺，一开始还是逃不掉对语言语句，语法的认识。一开始参加了一些公众号的打卡营，每天按时按量学习。
2. 之后还参加了线下的培训课程，了解了如何利用编程语言去应用的实操。
3. 最后也是最重要的，一边操作一边学习，用需要来引导学习，这样进步是最大的。
4. 看到报错不要怕，或者就算没有报错也要仔细去一步一步查看数据，有没有出现错误的地方。出现报错就去百度，你不是一个人，不是第一次这样的错，一定能找到解决方法
5. 如果能有一群良师益友，会大大加快这个进程。

七、分享人：窝窝头.
生信学习周期：3年
生信学习经历：
非生信专业，毕业后开始接触并学习生信，目前掌握R，python，Linux；能完成转录组，基因组数据分析。
生信学习经验：
1. 先看下编程基础知识，找2本书慢慢看；
2. 看生信相关的文献和公号上的文献思路讲解，了解生信分析的逻辑套路；
3. 在公司的实际开发中磨砺；
4.要弄个电子笔记本多记录；
5.多跟大佬交流和取经。

八、分享人：Summer
生信学习周期：3.5年
生信学习经历：
非生信专业，大一的时候开始接触生信，目前掌握跳圈联靠的无代码全套分析，有一定的R语言，Linux基础。
生信学习经验：
1. 不要惧怕编程，早晚是要学的：刚开始是师兄师姐教了我一些GEO数据库的单基因表达预后分析，大一暑假开始慢慢发现要学习生信不学编程是不行的，所以大二开学后从图书馆借了《R语言实战》自学；
2. 实战很重要：大二时模仿无代码生信文章发表了一篇小文章，虽然比较简单，但也算实战了一次，收获比只看看学到得多得多；
3. 利用好微信推文：平时主要是根据公众号的推文学习，在要查找一些还不会的方法时，也是优先查找推文；
4. 做好整理积累：实战时主要还是依靠网上搜索的或者其他小伙伴分享给我的代码，自己再做修改，代码用过一次后就整理保存起来，可以用Rmarkdown，这样以后再用的时候查找比较方便。

九、分享人：汇然
生信学习经历：
本人临床中西医结合肿瘤专业，因为基础实验科研无望转学生信，最开始接触到生信就是两年前左右酸菜校长直播课提到的老板散养如何发sci。学习了最早解螺旋推出的生信精品课程，自己模拟做了数据并写了第一篇英文文献，因为小白所以误投到了一个野鸡杂志上哈哈。后来工作太忙放下了一段时间，为了发sci又重新自学生信一年，慢慢摸索着处理数据和出图，最后在小伙伴的帮助下终于以生信投出了第一篇sci。目前也是掌握生信基本思路，对肿瘤免疫比较感兴趣，在生信的浪潮正热的时候希望能抓住这个机遇哈哈哈。
生信学习经验：
学习生信后认为其实整体的逻辑框架和思路要比分析方法和数据图表还要重要一点，不过R语言和其它一些软件、网络分析平台等真的很重要。目前在潜心钻研R语言，争取从小白开始不断提高自己，达到能够独立解决问题，独立写代码的目标。目标很远大，还是要一步步脚踏实地的完成呀！向师兄师姐和小伙伴们多多学习！

十、分享人：风
生信学习经历：
非生信专业，2018年底接触生信，掌握R语言，了解python/matlab，能完成大部分生信下游分析，目前集中肿瘤免疫。
生信学习经验：
1. 直接上项目，明确医生学生信的目的是什么，我的目的就是发paper，直接上项目的好处在于你学完也就可以出文章了；
2. 编程不是生信最重要的，思路才是，所以请学好三十六策，举个例子，我第一个文章是可变剪切，除了常规可变剪切的套路之外，还加了驱动突变的内容，所以学好三十六策很重要；
3.记录分析过程的每一个步骤，包括试错的步骤，正确的结果能让你发文章，错误的探索可以让你源源不断地发文章。

十一、分享人：Meng
生信学习经历：
非生信专业，2019年底接触生信，我还是纯纯的小白～但是我有一颗热烈的心，我想追随各位大佬的脚步向你们学习～我老板想让我做单细胞的生信分析，准备开始正式的生信生涯了，跟着信天翁老师做了一期GEO助教，收货很大，R也算刚刚入门。感谢信天翁大哥把我带过来，感动的都要哭了，我虽然现在还没有什么经验和大家分享，我坚信将来我一定会有值得分享的～毕竟flag都立下了，不实现小雪球老师也不会答应啊～嗯，我还相信有志者事竟成～追随你们前进，前进，前进～

十二、分享人：风间琉璃
生信学习经历：
非生信专业，2019年8月接触生信，掌握R，机器学习在R的应用。
生信学习经验：
1. 赞同风师兄的话，项目是最好的导师。一开始有一个明确的目标，之后带着目地的去学，速度会很快。
2.多上gihub看看里面的大佬是怎么构建项目的，在你整个分析流程中的某一个模块，我相信你能在github找到答案。
3.代码出错学会检索，最直接的方式，把报错信息在bing stackover flow google github中检索，大部分问题都应该能解决。

十三、分享人：芝芝
生信学习经历：
临床医学专业，通过网络课程自学生信一年，掌握了TCGA及GEO数据下载、差异miRNA的筛选鉴定，miRNA靶基因的预测，靶基因功能的GO及KEGG分析，及miRNA-RNA共表达网络的构建，发表SCI论文一篇。

十四、分享人：%
生信学习经历：
非生信专业，4年前接触生信，虽然接触时间长，但当时网上基本没有任何教程，所以并没啥用，不会的还是不会，目前懂部分R，会linux基础、大数据spark的应用及html网页前端。
生信学习经验：
1. 简书、博客园、CSDN博客上有很多人分享的代码和最新的软件包，平时可以关注一些这方面的推文，可以学到很多东西。
2. 咸鱼和淘宝上也有很多关于python和R的易懂教程，有时间的话可以利用好一切资源。
3. 有时间可以多看看软件包的说明书，从一开始可能看不懂，但不断接触更多的新的包，看的说明书多了，会逐渐得心应手。
4. 很支持风师兄的观点，再次打call，36策和其他解螺旋的体系课极其重要，现在生信的思路越来越要求创新性，很多时候没有思路是因此基础科研知识的匮乏，而36策正好可以补足缺陷。
5. 对于R语言的感受，刚接触时可能觉得很变扭不熟练，但是用多了，慢慢的可以取代xls的很多操作，而且会比excel的速度快很多，更方便。基础一定要扎实，基础不够话，如果死磕某一小块领域，也可能走通，但是会像我一样浪费几年的时间，有的只是报错的经验，并没有什么提升，而从头打一遍基础，再选择不同的套路，会走的更快。
6. 另一点也是风师兄强调过的，一定要严谨，代码这东西容不得错，很多时候可能自己错了都不清楚，一个好办法是复现，通过复现，不仅能快速验证自己的学习成果，也能在一定程度上验证代码是否正确。
7. 有时间的话，可以学学PS、AI，这东西真不难，淘宝上随便淘个课，每天听1-2小时，关键一定要实战，不出1周，很多简单效果都会自己实现，而PS跟R正好是互补，R负责出主要的图形，PS可以进行调色和修饰。
8. 要还有多的时间，可以在pubmed上检索生信类文章，检索词可以是”WGCNA”、“CeRNA”、”TCGA”或“GEO”，就可以知道最近一段时间，出来了哪些生信文章，有哪些套路是新的，影响因子是多少，甚至可以看到期刊的接受速度是快是慢，不仅能够散发思维，等投稿时，哪些期刊对生信比较友好，心里都会有点数。

十五、分享人：土豆
生信学习经历：
本人中药学专业，最开始接触生信是在18年下半年生信圈内的某些大佬的交流会，发现他们都很年轻哈，却很厉害!从B站跟着视频学习R语言入门，阅读了《R语言实战》，《R数据科学》、《生物信息学（陈铭第三版)》等书籍，学习了GEO/TCGA/scRNA-seq等内容。后来药学毕业课题太忙放下了一段时间，现在在重新捡起中，在转向做单细胞方面的课题。目前Linux/R/统计/生物学基础一直在学习中，只有扎实的基础才能站得更高，走得更远！
生信学习经验：
1.入门阶段：Linux操作能力、R编程能力、统计、生物学基础知识等是必备的，先学习这些基础知识，才能看懂别人的代码，理解每一步分析的目的。
2.文章模仿：模仿别人的文章，学习生信分析的技巧、文章框架、逻辑，自己撰写几篇生信文章，相当于复习、整理、总结，才能知道哪些方面存在需要提高的地方；
3.统计学是决定我们生信能力上限的因素，生物背景决定了我们能够走到的高度；
4.“从每一件事情每一个细节开始”。若是能够透彻理解每一个细节，才会做好事情。

十六、分享人:晨
生信学习周期：1年
生信学习经历：
非生信专业,出于对电脑以及各种数码产品的热爱,从基础科研半路出家自学生信。目前会用R语言、linux、python。
生信学习经验：
1.说起生信学习经验，首先得有动机，我的动机就是我喜欢捣鼓电脑，所以只要用电脑的工作我都能胜任，简单来说就是要有兴趣。其实我对代码什么的以前是有些抗拒的，也许是被那些高深莫测的C、C++、Java吓住了，直到我遇见的R语言和python，尤其是R语言，在职业的程序员看来R语言可能根本就不能说上是一门电脑语言，更像是一个计算器，因为R语言相比于其他语言实在是太简单了，简单到像按计算器那么easy。
2.既然说到了R,那就要好好说说这个生信计算器。最开始接触R是解螺旋的麦子老师的一门R语言统计课，B站“解螺旋官方”有全集，贴心地标出：BV1JW411g7jP。麦子老师被称为麦子女神，是因为她深入浅出的讲解让R不再那么神秘。麦子老师是我的R启蒙老师，这里我非常感谢麦子女神。接下来的R学习就是在浩如烟海的网络资源中寻找到了适合自己的课程。我通过和几位生信前辈沟通，得知了一个不错的R资源，B站中也有，这里也要感谢B站提供了如此丰富的学习资源。
3.说完了R，接下来说文章。我同样也是通过网络资源学习到了生信套路。在学完了几个生信套路后我发现只有实践才是真理，所以我开始和别人合作投稿生信文章，通过对数据分析作图作表，到后期的写作投稿，终于拥有了一篇生信处女作。正如酸菜大大所说，“一种文章套路只有你自己发过一篇才能称之为真正掌握了，所以套路学习应该配合实践转化，学的不在于多和全，学会一种就能输出一篇才是真的会了。”

十七、分享人：阿琛
生信学习经历：
外科学专业，接触生信2年左右，一开始自己零零碎碎学了一些R语言的基本知识；根据解螺旋生信套路体系课简单完成了一篇文章，但没有投稿。后面开始系统的去接触生信分析，从数据库的使用，到利用R来完成统计分析，以及简单的机器学习部分。
生信学习经验：
1. 首先十分赞同风师兄的话，随着学习的深入，限制整个分析过程，很多时候往往是整个文章的谋篇布局。这个时候，学习三十六策里的课题设计展开思路就十分重要。
2.多看相关的文献，发现好的结果展示形式，可以针对性的去复现一些文章里的图片。
3.关于代码的学习，能理解内在的含义，当自己需要时知道怎么修改具体的细节。
4.对于代码，分模块保存，并注明其来源，用途，输入文件形式，以及输出结果的样板，方便后期在使用时只需简单修改里面的参数即可获得。

十八、分享人：涛涛
生信学习经历：
非生信专业，1年前接触生信，目前懂部分R以及java基础。
生信学习经验：
我觉得这个基础的话，我很有发言权。主要分为三个部分提供我的心得：1.脑 2. 心 3. 四肢
1.脑：指的是知识储备。我比较过解螺旋和其他友台的培训，说「友台」已经是客气了，其实都是乡村辅导班，解螺旋的生信体系课可谓是事无巨细地把生信大厦扎实地构筑起来，跟着四字口诀来，在知识专业性方面没有任何问题，其他友台教的都是村规。我就是一步一步跟着生信全书学下来的。
2.心：指的是耐心、恒心、细心。很多时候跑代码，抱错一大堆，很想砸电脑，但是发泄一通过后还得重拾起来努力。一定不要吃苦，你自己不能放弃。
3.四肢：指的是你的行动力。有问题，一定要自己去发掘。我有两个线上论坛觉得还蛮受用的，不知道此处能不能说，恐有置入行销之虞，一个是CDSN，一个是简书（如果不能提及大家请自动屏蔽），网上都有很多类似的问题，我好几次甚至google 看国外的解答。不懂就问，固然好，自己去寻找答案，更印象深刻。
希望这套集齐人体三个部位的学生信方法能给初学者微薄启示。谢谢！

十九、分享人：张振坤
生信学习周期：1年
生信学习经历：
本人是肿瘤内科专业，与生信接触是在1年前，那时候刚考上了在职博士，因导师没有实验室，我就在网上搜索不做实验就能发SCI的方法，自然就搜到了用生物信息学进行数据挖掘。以及生信学习必须具备的工具：R语言、perl语言、linux系统的基本操作，以及Linux系统下的shell脚本。
刚开始学生信是用在线的工具，零代码，简单、方便、高效，最先学的数据库是GEO、TCGA和oncomine。随着学习的深入，在线工具的弊端逐渐显现，比如，批处理效率低、参数调节不方便、受网速的影响。学习一门编程语言语言非常必要了。
最简单、最好学的应该R语言，编程风格接近自然语言，既能做各种复杂的统计，又能画出各种好看的图，关键的还是免费！！当然R语言也有弊端，文本处理方面不是很擅长，处理文本的R脚本编程复杂，运行效率低。
perl语言在文本处理方面要高效很多，举两个例子，一、TCGA数据库下载的文件，每个样本就是一个压缩包，每个压缩包放在单独的一个文件夹里，这时候需要用编程语言把这些压缩包放到一起、整合起来。二、上万个基因的id转换。上述两种情况，用R语言脚本处理就很慢，运行效率就很低。这时候perl脚本就显示出优势了。
后来学到了测序，以及测序分析的各种工具，基本上都是基于linux系统开发的，又大体学习了linux系统及shell脚本、linux虚拟机的搭建。不过现在的生信分析，测序公司会把各种测序结果整理好，并附带各种图片。所以linux系统学的不深入。
生信学习经验：
1.首先要耐住寂寞，面对的各种代码、各种符号，不要烦躁，面对屏幕的各种报错，要心平气和。
2.多练习，代码也是数学运算，学了不用，很快就会忘记。
3.网上各种资源很多，可以搜索，然后改下就可以用了。

二十、分享人：巧巧
生信学习周期：1年
生信学习经历：
非生信专业，根据生信全书，GEO/KEGG单元课训练营，生信套路课等进行摸索，复现和解读论文。曾尝试写过1-2篇，会促进自己的思考和理解，也就是输出倒逼输入的方式啦。
生信学习经验：
1. 多看今年推出的代码无代码数据库论文复现和其它课程资料，和多种分析方法结合，来尝试论文中的结果复现。
2. 多多关注一些经常解析文章的公众号。
3 自己先尝试课程给出的原始代码和资料，然后多尝试处理一些数据，并自己解读数据结果和完善内容。

二十一、分享人：The Hun
生信学习经历：
非生信专业医学类研究生，受困于疫情无法开展实验，于今年年初开始学习R语言，Linux以及一些无代码网页分析工具。目前独立完成了一个转录组及一个甲基化芯片的分析课题。
生信学习经验：
1.对风大佬的观点深有感触。开始接触生信的时候目标明确，就是为了能够在不做实验的情况下发paper。一开始接触了无代码生信，而后随着学习的深入，发现有一些个性化分析需求依赖于代码分析，进一步带着疑问开始学习R语言，以解决自身需求和问题为导向来学习，效率就比较高一些。
2.对于无代码的在线分析工具，最主要的学习方法就是不断尝试，把每一个功能都自己尝试一遍，慢慢就理解了其中的道理。
3.对于R语言，个人认为打好语言基础很重要，不然一个小小的错误可能会让你报错一下午。根据自己的分析需求与目的，去论坛，公众号等处学习大神的代码，内化为自己的知识，以目标为导向，效率会更高。
4.生信分析推陈出新的速度非常快，对于业余选手来说，到达一个水平后学习新的分析技术将逐渐变得容易，所以科研思路就显得更加重要。所以，多多阅读最新的文章，学习新套路，并对36策谙熟于心，将会受益匪浅。
经验：
（1）R语言软件在生信分析中具有强大的功能。
（2）多阅读本专业生信相关文献有助于生信思路的分析。
<hr/>知乎专属福利；助大家一臂之力、我为大家准备了一份基础实验protocol,细胞侵袭、细胞凋亡、细胞黏着、细胞周期等，不仅有细胞培养相关实验，还有包括不同研究水平实验技术Protocol，不同实验方法全流程，WB实验流程、注意事项、数据处理及写作、IHC实验流程、操作技巧、注意事项、图像分析等相关实验的详细步骤，全都是经过前辈们无数次验证过的，希望对大家的实验有帮助。

点击领这份实验必学protocol合集资料+一周入门pcr特训营
点击立即前往

图文播报

[分享] 生物专业如何从零信息学基础开始自学生物信息学？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心