在基因测序中为什么要用到perl？

心中u你 · 发表于 2025-2-27 16:04

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

在基因测序中为什么要用到perl？
原文地址：https://www.zhihu.com/question/21096599

检验医师 · 发表于 2025-2-27 16:04

1. perl很多有软件和库，调用方便
2. 你可以用其他的，python，c++等
3. 我在用了python和c++后觉得他们写多重hash（perl，c里是map）时，perl写起来比较方便。

检验医师 · 发表于 2025-2-27 16:05

先说明一下，我用C/C++，Perl，R都比较多。
处理测序数据的时候，只是 Perl 用的比较多，但不是非得用 Perl 不可。
Perl 用的比较多是因为

历史原因：测序技术刚发展起来的时候（人类基因组计划完成之前），Perl 比较方便，而且人类基因组计划也确实在perl的帮助下才得以顺利完成（How Perl saved human genome）。当然这不代表非 Perl 不可，但人们选了 Perl，说明 Perl 至少是最方便的几种语言之一吧。
BioPerl：结果很快BioPerl就发展起来了，加上Ewan Birney等牛人的开发和推广，迅速流行起来。BioPerl更完善了Perl作为胶水，粘合各种不同程序的功能（整理程序A的输出，输入到程序B……），特别是Bio::SeqIO，Bio::SearchIO, Bio::AlignIO这些模块和bioperl-run包。
EnsEMBL：Ewan Birney后来又在 BioPerl 基础上弄了 EnsEMBL （不只是那个数据库，更重要的是EnsEMBL整个系统及其接口，可以套用到各种物种上：Ensembl Genomes），让存储和访问基因组尺度数据的方便性又大大提高了。通用的基因组尺度的数据库，其实UCSC才是先行者，但是EnsEMBL的数据组织和访问比UCSC更系统和规范。而EnsEMBL提供的编程接口基本都是 Perl 的。类似的还有GBrowse和BioMart。
个人经验（欢迎指出错误）：Perl 写个小脚本检验点小东西很快，不会给你原来的思路太多干扰。R其实也行，只是处理字符串 R （BioStrings）有点慢。

我想说Perl其实一点都不out，最近只是Python比较流行。同实验室用Python的同僚说，BioPython跟BioPerl实在差太远，因此最后投奔Perl了……
&#34;Do not reinvent the wheel&#34;

检验医师 · 发表于 2025-2-27 16:05

历史遗留问题，早期生物界，每建一个数据库，就折腾出一个新格式(格式设计者又没有任何正规的数据库背景，考虑不到以后的更新与可扩展性)，导致的后果就是，当年做生信的主要工作，就是在一大堆文本格式之间倒腾数据格式的转换，这时候perl的优势显示出来了 (这种情况下用正则其实也是野路子一时爽，好点的做法是认真写一个parser)。当然，现在还有不少用perl的，sanger研究所据说也还在招perl程序员的，这就和现在许多金融机构还在招COBOL程序员是一样的。

新入行的，没必要绑死在perl上，要选脚本语言的话，也是python更好些。但其实你真懂了一门语言以后，语言就不是障碍了。比如楼上
@popucui 提到的KEGG，其实KEGG提供了完善了SOAP以及RESTFUL API，会写简单爬虫的话，随随便便就爬下来了。。。。（逃

长长的路 · 发表于 2025-2-27 16:06

不一定用Perl。你用Python也可以。
问题应当是“为什么要用一个脚本语言”？
可以用来：解析、处理结果，组织分析流程。

大力水手 · 发表于 2025-2-27 16:07

首先明确一点，基因测序是测序仪完成的，测序仪做的，就是从你的样品里把一个个AGCT读出来，并且为每个碱基标记一个可信值，就是这个碱基有可能被读错的可能性多大。然后假设你想问的是，在接下来的数据分析中，为什么要用到perl。
perl在1987年出生的，这时候还没有python。有的时候，我们是没得选的，因为前人就是用的perl，我们要想用别人写的工具，只能也用perl。比如对大量基因进行KEGG注释用的工具KAAS
KEGG Automatic Annotation Server 就是perl写的，如果我想部署到本地，只好学用perl

图文播报

[分享] 在基因测序中为什么要用到perl？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心