【摘要】 蛋白质组学正在飞速发展,因此用于研究生物分子(例如蛋白质或代谢物)的技术和仪器就需要不断更新计算基础设施。

蛋白质组学正在飞速发展,因此用于研究生物分子(例如蛋白质或代谢物)的技术和仪器就需要不断更新计算基础设施。目前科学界已经提供了广泛多样的用于数据处理、管理、可视化和分析的补充工具。这里介绍一种特定类型的软件,即“R”[1],以及它们对蛋白质组学数据分析的有用性。

“R”是一种开源统计编程语言,最初由奥克兰大学的Ross Ihaka和Robert Gentleman创建,自1997年中期以来,由R-core小组开发和维护。它最初在学术环境中用于统计分析,现在广泛用于公共和私营部门等领域,包括计算生物学和生物信息学。“R”的成功可以归因于几个特性,包括高灵活性、大量好的统计算法和高质量的数值例程、强大的建模和处理数据的能力、跨平台兼容性、设计良好的扩展系统和出色的可视化能力,这些特性是应对现代生物学复杂性和高维性的必然要求。

“R”语言本身的重点仍是以统计和数据分析为中心,同时它的功能可以通过第三方包进行扩展。由Robert Gentleman发起的Bioconductor项目特别关注计算生物学和生物信息学,他们开发了了数百个软件、数据和注释包的中央存储库,致力于高通量生物数据的分析和理解,并促进操作工具的开源、协调、合作和开放开发。新扩展包的开发和分发是“R”软件本身非常重要的动态方面。从事计算蛋白质组学工作的生物信息学家可以使用“R”和专门的软件包作为独立的分析和研究框架,或使用它们来补充现有的研究。

[1] R Core Team, R: a Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria3-900051-07-0, 2012.

 

免责声明:部分文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。