12月18、19日两天,深圳国家基因库举办了“2018生物多样性大数据青年论坛”。我本人有幸作为报告人,参加了此次论坛。
会议规模很小,共16个报告。据召集人杨拓博士说,这是考虑到小型会议更有利于参会者交流。国内从事生物多样性大数据处理的专家很多,但这次邀请的大多数报告人是博士毕业几年内的青年科学家,他们大都在博士期间做了很出色的工作,也取得了丰硕的成果。
当然,像我这样博士毕业8年,并没有在科研一线奋斗的“生态学家”居然能获得邀请,感觉像中了大奖。11月中旬接受邀请以来,我就一直处在惶恐不安中,因为一直想不出特别合适的话题,担心会辜负重托。最后时刻,我终于想到能把自己所在植物标本馆的工作放在大数据背景下,介绍植物标本记录与小标本馆之间的关系,继而分析标本分布数据里问题的来源,并提出相应解决方案。
报告涉及生物多样性大数据分析的方方面面,大部分是对某一个或几个问题的研究成果,即便研究方法类似,所关注的类群也不同,涵盖植物分类学、植物地理学、昆虫地理学、鸟类生态学、植物标本馆学、植物基因组学、动物比较基因组学、物种潜在分布区预测和保护区规划等等。
会议留给人的最重要的印象,在我看来有三方面:
1. 博士生自身努力且经过很好的科研训练之后,能够做出骄人的成绩
车荣晓博士2017年在中国科学院大学获得博士学位,在云南大学入职不久。读博期间,他在青藏高原采集了大量土壤样品,研究微生物在青藏高原草地生态系统中的功能。长期以来,生态系统功能,特别是元素循环,凋落物方面的研究,大多只提到微生物起着重要作用,但是生态学家并不知道究竟是哪些微生物起了作用。而车博士对土壤样品测序,弄清楚了哪些微生物在青藏高原草地固氮过程中起着重要作用,还通过微生物培养实验检验了一系列生物地理相关假说,阐明了相应机制。研究思路非常清楚,结果也令人信服。论文发表在土壤和微生物领域的顶级期刊上。
另一位代表,中山大学杨立博士,通过搜集古代文献以及近现代以来的方志、林业系统内部资料、地方网站等,将物种种群变化的历史信息引入物种潜在分布区预测中。在推断物种潜在分布区时,提出cost layer的方法,将人为干扰因素放入模型,从而优化物种保护规划。杨博士对数据的收集、处理等各种问题都有深刻而独到的见解。在读博时,如果没有系统阅读文献,没有认真钻研数据分析的理论和技术,没有认真钻研研究的问题,是不会取得这样优异的成绩的。
2. 部分领域的软件,我国青年学者已做到国际领先水平
生物信息学自创立以来,我国的科研工作者还很少发表算法,也很少编写软件,这可能跟人才培养模式有很大关系。当初,很多人选择生物学一般因为生物学的数学门槛低,学习过程中,不需要太多数学知识和计算机技能,即使自己想学习,专业课程设置也不一定让人能获得很好的训练,但随着研究的深入,生物数据处理越来越需要数学和计算机辅助,生物信息学对这方面的要求非常高。数学和计算机能力的欠缺,在很大程度上限制了科研人员对算法和数学原理的深入研究,这也成为国内生物信息学研究的一块短板。这种情况似乎正在改变。这次会议中,中国科学院昆明植物所的金建军博士就介绍了他编写的GetOrganelle程序包。该程序包能快速从头组装叶绿体全基因组,算法也是他提出的,相比同类软件,获得结果更准确,需时也更短,软件同时能给出所推断叶绿体全基因组各种可能的拓扑结构,因此很快受到了研究人员的欢迎。在算法和软件上有所创新,才是生物信息学的核心技术,博士研究生在这方面有所突破,是十分难能可贵的。
此外,昆明植物所徐洲锋老师团队开发的手机应用Biotracks可用来记录植物标本采集信息,Kingdonia可用来管理植物标本,也达到了业界领先水平。Biotracks可用手机GPS信号记录轨迹,标注和识别拍摄的植物,自动生成标本采集号,用GPS坐标解析地名,自动生成标本采集标签等。而多个用户还可以在Biotracks上合作开展一些项目。Biotracks2019版不仅可以辅助采集植物标本,更是扩展到其他类群,功能也更完善。该软件将极大推动物种监测等相应的项目。Kingdonia标本管理系统能与Biotracks无缝衔接,用于数字化之后的标本管理以及植物图库的管理。在Kingdonia系统中,植物标本的鉴定信息、名称变动、科属变动等细节问题都已妥善解决。目前,中科院华南植物园、西双版纳植物园已经在使用Kingdonia系统管理标本。Biotracks和Kindonia都是面向用户的需求开发的,所以很多细节更人性化,如Biotracks在手机信号不好的地方也能正常使用,极大方便了野外工作。
3. 基因组学等方面的新技术发展迅速,全基因组测序势不可挡
最明显的例子就是二代测序让全基因组测序较为廉价。DNA已经严重降解的样品,如几十年、上百年的标本也能进行基因组测序,通常是利用二代测序技术生成几十个G的DNA片段,再进行拼接、组装,重建出物种的全基因组。
深圳国家基因库在这方面开展的测序计划十分宏伟,如万种鸟类全基因组计划,就希望在获得现存所有鸟类的全基因组之后,再在基因组水平重建它们的进化历史,通过比较基因组学探讨各基因的功能及其与性状的关系等。
朱鹮,国家一级保护动物,曾处于灭绝的边缘。朱鹮原本是东亚地区一种非常常见的鸟类,分布在秦岭淮河以北、华北平原、东北东部,南到长江下游以及朝鲜半岛和日本,但由于栖息地的破坏,朱鹮种群在上世纪六、七十年代雪崩式衰退。八十年代,我国动物学家在陕西洋县发现仅存的两窝共7只朱鹮,立即开展保育和繁殖工作,在投入大量人力物力之后,朱鹮种群得以逐渐恢复。现存的2000多只朱鹮,均为这7只朱鹮的后代。华大基因的冯少鸿老师对博物馆中保存的朱鹮标本和现存朱鹮中的8个个体进行了基因组测序,分析了遗传多样性的变化。她发现,朱鹮历史标本的遗传多样性要远高于现存种群。虽然现存的朱鹮已恢复到2000只以上,但是由于遗传多样性极低,这个种对疾病的抗性等将存在各种问题,同时,要人为增加遗传多样性是极为困难的。因此,朱鹮种群的维持还需要人为协助。报告中还提到,利用一个种,一个个体的全基因组数据就可以重建该种在过去几十年甚至几万年以来种群大小的变化。结果表明,早在农耕文明成熟之初,人类对朱鹮的种群大小就已经产生了影响。
会议还请到了台湾中央研究院的刘世慧博士,她之前在美国密苏里植物园学习,现在在钟国芳教授研究组。她利用基因组学的方法,研究丁香蓼属(Ludwigia)、秋海棠属(Begonia)下若干个组(section)杂交物种形成和系统发育关系。传统上,发表新种或者进行系统修订多只是基于形态特征,虽然近些年分类学家也都开始利用生物信息学手段建立进化树,如利用叶绿体基因片段以及部分核基因重建进化树,但是一般来说,研究结果仍以描述为主。突破之处在于,刘博士在分类学研究是基于假说检验的:她将一些分类学问题以假说的形式提出来,再用基因组学数据进行验证,澄清了若干杂交种的起源,以指导分类学修订。也许类似的方法将来也会成为分类修订的标准配置。这样一来,植物分类学家不仅要学会描述植物,也必须要在转录组、基因组等水平进行深入探讨,如果真是这样,植物学家的门槛又高了一大截。
报告内容不能一一详述,感兴趣的读者可以参考会议共享的幻灯片。这里只简单提一下其他报告:中科院植物所刘博博士系统收集了东南亚各国的植物标本数据以及志书资料,获得了每个国家的初步植物名录,探讨了东南亚植物多样性的空间分布格局。北京师范大学饶米德博士重建了山茶科的进化树,基于地理分布数据检验了物种分布相关的两个假说。广东省生物资源应用研究所张强博士报道了南岭鸟类群落构建机制的研究进展,特别是物种丰富度、系统发育多样性和功能多样性沿着海拔梯度的变化规律及其可能机制。同单位的权擎博士介绍了中国陆生脊椎动物的系统发育多样性及其分布格局,并分享了关于数据共享,特别是数据格式方面的一些想法。成都理工大学陈圣宾博士介绍了昆虫宏生态学的一系列研究进展。华大基因杨婷博士介绍了瑞丽植物园植物的全基因组测序项目。北京林业大学毛建丰博士介绍了云南松、高山松、油松的地理分布和遗传结构,探讨了植物的适应性和遗传结构的关系,详细介绍了种间杂交及其在物种适应性方面的意义,不过由于我本人着急回香港,报告的最后一部分没有能听完。杨拓博士的《中国被子植物的时空格局》也非常遗憾没有能够听到。
会议唯一一个英文报告是GigaScience杂志的编辑Scott Edmunds做的,主要是推广开放科学(Open Science)和公众科学(Citizen Science),呼吁科学家要把数据要公开,把分析方法公开,把计算机代码公开,从而让普通人重新相信科学,重新信任科学家,这项工作任重道远。Scott关于开放科学的呼吁正好与我本人的想法契合:科研数据要公开,分析方法要写成分析指南,供别人参考,分析用的计算机代码要公开,让别人能够重复你的工作,论文也要开放获取。而科学工作者自身,如果可能的话,也最好能开展一些公众参与度比较高的项目,以推动公众能够进一步理解科研及其重要意义。
想不到的是,虽然本次报告的内容之间很少重叠,但是讨论却非常热烈:每个报告结束后,差不多都有四五个人提问,并且回答问题可能就要十几分钟,这在大型会议是不能想象的。也许确实如召集人杨拓所说,讨论会需要控制好规模和报告时间,这样每个参会人的收获才能更多,效果才能更好。晚饭后,参会人仍然饶有兴致地交流和讨论到晚上十点以后,足以体现此次会议有多么成功。
两天会议一下子就结束了,离开让人非常不舍,总让人有一种意犹未尽的感觉。再次见到陈圣宾、毛建丰、刘博、饶米德、张强等老师同学,也让人感慨时光荏苒,原来,一些同学已经五六年没见了。
本次会议的食宿和路费全部由国家基因库资助,这里一并表示感谢。同时,也要再次感谢杨拓博士的精心组织,感谢会务组热情周到的安排。
2018年12月19日 记于 香港大埔 12月20日 修改