登陆注册
19712100000097

第97章 生物与大数据的关系

前言:我们需要结合数学,计算机科学和生物才能对生物科研有更好的指导作用。

生物学的科研在经历一场科学范式的改变,如同开普勒对其老师第谷的天文数据的整理提出的开普勒三大定律,然后有牛顿进一步抽象得到的万有引力定律,甚至到了哈密顿体系,通过构造精巧的数学结构,我们能够基于有限的假设解释很多复杂的行为。当初物理学是这样走过来的,如今轮到生物学了,但是与之前的数学结构的抽象不同,我们更多的是数据驱动的模型开发,通过一系列的属性定义来过早高维空间,从而能够在这个层次进行各种分类聚类降维回归分析。也就是说,我们通过机器学习等等算法来理解复杂的数据,提取出一定的具有生物学意义的模式,我们运用到数学,但已经不是通过数学来直接解释。与还原论的数学公式不同,这实际上就是一种系统论的思路。在这个大数据的层次理解各种生物过程:将生命分为群体-个体-系统-器官-组织-细胞-细胞器-分子层次,在细胞的分子通路层次,我们可以进一步的进行分类,如将细胞这个生物实体分解为分化增殖凋亡分裂等等生物过程,找到相关的表达具有特异性的基因/蛋白质/信号通路,并且以这些可以定义的对象为基础,构建复杂的联系。以线性代数的思想,就是将这些分类视为线性无关的基底,然后具体的线性组合就对应于各种复杂的生物过程,我们以矩阵的形式来存储,而且我们可以以矩阵的变换来理解动态的生物过程,比如说山中伸弥将四个转录因子转入成纤维细胞使得其能够逆分化为多能干细胞AX=B,我们就可以理解为代表成纤维细胞的矩阵(基因表达图谱)乘以四个转录因子(高表达)得到的新矩阵与代表胚胎干细胞的矩阵有一定的相似性,即多能干细胞iPS细胞。从而我们能够以这种思路来理解生物可能的所有机制。因此如何找到不同阶段的细胞乃至于不同细胞之间的处理矩阵就是我们理解的机制。

只是以所有基因来构建这样的矩阵维度太多,计算的复杂度也很高,因此,我们需要收缩这个矩阵,一般都是通过表达具有特异性的有限对象(如生物标记物分子。有显著的上下调表现),然后进行富集分析,将其整合到已有的信号通路(KEGG数据库和GO数据库),然后可以与更高层次的分化增殖凋亡分裂等等生物过程构建联系,最后上升到细胞层次,乃至于器官的健康层次。这就是微积分基本定理所解释的函数和原函数层次的关系,高维层次的简单运算可以等价于低维层次的复杂运算,如细胞的分裂在细胞层次是简单的分裂,但其底层涉及到很多的信号通路,所以,我们能够通过底层的基因表达变化加和起来,升维到高维层次的分化增殖凋亡分裂等等生物过程。我们可以通过构造一定的连续函数来代表这些过程,本质上这些矩阵的变化就是函数的映射。而我们假设这些过程的变化是连续的(我们认为分子层次处于亚微观层次,因此我们不必考虑到量子层次的离散),于是我们可以进一步地将这些函数展开为级数之和,最经典的就是傅里叶级数,能够将周期函数分解为正交的三角函数之和(还有系数)。这里存在一个隐含的假设,即函数是可积的,这样级数才能收敛到原来的函数。这是通过性质的存在性来最后找到具体存在形式的思路。因为我们假设无限细分时的变化的关系是固定的,如基因之间表达上下调(变化即导数,dx=dA)。而且我们认为这些基因的表达关系可以以一定的函数表示(假设其存在性,以傅里叶级数表示),然后我们可以通过其具有的性质来找到具体的系数,如果能够收敛则我们视为成功构造这种关系。我们如果能够分解为三角函数的和,即提取出更为本质的属性即频率,然后我们就可以通过频率的选择性组合(频域)来作为原来函数(时域)的变换了。而这些频率可以就对应于生物中的信号通路,这种分解可以认为是还原论的思路。于是我们就可以在微积分和线性代数之间构建一定的联系:线性代数就是函数分解展开的一系列级数之和。

以上是理想情况下,我们以基因表达的水平来指代细胞,从而在这个层次进行各种复杂的变换运算来指代生物过程的变化,为我们挖掘出具有生物学意义的变化提供依据。但其基于太多假设,而实际上,基因的表达是受到多方面的调控的:基因的结构(内含子和外显子交替排列,还有一些其他的调控区域,如CCAAT盒,TATA盒,启动子,增强子),基于中心法则的RNA和蛋白质的修饰(剪去内含子,使得外显子能够不断为蛋白质;核糖体翻译mRNA得到的蛋白质需要进一步的修饰),染色质重塑子,组蛋白的修饰/表观遗传学(组蛋白-free区域方便转录因子结合从而开启转录)

因此,在数学的层次可以理解为乘以一个又一个的新矩阵,进行新的变换。因此基因表达网络是复杂的,有多种调节基因表达的方式,如核小体调节基因表达(Histone modification组蛋白修饰H3K4me3和H3K27me3;核小体定位,染色质重塑子,DNA序列转录装置;组蛋白变体H2A.Z和H3.3),这些表观遗传学的修饰可以视为一层层叠加的矩阵变换。在这个基础上可以探索更加细化的调节机制,如某些序列具有识别的作用。

我们需要开发一定的技术来产生这种大规模数据,幸运的是,已经有相关的技术如测序仪,基因芯片等等。我们能够更加专注于数据的模式挖掘。

同类推荐
  • 帝傲九天

    帝傲九天

    一世九天仙帝,一世地球屌丝,一世武道废材。我为仙帝,笑傲九天。
  • 仙雨世界

    仙雨世界

    据说大多人都已经穿越了,俺们也要来一次呗,泡不到现实中滴妹子,咱就去异世泡。妖娆魅力的魔女——甜心萝莉的圣女——高冷绝世的仙女——你哭着跟我说,求你选我吧!让我们沉醉在虚幻的美好吧!毕竟现实需要我们迷醉。
  • 武撼十方

    武撼十方

    修炼一途,在于引气,服饵,窃阴阳,夺造化,登天阶,转涅槃,掌生死,碎轮回。武之极,破乾坤,撼十方!讲述一个自山野出生身份低微的少年,如何凭着他的奇遇与坚韧,闯荡那一片精彩的大世界,走向修炼之道的极致。
  • 蛮荒不灭

    蛮荒不灭

    大道不仁,以天地为棋局,以万物为棋…嗯?这个棋是谁下的!谁扰乱了我的棋局!
  • 英雄联盟随行记

    英雄联盟随行记

    带着英雄联盟系统穿越了,且看主角如何异界求生。
热门推荐
  • 元灵士的星空

    元灵士的星空

    在大涅槃纪,人类依靠灵的力量走出了地球,征服了星空,成为了宇宙的霸主!十万亿年后,草木之灵、鸟兽之灵、元素之灵、星辰之灵、时空之灵......在灵主宰的世界里,融合了史上最强至尊之灵的樊星,他能否踏上一条元灵至尊之路。
  • 英雄联盟之野王

    英雄联盟之野王

    在这个世界,当所有人都放弃的时候,还总是会有一些人站出来,无论他们曾经多么卑微,多么不被人看好,但不可否认,他们存在并燃烧。这群离经叛道的少年,创造了一个属于他们的年代。-----摘自国民教练林铁的小黑本
  • 异世轶事

    异世轶事

    她,被弃养的官家小姐。为自救,潜心学医。遇到他,让她重获新生。她:无关风月,这是友情。幼时的一次交集,他对她上了心。她:有缘无份,这是禁忌。她的机智聪慧让他不经意间,情根深种。她:这,这是个误会。
  • 穿上校服的日子

    穿上校服的日子

    平平淡淡的小故事,教会了我们该如何成长。
  • 草根王收色空传

    草根王收色空传

    小说描写了草根一族自上世纪六十年代至今五十年的人生经历。涉及爱情、婚姻、奋斗、事业的起伏波折。小说探索和感悟人生的意义,是一部缠绵哀怨又充满热情的作品。其中主人翁对爱情的向往、对事业的追求、对人性的批判贯穿作品始终。
  • 暖,零度

    暖,零度

    这是一篇非常好看的都市言情小说,全免费,带了一些玄幻色彩希望大家能够喜欢
  • 江山为聘:神秘夫君蚀骨爱

    江山为聘:神秘夫君蚀骨爱

    她,绝色之女,一心痴恋一人。可他的心里,只有天下,只有江山,他利用她的爱,一步一步铲除他的障碍,同时,将她一步又一步逼近绝望的深渊。而他,身份成谜,却对她一见钟情,他倾尽所有的感情,只为了住进她的心中。终有一日,计谋败露,知晓她心心恋恋得爱人是灭她满门的仇人,知晓她爱了一个年华的人,是利用她得到一切的人,她心恨不已。她剑指天涯,她道。“我已经学会,不爱你了,呵...”他无力轻笑,用命偿还。他处处帮助她,处处维护她,当她悲伤不已,他在她的身后,苦涩的开口。“你愿意从一个新的时间重新爱一个我吗?”她转身,梨花带雨...“每一刻,都是新的时间,不是么?”她回抱住他,他惊艳浅笑.....
  • 圣斗破

    圣斗破

    苍穹破,修罗灭。圣道之途,唯强者所行。纵横之力,唯战神所获。玄天寂地,幻空藏海。
  • 相思谋:妃常难娶

    相思谋:妃常难娶

    某日某王府张灯结彩,婚礼进行时,突然不知从哪冒出来一个小孩,对着新郎道:“爹爹,今天您的大婚之喜,娘亲让我来还一样东西。”说完提着手中的玉佩在新郎面前晃悠。此话一出,一府宾客哗然,然当大家看清这小孩与新郎如一个模子刻出来的面容时,顿时石化。此时某屋顶,一个绝色女子不耐烦的声音响起:“儿子,事情办完了我们走,别在那磨矶,耽误时间。”新郎一看屋顶上的女子,当下怒火攻心,扔下新娘就往女子所在的方向扑去,吼道:“女人,你给本王站住。”一场爱与被爱的追逐正式开始、、、、、、、
  • 拉上债主闯天庭

    拉上债主闯天庭

    当败家女被债主盯上,他们又同时被“选中”修仙,一场爆笑的天庭之旅即将展开。