统计分析,对数据的趋势的把握,能够转换为信息。定性和定量是不同层次的描述,样本对整体的描述可以参照不动点。本质上这是一个对频率和概率的描述,通过各种条件如方差,平均值等等来描述数据的分布。
序列的耦合可以以正交,层次之间的概率连接,模糊数学的多层次。
网络的各种数据分析,聚类,降维,,神经网络等等算法可以进行一定的路径坍缩,即我们从无限高维的网络经过提取出我们可以理解的信息。其具体的形式与生物信息学的序列分析是一致的。
一维的是简单的上调下调,不同的对象形成一定的相关性路径,如我们惯见的信号通路,就是利用这些蛋白层次的相对关系来构建的宏观图景。形成各种复杂的促进/抑制机制。我认为还应该引入这些路径的相对竞争博弈,才能形成更高维的图景。
二维的是具体的数值,以此为基础我们可以根据一定的模型来拟合这些数据。
三维的是大规模数据的模式涌现:基因/蛋白的网络调控表达,这是多层次耦合的作用网络。
基本趋势:熵增及其抵抗性变化,幂律分布(聚类),序列相似性与功能相似性的对应,相互作用的蛋白质之间具有更大的概率可能产生一定的功能联系,模块化,层次络的拓扑性质、生物信息、系统动力学,表达谱,概率网络和隐马尔科夫模型,网络的代偿和稳定性,通过外部的攻击来模拟基因表达变化,以此验证稳定性(类似如今的基因疗法);矩阵表示,通过聚类等等分类手段可以根据有限信息推断特定对象的位置,从而推断其他的性质。我们还可以借助贝叶斯推断来不断提高其准确性。
算法来整合数据库级别的信息,提取出适合不同层次的指标,具备一定的信息。网络的节点形成二级结构如环路等等,然后可以往上遍历形成更高维结构,这是如同编程的模块化思想。我们可以在这些结构的变化寻找与序列的对应关系。
第一章:意义;传统方法;系统观点的方法;具体的网络方法;
基于序列对相互作用网络的预测,杂交系统的预测,亚层的形成,统计指标的作用
序列信息的网络理解,这与我们尝试把网络结构降维到序列是相互耦合的。一个是从底到顶,一个是从顶到底,我们有信心它们竞争博弈能够形成一定的平衡。或许公理化体系是一种选择,当然这是内核,具体的情况还需要多体系的耦合,即其选择性表达可以有更大的与现实的拟合度。反正网络可以形成不同的层次,这些层次具有一定的相似性并且可以相互转换,可以组合形成高维的结构,知识模块化的思想。
单变量的类似数学的偏导研究模式在复杂的网络结构的实用性相比其他低耦合的系统(相对独立的分布)大大降低,因为网络的底层可以选择性表达为缺失的部分,这是网络的代偿和稳定性。当然这是一个概率分布的问题,因为如果特定的基因是网络的高连通度的中心节点可能产生比较明显的效应,如致死或者其他的明显性状改变。我们不能每次都筛选出这种不动点才做实验(目前的研究模式),我们应该寄托于大规模的数据运算使得特定模式涌现,即我们以多变量(能够根据一定的标准即相互作用)为研究对象,在这个层次构建不同的形成一定聚类的亚层结构之间的关系,即模块之间的相互作用,以概率的形式连接不同的模块,最终做到多层次的信息统合。
相互作用的蛋白质时间有更大的概率作用与相同/相似的功能。这是统计层次的模式涌现。
基于聚类的相同特征(表达趋势)可以提取出高维的图景,即不同的类可以根据一定的路径连接。首先是共表达模式可能具有相同的功能,然后是各种不动点式的指标来介绍不同模式之间的联系,最后在网络层次进行全部蛋白质的关系构建。并且在这个基础上建立于基本相关的对应关系
芯片技术/酵母双杂交/免疫共沉淀—大规模数据产出—数据分析—挖掘模式
网络级别的数据:矩阵表示,矩阵乘法就是路径形成,组合的加和也是多路径的耦合,即路径积分。
第二章:蛋白相互作用网络提供的大数据的运算,其可以比较的维度很多:拓扑,表达量等等。遍历所有路径,最后路径积分是平凡,这是路径坍缩。守恒定律,耗散结构的输入和输出。具体的表达不一定是需要的,这是概率性的。
蛋白质之间的组合是更高维的结果,这种相互作用的网络可以与特定的功能改进更大的相关性,而具体的蛋白质的表达量与这些高维功能的联系是概率分布,即存在一定的中心节点具有更大的相关性,当然大部分的节点是低概率连接的,一般来说被视为涨落。这种相互作用网络就是高维的结构,对应于复杂的功能。
对一定的物种的蛋白相互作用网络的研究可以做到一定的知识迁移,如各种分布,幂律分布,小世界模型等等性质。模块的思想引自程序设计。
连通性,分布分化
机器学习对序列的模式识别来解决可能的关系,即网络的不同对象之间的概率性连接。
不同层次的聚类,根据不同的标准划分的不同组合形式。理论上可以以一系列的特征描述来整体指代特定对象,这就是序列思想,可以做到准确对应,但这需要耗费的资源太大