随机过程讲义2013 - 图文

发布时间 : 星期三 文章随机过程讲义2013 - 图文更新完毕开始阅读

随机过程讲议

V1.0

2012年10月22日

随机过程讲义

目录

绪 论 ....................................................................................................................................................... 1 第一章 随机数及其应用 ........................................................................................................................... 2 第一节 随机数的生成 ................................................................................................................................. 2 第二节 生物信息学中的随机策略 ............................................................................................................. 8 第二章 随机过程的概念与基本类型 ..................................................................................................... 11 第一节 第二节 第三节 第四节 第五节

随机过程的基本概念 ................................................................................................................. 11 随机过程的分布律和数字特征 ................................................................................................. 12 几种重要的随机过程 ................................................................................................................. 17 泊松过程 ..................................................................................................................................... 21 布朗运动 ..................................................................................................................................... 28

第三章 马尔可夫链 ................................................................................................................................. 31 第一节 第二节 第三节 第四节

马尔可夫链的概念 ..................................................................................................................... 31 马尔可夫链的性质 ..................................................................................................................... 36 马尔可夫链的生物信息学应用—PAM打分矩阵 ...................................................................... 41 马尔可夫链的生物信息学应用—判断CPG岛 ......................................................................... 50

第四章 隐马尔可夫模型(HMM) ........................................................................................................... 54 第一节 隐马尔可夫模型的基本概念 ..................................................................................................... 54 第二节 隐马尔可夫模型中的三个基本问题 ......................................................................................... 57 第三节 隐马尔可夫模型的生物信息学应用—CPG岛识别 .................................................................. 65

随机过程讲义

绪 论

在实际的数据分析过程中,尽管横截面的数据可以反映一定的规律性,可以解释一

些现象,但大多数情况下数据都是动态的,因为我们生活在时间的维度里。

因此为了更深入的了解随机现象,我们有必要引入时间的维度,开始研究随机过程。 随机过程是一门研究随机变量怎样随着时间参数而变化的一门科学。 注:(1)通常时间参数我们使用t。

(2)我们往往将随机过程分解为一族随机变量进行研究。 随机过程的作用:

随机过程有着十分重要的作用,它通过对过去数据的统计分析,发现一些规律;再通过现在的状态,进而预测将来的情况。

例如:天气预报、股票预测、微博点击量、服务器接收手机发的短信数、等等 随机过程在生物信息学中的应用:

随机过程在生物信息学中起着十分重要的作用,各个领域的经典算法不可避免的用到随机过程。其中比较重要的两个方面是马尔可夫链蒙特卡罗方法(MCMC)和隐马尔可夫模型。

例如:序列比对、蛋白结构预测、甲基化位点鉴别、模式分类、进化树、基因调控网络、拷贝数变异预测、药物靶点预测。 概率初步

具体内容参见 《概率论与数理统计》 和 《多元统计分析》

1

随机过程讲义

第一章 随机数及其应用

第一节 随机数的生成

随机数:随机变量的样本称为随机数。由于在统计上常用的是独立样本,因此不放假

设随机数之间是独立的。生成随机数的方法称为随机数的取样法,英文sampling。

随机数在生物信息学中占有十分重要的地位,例如随机扰动网络、构建背景分布,多重检验校正中的permutation方法等等。一般在下一些结论的时候一个基本的逻辑是:看某种现象是不是随机的,如果不是随机的那么认为有一定的生物学意义,也正是我们要获得的结果。所有的这些过程都离不开随机数的使用。 1、产生随机数的一般方法介绍:

(1)手工法:是最早产生随机数的方法为即采用投掷骰子、摇号、抽签、摸球等办法,目前的彩票发行仍然采用此法。

(2)随机数表:随着一些随机模拟算法的发展,如蒙特卡罗方法(Monte-Carlo)等,需要大规模的随机数,这时手工已经不能满足计算的需要。1927年,Tippett制造了4万个随机数的表;1939年Kedell等用高速转盘生成了10万个随机数的表;后来兰德公司又用电子装置产生了100万个随机数。在计算机产生之前人民就利用这些方法产生的随机数进行统计计算。

(3)计算机存储法:在计算机发展的初期,人们只是扩展了随机数表法的简单应用,将随机数表刻在磁盘上,使用的时候将随机数调入内存,由于该方法存储随机数要占用较大的空间,随机数的长度也有限,目前已经很少用了。

(4)计算机物理法:在计算机上安装一台物理随机数发生器,将物理过程转成随机数。优点:得到的是真正的随机数,随机性和均匀性都很好,取之不尽用之不竭;缺点:有些学者做实验需要重复验证,物理法产生的随机数无法再产生一次相同的,另外随机数发生器需要经常检查和维修,因此这种方法也逐渐被取代。

(5)计算机数学法:使用数学算法,借助计算机来产生随机数。是目前使用最广、发展最快的方法。特点是占用内存少、速度快、可以生产两次相同的随机数便于重复性研究。 2、伪随机数 使用计算机,利用数学方法生成的随机数具体指的是按照一定的算法产生的数列,他们具有类似于随机变量的独立抽样序列的性质。但是由于这些数是由算法产生的,因而不可能是真正的随机数,我们通常把用数学方法产生的随机数称为伪随机数。正是由于伪随机数具有和真正的随机数相同的性质(如独立性等),我们就把伪随机数作为真正的随机数来使用。

伪随机数列:实际产生伪随机数的时候,往往利用某一递推xn?f(xn?1,xn?2,?,xn?k)产生数列x1,x2,?,xn,当n充分大时,这一数列具有独立抽样序列的性质,我们成为伪随机数列。 随机种子:递推公式中的初值,我们称为随机种子。一旦随机种子确定,随机序列便可以确定。

3、随机数基本定理(要求掌握证明)

(1) 分布F(x)的随机数:设随机变量?~F(x),我们称?的随机抽样序列{?i}为分布F(x)2

联系合同范文客服:xxxxx#qq.com(#替换为@)