概率論(Probability Theory)是研究隨機現象數量規律的數學分支,是對可能發生、可能不發生的隨機事件進行大量的重復的同一試驗,隨機現象的發生呈現出一定的規律性。
概率論的起源可以追溯到亞里士多德時代,當時,人們主要以數據統計為主要手段,主要研究保險、賭博、占卜等實際問題。通常人們認為概率論的鼻祖為法國的數學家布萊士·帕斯卡(Pascal)和皮耶·德·費瑪(Fer-mat),他們引進了賭博值的概念。后來,克里斯蒂安·惠更斯(Huygens)改“值”為“期望”,并出版了《機遇的規律》。1713年,雅各布·伯努利出版了《推測術》,從此,概率問題不再局限在對賭博和機遇的討論上。1796年,法國數學家拉普拉斯研究了概率論的相關問題,并在之后出版了《概率論的解析理論》一書,采用多種方法研究概率問題。1846年俄國數學家切爾雪夫在格列爾的雜志上發表了“概率論中基本定理的初步證明”一文,給出了泊松形式的大數定律的證明。并于1887年,他發表了更為重要的“關于概率的兩個定理”,開始對隨機變量和收斂到正態分布的條件,即中心極限定理進行討論。1899年法國數學家貝特朗提出了貝特朗悖論。從貝特朗悖論的解法中推斷出概率問題在不同的理解下便會有不同的結果,是由幾何概率的邏輯基礎的不嚴密性造成的,進一步側面推動了20世紀初概率論公理化運動的興起。后來,俄國數學家馬爾可夫在概率論中,發展了矩法,擴大了大數律和中心極限定理的應用范圍。最初致力于研究相互獨立隨機變量序列,改進和完善概率極限理論,后來研究興趣拓展到隨機變量序列,創立和發展了著名的馬爾可夫鏈理論,為隨機過程發展奠定了基礎。
概率論有一些基本概念,包括隨機事件與概率、隨機變量與分布、數學特征與特征函數等。與幾何學類似,概率論的很多定義建立在公理系統之上。概率論的理論可應用于很多領域實際問題的解決上,如,在數據管理中,概率論提供了常用的歸納總結方法,可以將雜亂的數據變得井然 有序,便于技術人員對未來數據做出預測。
簡史
萌芽時期
人類認識到隨機現象的存在是很早的。 從太古時代起, 估計各種可能性就一直是人類的一件要事。 早在古希臘時期,利奧六世就已經注意到必然性與偶然性問題; 在中國春秋時期也已有可考詞語( 辭海) ; 即使提到數學家記事日程上的可考記載, 也至少可推到中世紀。 在概率論萌芽時期主要以數據統計為主要手段,主要研究保險、賭博、占卜等實際問題。
古典時期
概率論的歷史可追溯至17世紀法國的數學家帕斯卡(Pascal?1623~1662)提出的分賭本問題,他和皮耶·德·費瑪(Fer-mat??1601~1665)在回信中對該問題做了討論。1654年,他們引進了賭博值的概念,值等于賭注乘以獲勝概率。 后來,克里斯蒂安·惠更斯(Huygens)改“值”為“期望”,并出版了《機遇的規律》,其中的機遇博弈在概率概念的產生及其運算規則的建立中,起了主導作用。1713年,雅各布·伯努利出版了《推測術》,該著作是把概率論由局限于對賭博機遇的討論拓展出去的轉折點和標志。伯努利采取把概率分為“主觀概率”和客觀概率的立場,其前三部分,是古典概率的系統化和深化。
法國數學家棣莫弗(1677~1754)在1733年出版了《機會的學說》,他推導了正態分布,并指出當二項分布的參數值n很大時可以用正態分布來近似計算其概率。
在1777年,法國科學家布豐完成的投針實驗是歷史上第一個統計模擬實驗,可以用實驗結果估計圓周率。該實驗可以表述為:向一簇距離為的平行線構成的平面投擲一根長度為的針,求針與直線相交的概率。
分析時期
法國數學家皮埃爾-西蒙·拉普拉斯(P.S.Laplace,1749~1827),總結了古典概率論,并使它發展到新的歷史階段。1796年,法國數學家拉普拉斯研究了概率論的相關問題,并在之后出版了《概率論的解析理論》一書,采用多種方法研究概率問題。
法國數學家泊松(Simeon-Denis 西莫恩·泊松 1781~1840)在數學方面貢獻很多。最突出的是1837年在《概率在刑事與民事訴訟方面應用的研究》 一文中提出描述隨機現象的一種常用分布,在概率論中現稱泊松分布。這一分布在公用事業、放射性現象等許多方面都有應用。他還研究過定積分、傅里葉級數、數學物理方程等。除泊松分布外,還有許多數學名詞是以他名字命名的,如泊松積分、泊松求和公式、泊松方程、泊松定理等等。
德國約翰·卡爾·弗里德里希·高斯(Carolus Fridericus Gauss,1777年4月30日~1855年2月23日)在1809年,高斯發現了質數分布定理和最小二乘法。通過對足夠多的測量數據的處理后,可以得到一個新的、概率性質的測量結果。在這些基礎之上,高斯隨后專注于曲面與曲線的計算,并成功得到高斯鐘形曲線(正態分布曲線)。其函數被命名為標準正態分布(或高斯分布),并在概率計算中大量使用。
俄羅斯數學家切爾雪夫1845年在自己的論文中借助十分初等的工具——的科林·麥克勞林展開式,對雅各布·伯努利大數定律作了精細的分析和嚴格的證明。一年之后,他又在格列爾的雜志上發表了“概率論中基本定理的初步證明”一文,文中繼而給出了泊松形式的大數定律的證明。1866年,切比雪夫發表了“論平均數”,進一步討論了作為大數定律極限值的平均數問題。1887年,他發表了更為重要的“關于概率的兩個定理”,開始對隨機變量和收斂到正態分布的條件,即中心極限定理進行討論。
法國數學家貝特朗1899年提出了貝特朗悖論。貝特朗悖論是指在圓內任作一弦,求其長超過圓內接正三角形邊長的概率。后來貝特朗在這個問題的解法中發現這個問題之所以有不同的解答,是因為當一隨機試驗有無窮多個可能的結果時,有時很難客觀地界定“等可能”這一概念,在不同的理解下便會有不同的結果,這是由幾何概率的邏輯基礎的不嚴密性造成的,它從一個側面推動了20世紀初概率論公理化運動的興起。
現代時期
俄羅斯數學家馬爾可夫(1856~1922)主要著作有《概率演算》等。在概率論中,他發展了矩法,擴大了大數律和中心極限定理的應用范圍。馬爾可夫深受圣彼得堡數學的學術影響,是切比雪夫概率思想的繼承者和發展者。最初馬爾可夫主要是沿著恩師開創的概率方向,致力于相互獨立隨機變量序列研究,改進和完善概率極限理論。后來其研究興趣拓展到隨機變量序列,創立和發展了著名的馬爾可夫鏈理論,為隨機過程發展奠定了基礎。
1940年中國數學家許寶騄在概率論和數理統計學方面對馬爾可夫過程、極限定理的科學研究做了大量工作,有杰出貢獻,是我國最早達到世界先進水平的一個數學家,受到國內外數學界的敬重。他生前共發表學術論文三十九篇。1979年,為了紀念他,美國《數理統計年鑒》專門撰文介紹他的生平,高度評價了他在概率論和數理統計兩方面的工作。
1964年中國數學家侯振挺與郭青峰合著的《其次可列馬爾代夫過程》里,發展了王梓坤構造理論的方法,并提出了最小非負解方法,包括“Q過程中唯一性準則",這是一個國際上四十年來數學家們非常關心的概率論難題,在侯振挺的著作中得到了完整的、最終的解決。因此,他獲得了英國戴維遜獎,受到國內外概率論學者的高度評價,被譽為“侯氏定理”。
基本概念
隨機事件與概率
隨機事件
隨機試驗中具有某種共同特征的樣本點構成的集合稱為隨機事件,簡稱事件,常用英文大寫字母或表示。事件發生當且僅當所包含的某個樣本點在試驗中出現。
概率
概率是針對事件定義的,即對應于事件域中的每一個元素有一個實數與之對應,一般把這種從集合到實數的映照稱為集合函數。因此,概率是定義在事件域上的一個集合函數。
隨機變量與分布
隨機變量
一般地,如果為某個隨機事件,試驗的結果能用一個數來表示,這個數是隨著試驗的結果的不同而變化的,也即它是樣本點的一個函數,這種量稱為隨機變量(random variable)。
泊松分布
泊松分布(西莫恩·泊松 distribution)一種重要的離散型分布,若離散型隨機變量可取一切自然數值,且有,則稱專服從參數的泊松分布,其中,是自然對數的底,此分布的平均值,標準差。
二項分布
二項分布是對只具有兩種互斥結果的離散型隨機事件的規律性進行描述的一種概率分布,是離散型隨機變量中最常見的分布,也稱伯努利分布。
只有兩個可能結果的試驗稱為雅各布·伯努利試驗。記出現事件為成功,出現的反面為失敗,滿足。若試驗重復次,每次事件出現概率均保持不變,則稱這種試驗為重伯努利試驗。在重雅各布·伯努利實驗中,記為事件出現的次數,則的分布列 為,其中。這個分布稱為二項分布,記為。
正態分布
正態分布(Normal distribution),又稱為常態分布或高斯分布。如果隨機變量的密度函數為
則稱服從正態分布,簡記作,此時也稱是正態分布的隨機變量,或簡稱為正態變量。
正態分布因分布函數的不同有以下四種類型:
概率密度函數
一維隨機變量的概率密度函數(Probability Density 函數,PDF)定義為,式中,是隨機變量的數學期望(均值),是的方差,且,。顯然,單變量情況下的概率密度函數由參數和就可以完全確定,為簡單起見常將相應的概率密度函數簡記為或,讀作 服從,或服從正態分布。
當參數,時,即時,則稱服從標準正態分布,相應的概率密度函數定義為。正態分布隨機變量概率密度函數都滿足:,。對于一般形式的正態分布,有。
累積分布函數
累積分布函數(Cumulative Distribution 函數,CDF),又叫分布函數,是概率密度函數的積分。根據連續型隨機變量分布函數的定義,一般正態分布的分布函數為:,正態分布函數是一個增函數,而且有,,。
特別地,當參數,時,標準正態分布的分布函數為:,則有。
設,且為標準正態分布函數,則:,,。
矩母函數(矩生成函數)
對于隨機變量,若數學期望存在,則對任意實數,其矩母函數(Moment Generating 函數,MGF,又稱矩生成函數)定義為,記為。對于連續分布,其中的期望是;對于離散分布,其中的期望是。若隨機變量服從,按照矩母函數及其數學期望的定義公式,可以寫出一般正態分布的矩母函數為,其中,標準正態分布的參數、,代入上式,得到標準正態分布的矩母函數為。
特征函數
為了定義特征函數,須先引進復隨機變量的概念,設和都是樣本空間上的實隨機變量,則稱為復隨機變量,其中。復隨機變量的數學期望為,若是(實)隨機變量,則當實數取定時,為復隨機變量。
因此,設是隨機變量,則稱實變量的復值函數為隨機變量的特征函數,或稱為相應分布的特征函數(Characteristic 函數)。
若隨機變量服從,按照特征函數定義公式,則一般正態分布的特征函數為,其中,標準正態分布的參數、,代入上式,得到標準正態分布的特征函數為。
均勻分布
均勻分布是一種常見的連續型隨機變量分布,即隨機變量在確定的區間中,所取得每個值具有等可能性的分布。
若是兩個有限數,且隨機變量的密度函數為:
則稱服從上的均勻分布,記為。
特別地,當時,稱為標準均勻分布。
數字特征與特征函數
數學期望
隨機變量的數學期望是刻畫隨機變量平均大小的一個數字特征,記為E(X),E(X)反映了隨機變量取值的集中趨勢,刻畫了的分布的中心位置。
設是離散型隨機變量,其分布律為。如果,則稱為隨機變量(或相應分布)的數學期望,簡稱期望。如果級數不收斂,則稱的數學期望不存在。為書寫方便,在不引起混淆的情況下,期望簡記為。
設是連續型隨機變量,其密度函數為。如果,則稱為隨機變量(或相應分布)的數學期望。如果不收斂,則稱的數學期望不存在。
方差
方差是隨機變量的重要數字特征之一,是反映隨機變量的取值與其數學期望偏離程度的量。方差因隨機變量類型的不同有以下定義。
設是一個隨機變量,若存在,則稱為的方差,記為或,即并稱方差的算術平方根為的標準差或均方差。
協方差
設 是二維隨機變量,若存在,則稱其為隨機變量與的協方差,并記為 。
基本方法
公理化方法
含義
在一個數學系統中,盡可能少地選取原始概念和不加證明的一組公理,以此為出發點,利用純邏輯推理的法則,把該系統建立成一個演繹系統的方法,就是所謂的公理化方法。
基本內容
為了把某一門數學表達為演繹系統,需要選擇一組基本概念和公理作為出發點,因此,如何選擇一組基本概念和公理便是運用公理化方法的關鍵所在,這也是公理化方法的基本內容。公理是對諸基本概念相互關系的規定。這些規定理的、不多不少的。也就是說,公理的選擇應符合三條要求:相容性、獨立性、完備性。
相容性
所謂相容性,即無矛盾性,就是從公理出發,無論推論到多遠,不允許推出命題A和A同時成立。相容性是構成公理的一個基本要求。任何數學分支或理論體系都必須滿足這個條件。例如,在平面幾何中,命題“兩條直線或者平行或者相交”是真命題,而在立體幾何中這個命題就是假命題。這反映了平面內兩條直線的位置關系與空間中兩條直線位置關系內涵與外延的不同,不屬于認識上的矛盾。
獨立性
所謂獨立性這是要求在一個公理集合中不允許出現多余公理,要求公理的數目減少到最低限度。因為多余的公理可作為定理推證出來,因此列為公理沒有必要。
完備性
所謂完備性就是保證某一數學分支的全部命題都能從這一組公理推導出來,因此必要的公理不能少,否則就不完備。如果某個數學分支的公理數量不夠、不具備完備性,會造成這個分支的一些真命題得不到理論的證明,或者造成一些命題的證明沒有充足的理由。
概率論與公理化
概率的公理化定義
設是隨機試驗,是它的樣本空間,對于的每一個事件賦予一個實數,記為,若滿足下列三個條件:
獨立事件
對事件及,若 則稱它們是獨立統計的,簡稱獨立的(independent)。注意,按照這個定義,必然事件及不可能事件與任何事件獨立。此外可看出,與的位置對稱,因此亦稱與相互獨立。
相容事件
如果兩個事件不能同時發生.也就是說,如果甲事件發生,則乙事件必不能發生;乙事件發生,甲事件也必不能發生,就稱它們是互不相容的(或互斥的),否則稱它們是相容的(或不互斥的)。
完備事件
完備事件,也被稱為完備事件組或完全事件組,是概率論的基本概念之一。稱有限或可數個事件構成完備事件組,如果它們兩兩不相容,即;那么它們之和是必然事件。
例如,一批產品分為3個等級,以表示事件“隨意抽取一件恰好抽到等品”,則構成完備事件組。
應用
數學
眾所周知,概率論的大廈是建筑在微積分的地基之上的,如在函數關系的對應下,隨機事件先是被簡化為集合,繼之被簡化為實數,隨著樣本空間被簡化為數集,概率相應地由集函數約化為實函數。以函數的觀點衡量分布函數,的性質是十分良好的:單調有界、可積、幾乎處處連續、幾乎處處可導。因之,微積分中有關函數的種種思想方法可以通暢無阻地進入概率論領域。總之,微積分的思想方法滲透到了概率論的各個方面,換言之,沒有微積分的推動,就沒有概率論的公理化與系統化,概率論就難以形成一門獨立的學科,微積分與概率論的親緣關系,決定了概率論的確定論的特征。但是作為微積分的一門后繼課程,概率論并非按微積分中的思維方法發展下去,而是另辟蹊徑,其發展路徑與微積分大相徑庭。最終成為了隨機數學的典型代表,具備了與微積分相當的地位。更因其非線性、反因果的非理性特征,顯得比經典的微積分更具有時代精神。而作為確定性數學典型代表的微積分對概率論的發展具有很大作用,因此討論微積分在概率論中的地位,探究概率論與微積分的聯系及方法的相互應用,對教學工作者的教學有著一定的作用。
經濟學
概率論在金融風險的防范上,也有重要作用。以炒股為例,炒股需要應用概率論思想與專業的金融學知識,這樣才能在金融市場中抓住機遇,將金融風險的發生率降低至最小化,達到理想的效果。
經濟利潤包括商品生產投資、市場消費、金融投資等中獲得的經濟金額。概率論根據分析結果實時掌握市場經濟的狀態,就經濟信息進行對照性的推演,對后續的決策和計劃的制定提供可靠地參考。對新產品的研發,首先需要在消費市場中進行產品需求調查,并根據當前消費市場和產品需求的趨勢計算出消費群體的概率。可以通過抽樣選擇獲得相對實際可靠的消費數據。根據收集的調查樣本對商品需求的結果數量進行比較分析。以確定新產品是否具有占領市場的潛力,同時準確計算投資成本和回報。
數據分析
概率論與大數據分析之間本身就具有密切聯系,這主要表現在幾個方面:第一,概率論與數理統計與大數據分析的目標相同,都是為了探索、明確數據結構,找出數據的聯系和規律;第二,在大數據的發展下,拓展了統計學的應用空間,也為概率論與數理統計學提供了全新課題;第三,大數據分析并不是統計學的分支,還可以廣泛應用在多個領域中,為其他領域的研究提供了全新的工具、思想;第四,概率論與數理統計屬于DM中應用廣泛的問題解決方式。
在大數據時代,概率論和數理統計學以及數據挖掘都在數據管理中發揮著重要的作用。在數據管理中,概率論和數理 統計是最常用的歸納總結方法,可以將雜亂的數據變得井然有序,便于技術人員對未來數據做出預測。而數據挖掘則是 一種新興技術,一般使用高算力的計算機來對數據進行處 理。通過數據挖掘可以整理海量,繁雜的數據,使這些數 據呈現規律性,統一性,以便于技術人員解讀,分析這些 數據。兩種數據處理方法都可以發現龐大數據中存在的規律,提前對未來進行預測分析。
實際生活
在體育中的應用
從概率學角度來研究不同分數的難易程度,假設箭靶呈圓形并且每個環的寬度相同,并且寬度設為,采用幾何概型,其中十環的面積是依此類托,從內往外,九環、八環到一環的面積依次為。我們假設運動員在射箭途中不會脫靶,并且擊中靶上任何一個部位都為隨機的,所以由幾何概型的定義我們可以得出,對于任何一個射箭運動員來說,射中十環的概率是,射中九環的概率是,以此類推,射中八環七環等一直到一環的概率分別是,所以從概率的角度來看,射中一環的概率最高,射中十環的概率最低,所以越靠近靶心的位置越難射中,相應的分數也會越高。
在決策分析中的應用
在很多的現實情況中,決策者需要就當前或者未來即將發生的問題來從若干個解決方案中選擇一個或者多個最佳的方案。所以決策者需要就發生的問題來進行比較科學的分析,選擇最優策略,并且盡量避免損失。而很顯然概率論可以幫助決策者顯著提高決策勝率和決策水平。選擇保險公司的投保問題來看概率論在決策分析中的運用。對于保險公司而言,公司一方面既要照顧到保險受益人的經濟利益,但是同時,公司作為一個整體也要考慮公司的盈利能力。
參考資料 >
在不確定性的世界中尋找最優的解.豆瓣讀書.2024-01-23
Siméon Denis Poisson.mathshistory.2024-01-06