Results (
Spanish) 2:
[Copy]Copied!
gi_g值(pLi,p1Li,...,p(K-1)Li,p1Ri,...,p(K-1)Ri)稱為屬性 ai的基尼增益。參數 pLi=,p1Li = ,...,p(K-1)Li] 和 p1Ri= ,...,p(K-1)Ri] 分別為 pLi、p1Li,...,p(K-1) Li 和 p1Ri,...,p(K-1)Ri 的估計值。它們可以作為二元分佈中一些隨機變數的算術手段。讓我們考慮數據集 S,m{1,...,n}中的數據元素。我們定義隨機變數#li,m,它等於1,如果sm#Li和0否則。變數=Li,m來自二元分佈,平均=利=pLi和方差=Li2=pLi(1-pLi)。同樣,我們定義_kLi,m,k[1,...,K-1](對於來自集 Li、m[1,...,nLi])和_kRi、m、k[1,...,K-1](對於集 Ri、m{1,...,nRi})的要素 rm)隨機變數, 分別從二元分佈中分別使用意味著μkLi_pkLi和μkRi_pkRi和方差[kLi2]pkLi(1-pkLi)和[kRi2]pkRi(1-pkRi)。變數#kLi,m等於1,如果來自kth類的lmis和,如果rm來自kth類,則等於1。<br><br>本文的主要結果如下,指出如果兩個屬性獲得的基尼增益估計值之間的差大於(24)給出的特定值,那麼在固定概率下,大致說來,真正的基尼增益之間存在統計差異。這允許從最近的數據片段確定要拆分的最佳屬性,或者說確定拆分所需的資訊在統計上是不夠的。<br><br>為方便起見,讓我們表示
Being translated, please wait..
