精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?樣本稀疏性

        樣本稀疏性

        時間:2023-02-14 理論教育 版權(quán)反饋
        【摘要】:它在50多年以前被首次提出,到目前仍然是一種最廣泛使用的聚類算法。SVM中所構(gòu)造的支持向量可以反映數(shù)據(jù)的邊緣信息,使得算法構(gòu)造時可僅僅依賴于支持向量,進(jìn)而可以使用支持向量來稀疏樣本空間。因此,其如何通過統(tǒng)計學(xué)習(xí)理論和最優(yōu)化方法研究大規(guī)模SVM的求解及獲取盡可能少的有效支持向量,是當(dāng)前急需研究的重要問題。

        這里主要介紹兩方面的工作:基于聚類分析的抽樣和基于支持向量的稀疏方法。

        通過聚類可以發(fā)現(xiàn)數(shù)據(jù)的緊致和分散程度,反應(yīng)數(shù)據(jù)的結(jié)構(gòu)信息,針對大規(guī)模數(shù)據(jù)比較可行的方法包括:(1)基于劃分的方法:劃分方法首先給定要聚的集群個數(shù)k,創(chuàng)建一個初始劃分。然后,再用迭代的方式重新定位,通過最小化目標(biāo)函數(shù),把數(shù)據(jù)點(diǎn)從一個集群移動到另一個集群來進(jìn)行劃分,從而將數(shù)據(jù)點(diǎn)分到k個集群中。這一類的研究算法包括:k-平均算法(或k-均值算法)[53]、PAM(Partitioning Around Medoids)算法[54]、CLARA(Clustering LARge Applications)算法[54]、CLARANS(Clustering Large Applications based on RAN-domized Search)算法[55]等。在這些方法之中,k-means算法是最具代表性、最常見的一種算法。它在50多年以前被首次提出,到目前仍然是一種最廣泛使用的聚類算法。該方法計算簡單,存儲較少,可拓展到大規(guī)模的數(shù)據(jù)聚類問題。然而k-平均算法的性能對初始點(diǎn)的選取依賴較強(qiáng),且其聚類個數(shù)k是需要事先給定的參數(shù),極大地限制了k-平均算法的應(yīng)用。為了進(jìn)一步提高k-平均算法的穩(wěn)定性和適用性,目前已有很多改進(jìn)的方法,如k-medoids算法[54]、模糊k-means聚類[56]、FORGY、ISODATA、CLUSTER、WISH等[57]。更詳細(xì)的有關(guān)k-means方法發(fā)展的綜述見參考文獻(xiàn)[57]。(2)基于密度的方法:主要是用于發(fā)現(xiàn)具有任意形狀的集群。它是基于這樣一個事實(shí),即在每個集群中有一個典型的點(diǎn)密度,這個密度是高于集群以外的。密度較低的外點(diǎn)被確認(rèn)為噪聲點(diǎn)。在這一類中最常用的算法之一是DBSCAN算法[58],該算法將類定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為類,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。然而,其計算復(fù)雜度是O(n2),制約了其拓展到大規(guī)模數(shù)據(jù)聚類問題。2014年,Rodriguez和Laio在Science發(fā)表了新的基于密度峰的聚類算法(DP算法)[59]。DP算法不僅能自適應(yīng)地識別聚類的數(shù)目,而且可以有效識別離群點(diǎn)。然而,DP算法需要計算和存儲任意兩個樣本點(diǎn)之間的距離,導(dǎo)致其計算和存儲復(fù)雜度都不比DBSCAN低。因此,如何降低初始聚類個數(shù)和參數(shù)選取對基于劃分的聚類的影響,以及如何提高基于密度的聚類算法的計算效率是當(dāng)前研究的主要方向。

        SVM中所構(gòu)造的支持向量可以反映數(shù)據(jù)的邊緣信息,使得算法構(gòu)造時可僅僅依賴于支持向量,進(jìn)而可以使用支持向量來稀疏樣本空間。為了讓SVM能適用于更多的數(shù)據(jù)挖掘問題和更復(fù)雜的數(shù)據(jù)結(jié)構(gòu),國內(nèi)外學(xué)者對SVM進(jìn)行了多方面的研究,如從問題出發(fā)構(gòu)造的算法:支持向量分類機(jī),支持向量回歸機(jī)SVR[12,24,6063]、直推式SVM[64];從標(biāo)準(zhǔn)模型出發(fā)改造得到的算法:最小二乘SVM、雙子SVM和非平行SVM等。但是,由于SVM需要求解二次優(yōu)化問題或線性方程組問題,計算量較大,這極大影響了其在大規(guī)模數(shù)據(jù)挖掘中的應(yīng)用。高效的求解算法成了支持向量機(jī)研究的重點(diǎn)問題,如Chang等人使用序列極小化算法求解SVM并設(shè)計了LIBSVM[65],F(xiàn)an等人利用雙坐標(biāo)下降算法求解SVM并設(shè)計了LIBLINEAR[66],以及Shalev-Shwartz等人利用隨機(jī)梯度下降法求解SVM等[67]。以上這些求解算法針對標(biāo)準(zhǔn)分類和回歸問題的SVM具有較好的效率,然而對新問題的SVM和新的SVM模型的求解還有待深入研究。因此,其如何通過統(tǒng)計學(xué)習(xí)理論和最優(yōu)化方法研究大規(guī)模SVM的求解及獲取盡可能少的有效支持向量,是當(dāng)前急需研究的重要問題。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋