加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • Part 01●??什么是半監(jiān)督學(xué)習(xí)?●?
    • Part 02●??半監(jiān)督學(xué)習(xí)的假設(shè)?●
    • Part 03●??半監(jiān)督學(xué)習(xí)算法分類?●
    • Part 04●??總結(jié)?●
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

五分鐘技術(shù)趣談 | 淺析半監(jiān)督學(xué)習(xí)及其應(yīng)用場景

2023/11/16
3610
閱讀需 5 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:張文園,單位:中國移動智慧家庭運營中心

隨著互聯(lián)網(wǎng)的發(fā)展,企業(yè)可以獲得越來越多的數(shù)據(jù),這些數(shù)據(jù)可以用于幫助企業(yè)更好的了解用戶,即客戶畫像,也可以用來改善用戶的體驗。但這些數(shù)據(jù)中可能存在大量沒有標記的數(shù)據(jù)。如果所有數(shù)據(jù)均采用人工標記的方式則存在兩方面的缺點,一是花費的時間成本較高,人工標記效率低,數(shù)據(jù)量越大需要雇傭的人越多,時間也會越長,成本越高,二是隨著用戶規(guī)模的增大,人工標記的速度很難趕上數(shù)據(jù)的增長。因此如何有效利用當前有標記樣本的數(shù)據(jù)成為關(guān)鍵,而半監(jiān)督學(xué)習(xí)則是應(yīng)對有標簽的樣本數(shù)量遠小于無標簽樣本的情況。

Part 01●??什么是半監(jiān)督學(xué)習(xí)??

半監(jiān)督學(xué)習(xí)是指使用既有有標簽的數(shù)據(jù)又有無標簽的數(shù)據(jù)訓(xùn)練模型。半監(jiān)督學(xué)習(xí)通常會基于有標簽的數(shù)據(jù)構(gòu)建屬性空間,再從無標簽的數(shù)據(jù)中提取有效信息填充(或重構(gòu))屬性空間。因此,通常半監(jiān)督學(xué)習(xí)的初始訓(xùn)練集會劃分為有標簽的數(shù)據(jù)集D1和無標簽數(shù)據(jù)集D2,然后通過預(yù)處理、特征提取等基本步驟后訓(xùn)練半監(jiān)督學(xué)習(xí)模型,然后將訓(xùn)練好的模型用于生產(chǎn)環(huán)境,為用戶提供服務(wù)。

圖1 半監(jiān)督學(xué)習(xí)訓(xùn)練過程

Part 02●??半監(jiān)督學(xué)習(xí)的假設(shè)?

為了實現(xiàn)標簽數(shù)據(jù)有效補充有標簽數(shù)據(jù)中的“有用”信息,對數(shù)據(jù)分部等方面做出一些假設(shè)。半監(jiān)督學(xué)習(xí)的基礎(chǔ)假設(shè)是p(x)中包含p(y|x)的信息,即無標簽的數(shù)據(jù)應(yīng)該包含對于標簽預(yù)測有用的且與有標簽的數(shù)據(jù)不相同的或者很難從有標簽的數(shù)據(jù)中提取出來的信息。此外,還存在一些服務(wù)于算法的假設(shè)。例如,相似性假設(shè)(平滑假設(shè))是指在數(shù)據(jù)樣本構(gòu)建的屬性空間中,相近或相似的樣本具有相同的標簽;低密度分離假設(shè)是指在數(shù)據(jù)樣本少的地方存在一個決策邊界能區(qū)分不同標簽的數(shù)據(jù)。

以上假設(shè)主要目的是為了表明有標簽的數(shù)據(jù)與無標簽的數(shù)據(jù)來源于相同的數(shù)據(jù)分布。

Part 03●??半監(jiān)督學(xué)習(xí)算法分類?

半監(jiān)督學(xué)習(xí)算法眾多,可大致分為直推式學(xué)習(xí)(transductive learning) 歸納式學(xué)習(xí)(Inductive model),二者區(qū)別在于用于模型評估的測試數(shù)據(jù)集的選擇。直推式的半監(jiān)督學(xué)習(xí)是指需要預(yù)測標簽的數(shù)據(jù)集就是用于訓(xùn)練的無標簽數(shù)據(jù)集,學(xué)習(xí)的目的是為了進一步提高預(yù)測結(jié)果的準確性。歸納式學(xué)習(xí)則是為完全未知的數(shù)據(jù)集預(yù)測標簽。

圖2 半監(jiān)督學(xué)習(xí)算法分類

此外,常見的半監(jiān)督學(xué)習(xí)算法的步驟為:第一步會在有標簽的數(shù)據(jù)上訓(xùn)練模型,然后用這個模型給無標簽的數(shù)據(jù)打上偽標簽,然后將偽標簽和有標簽的數(shù)據(jù)組合成新的訓(xùn)練集,在這個訓(xùn)練集上訓(xùn)練一個新的模型,最后用這個模型給預(yù)測數(shù)據(jù)集打上標簽。

Part 04●??總結(jié)?

半監(jiān)督學(xué)習(xí)的最大的問題是在很多情況下,模型的性能依賴于有標簽的數(shù)據(jù)集,并且對于有標簽數(shù)據(jù)集的質(zhì)量要求較高,甚至半監(jiān)督學(xué)習(xí)模型預(yù)測準確度與基于有標簽數(shù)據(jù)集的有監(jiān)督模型的結(jié)果相差不大,反而半監(jiān)督模型為了有效提取無標簽數(shù)據(jù)中的有效信息,會消耗更多的資源。因此,半監(jiān)督學(xué)習(xí)的發(fā)展方向是提高算法的魯棒性以及數(shù)據(jù)提取的有效性。

目前半監(jiān)督學(xué)習(xí)領(lǐng)域中比較熱門的是PU-Learning(positive-unlabeled learning),這類算法的主要應(yīng)用場景是只有正和無標簽數(shù)據(jù)的數(shù)據(jù)集。其優(yōu)點是在一些場景下,我們?nèi)菀撰@得比較可靠的正標簽數(shù)據(jù)集,并且數(shù)據(jù)量相對較大。例如,垃圾郵件檢測中很容易獲得正常郵件。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ADM3053BRWZ 1 Analog Devices Inc Signal and Power Isolated CAN Transceiver with Integrated Isolated DC-to-DC Converter

ECAD模型

下載ECAD模型
$9.17 查看
KSZ8873MLL 1 Microchip Technology Inc DATACOM, LAN SWITCHING CIRCUIT, PQFP64

ECAD模型

下載ECAD模型
$5.42 查看
TLE6250GXUMA1 1 Infineon Technologies AG Interface Circuit, BICMOS, PDSO8, GREEN, PLASTIC, SOP-8
$1.08 查看
中國移動

中國移動

中國移動有限公司(「本公司」,包括子公司合稱為「本集團」)于1997年9月3日在香港成立,本集團在中國內(nèi)地所有三十一個省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個人、家庭、政企和新興市場的語音、數(shù)據(jù)、寬帶、專線、IDC、云計算、物聯(lián)網(wǎng)等,是中國內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級通信和信息運營商。

中國移動有限公司(「本公司」,包括子公司合稱為「本集團」)于1997年9月3日在香港成立,本集團在中國內(nèi)地所有三十一個省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個人、家庭、政企和新興市場的語音、數(shù)據(jù)、寬帶、專線、IDC、云計算、物聯(lián)網(wǎng)等,是中國內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級通信和信息運營商。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

移動Labs是中國移動的社交化新媒體平臺,是面向外部行業(yè)及產(chǎn)業(yè)鏈合作伙伴的信息發(fā)布、業(yè)務(wù)發(fā)展和產(chǎn)業(yè)推進門戶。