加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

rLLM:使用大型語言模型進行關系表學習

08/08 15:26
1344
閱讀需 6 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

本文 rLLM: Relational Table Learning with LLMs 介紹了rLLM(relationLLM)項目,該項目旨在提供一個平臺,用于快速開發(fā)基于大型語言模型(LLMs)的關系表學習(RTL)方法。

按數據類型劃分的全球數據量趨勢和LLM令牌成本趨勢

引言

背景:大型語言模型(LLMs)如ChatGPT在理解和生成文本方面表現(xiàn)出色,利用了大規(guī)模無監(jiān)督預訓練、指令微調和價值對齊等技術。

挑戰(zhàn):將LLMs應用于實際大數據時成本極高。預計到2025年,LLMs的總成本將達到近5000萬億美元,這遠超美國2023年的GDP。

數據類型:盡管文本和結構化數據的體量較小,但處理這些數據的成本最高。

關系數據庫:關系數據庫存儲了全球約73%的數據,近年來關系表學習(RTL)成為一個重要研究方向。

系統(tǒng)概述

rLLM的架構

rLLM系統(tǒng)由三個主要層次組成:數據引擎層、模塊層和模型層。

數據引擎層
    提供數據處理和存儲功能。
模塊層

包括圖神經網絡(GNN)模塊、表神經網絡(TNN)模塊和LLM模塊。

GNN模塊

GraphTransform模塊:提供圖數據的預處理方法,如歸一化和自環(huán)操作,支持組合多種圖預處理方法。

GraphConv模塊:實現(xiàn)流行的圖卷積層,包括同質和異質圖卷積,核心功能是不同節(jié)點間的消息傳遞。

LLM模塊

Predictor模塊:利用LLMs進行數據注釋,適用于缺乏標簽的數據場景。

Enhancer模塊:利用LLMs進行數據增強,生成詳細的文本解釋以提高數據質量。

TNN模塊

TableTransform模塊:將樣本特征映射到高維向量空間,增強樣本信息。

TableConv模塊:實現(xiàn)特征列間的多層交互學習,提取潛在信息,通常使用注意力機制。

模型層

通過組合模塊層的組件,提供三種主要策略來快速開發(fā)RTL類型的模型:組合、對齊和協(xié)同訓練。

組合:聯(lián)合使用不同部分的模塊,例如使用LLM模塊的Predictor進行初步標簽注釋,然后使用GNN模塊的GCN進行分類。

對齊:對齊不同模塊的輸入和輸出特征空間,例如使用LLM模塊的Enhancer生成嵌入,然后與GNN模塊生成的嵌入對齊。

協(xié)同訓練:協(xié)同訓練不同模塊,例如BRIDGE算法結合TNN和GNN進行多表聯(lián)合學習。

示例方法 - BRIDGE

BRIDGE的架構

BRIDGE(Basic Relational table-Data Learning Framework)方法用于快速構建RTL類型的方法。

表數據處理:使用表神經網絡(TNN)對表數據進行建模和學習。

非表數據處理:利用表之間的“外鍵”關系構建樣本之間的關聯(lián),并使用圖神經網絡(GNN)進行建模。

集成:將表編碼器和圖編碼器的結果整合,進行多表數據及其相互關系的聯(lián)合建模。

方法和數據集

rLLM系統(tǒng)支持多種常見方法,包括同質和異質的GNN方法以及單表學習的TNN方法。

包含的方法
    提供了多種現(xiàn)有方法的實現(xiàn),包括TabTransformer、TabNet和FT-Transformer。
數據集

提供了三個新的關系表數據集:TML1M、TLF2K和TACM12K,這些數據集經過增強并附帶標準分類任務,適合設計新的RTL方法。

TML1M:基于經典的MovieLens 1M數據集。

TLF2K:基于HetRec 2011數據集。

TACM12K:基于ACM數據集。

評估

通過在TML1M數據集上的實驗,驗證了BRIDGE算法的有效性。實驗結果表明,BRIDGE算法能夠從多個表及其關系中提取有價值的信息,顯著提高了性能。

實驗設置
    使用TabTransformer作為表編碼器,GCN作為圖編碼器。標準化訓練批次、dropout率等參數,進行多次實驗以獲取平均結果。
結果與分析
    傳統(tǒng)的單表TNN方法只能從單個目標表中學習,無法有效利用多個表及其關系的信息,性能較差。BRIDGE算法通過結合表編碼器和圖編碼器,有效提取多個表及其關系中的有價值信息,顯著提高了性能。

相關信息

代碼:https://github.com/rllm-project/rllm

論文:https://arxiv.org/abs/2407.20157v1

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
P82B715TD,118 1 NXP Semiconductors P82B715 - I2C-bus extender SOIC 8-Pin

ECAD模型

下載ECAD模型
$4.97 查看
ATXMEGA256D3-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM HEIGHT, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.78 查看
ATMEGA644PA-AU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$4.94 查看

相關推薦

電子產業(yè)圖譜