知識圖譜強化DRS:WebSailor智能導(dǎo)航與推理探索
作者:佚名|分類:百科常識|瀏覽:89|發(fā)布時間:2025-08-20
知識強化 DRS:WebSailor 的航行之道
WebSailor:超越人類推理的網(wǎng)頁智能代理

【核心亮點】
個人認(rèn)為,樣本構(gòu)建與DSPO是這篇論文的核心所在。
【樣本構(gòu)建】
如圖-1所示,該論文旨在讓DRS解決L3級別的任務(wù)(見圖-2),這類任務(wù)通常缺乏明確的推理路徑,需要逐步獲取信息、進(jìn)行比較,甚至可能包含多條推理路徑。論文提出利用知識圖譜來引導(dǎo)生成難題的思路。
問題和答案

- 從維基數(shù)據(jù)出發(fā),結(jié)合互聯(lián)網(wǎng)中的數(shù)據(jù),進(jìn)一步豐富知識圖譜的信息(通過搜索、訪問再用LLM見圖-3)。
- 采集子圖樣本,這些子圖中不僅包含線性推理結(jié)構(gòu),還包含復(fù)雜的分支和循環(huán)信息。
- 利用強模型對圖譜信息進(jìn)行并生成問題和答案。
- 構(gòu)建混淆問題,隱藏掉問題中的關(guān)鍵信息或添加干擾信息,以提高魯棒性。
路徑

- 利用LRM逐步生成調(diào)用工具和cot。
- 為了防止cot過長,使用另一個模型進(jìn)行壓縮和但根據(jù)論文,并沒有使用LRM的CoT。
- 過濾掉結(jié)果不正確的路徑和過于簡單的問題(8條路徑都正確)。
【DUPO】
如圖-4所示,這可以看作是DAPO的擴展。之前未曾了解過DAPO,學(xué)習(xí)后會回來補充。
【討論】
- 利用知識圖譜構(gòu)建樣本的思路確實巧妙,但僅僅如此就能使LLM具備多個信息源頭交叉對比的能力嗎?
- 感覺這個思路可以進(jìn)一步擴展,比如結(jié)合私域的知識圖譜,再通過公網(wǎng)搜索增強圖譜的信息,最后基于此生成樣本。
- 不明白為何要使用LRM生成next-action?
(責(zé)任編輯:佚名)