Proceedings:BM1/zh-hant

這是2007年國際維基媒體年會預定議程的一部分 (預定議程目錄)

用自然語言處理(NLP)幫維基條目質量分級

作者

Brian Mingus (科羅拉多大學波爾德分校University of Colorado at Boulder), Trevor Pincock (科羅拉多大學波爾德分校University of Colorado at Boulder), Laura Rassbach (科羅拉多大學波爾德分校University of Colorado at Boulder)

分類

自由內容

版權

GNU自由文檔許可證 (詳情)

有關作者

Brian Mingus is an undergraduate in Psychology at the University of Colorado at Boulder. He has worked in the Computational Cognitive Neuroscience Lab since June of 2005 as an OSS developer and motor control researcher. He has been involved in Wikipedia since 2003, his first major project being the creation of Qwikly with Erik Zachte, a service that provided the entire contents of several projects in a format suitable for PDAs.

Presenters/Trevor Pincock/Biography

Presenters/Laura Rassbach/Biography

摘要

以規模來說，成長速率驚人的維基百科已使亙古以來許多的百科全書相形見絀。這都要歸功於允許匿名編輯的設計。但這卻也讓超過一百七十多萬條目的維基百科面臨了難以質量分級的問題。

最近這些隱姓埋名的志士以開創的「維基編輯小組」。小組將文彰分類成幾個等級：最高級的「特色條目」(Featured Article/FA)、甲級(A)、優良條目(Good Article/GA)、乙級(B)及始創小品(Start and Stub)。儘管目前已有超過750,000條條目被評鑑了，但獲選的只有150,000─FA：1364條、A:797條、GA：1967條、B：28421條始創小品：113320條。

為了維持甚至贏得更高的評價，維基百科須要有更高的品質要求與控管，例如目前的特色條目應該要遣詞適宜、學術綜博、內容充實且中立客觀。雖然優良與否本來就是很主觀的東西，大家又都了解人工評等才較為精確，在這方面有相當的困擾。加上目前的人力並無法深入細量每一個單一條目的各項優缺點，很多的條目都並沒有經過仔細地思考就被評了等級。

為了完成這項工作，我們已採用了「分類評定模型」(Maximum Entropy classifier)，利用由自然語言處理(Natural Language Processing)所擷取的特點以為維基百科的條目分級。我們將呈現我們的一些發現工具，像是以文長及圖表數來作標準。還有更高階的像PageRank Algorithm網頁排名或語意分析等等的指標來協助分類。我們的報告中，我們深信有效評鑑條目水準的終極途徑就是人與機器的結合與互輔。人類的排名經驗將是機器的學習樣本。同樣的學習經驗也會反應在未來在協助人類的分類上。屆時我們就可確切的指出：「阿！這就是特色條目！」了。

0

未遞交

1

已遞交

2

編輯中

3

復查中

4

最後補編

5

完成

6

可交付製備

內容全文

相關PDF

內容綱要

投影片

相關語音

相關影像

相關討論