A.在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù) B.在分析方法上更注重相關(guān)分析而不是因果分析 C.在分析效果上更追究效率而不是絕對精確 D.在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)
A.缺失值處理 B.噪聲數(shù)據(jù)清除 C.一致性檢查 D.重復(fù)數(shù)據(jù)記錄處理
20Newsgroups數(shù)據(jù)集是機(jī)器學(xué)習(xí)研究中常用的標(biāo)準(zhǔn)數(shù)據(jù)集,它使用20個Usenet新聞單位上幾個月發(fā)布的18828個消息,共18828個文件,如果對該數(shù)據(jù)集使用mahout進(jìn)行文本分類,分類后得到的混淆矩陣中,部分結(jié)果如下圖所示:圖中第一行是類別名稱,第二行是屬于a類的分類情況(a類文本原有168篇),第三行是屬于b類的分類情況(b類文本原有180篇),第四行是c類的分類情況(c類文本原有189篇),根據(jù)各行的分類情況,以下分析正確的是()
A.分類算法對a類文本分類情況較好 B.分類算法對c類文本分類情況較好 C.分類算法對b類文本分類情況較好 D.分類算法對c類文本分類情況較差