UCI数据集是一个常用的标准测试数据集,下载地址在
我的主页上也有整理好的一些UCI数据集(arff格式):
关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。
如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。
关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE,Elsevier,Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:
再嘱咐两点,要做研究,首先要打好基础,例如数学基础和程序设计能力,要学会熟练使用google等搜索引擎,还有一定要看高质量的论文。
《数据挖掘的数据集资源》
DirectMarketing
KDDCUP1998Data
GIS
ForestCoverType
Indexing
CorelImageFeatures
PseudoPeriodicSyntheticTimeSeries
IntrusionDetection
KDDCUP1999Data
ProcessControl
SyntheticControlChartTimeSeries
RecommendationSystems
EntreeChicagoRecommendationData
Robots
Pioneer-1MobileRobotData
RobotExecutionFailures
SignLanguageRecognition
AustralianSignLanguageData
High-qualityAustralianSignLanguageData
TextCategorization
20NewsgroupsData
Reuters-21578TextCategorizationCollection
NSFResearchAwardsAbstracts1990-2003
WorldWideWeb
MicrosoftAnonymousWebData
MSNBCAnonymousWebData
SyskillWebertWebData
2、几个实用的测试数据集下载的网站
以下网址上有各种数据集:
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
statlib
样本数据库
关于基金的数据挖掘的网站
reuters数据集
各种数据集:
进行文本分类&WEB
apriori算法的测试数据
数据生成器的链接
关联:
WEKA:
1。Ajarfilecontaining37classificationproblems,originallyobtainedfromtheUCIrepository
2。Ajarfilecontaining37regressionproblems,obtainedfromvarioussources
3。Ajarfilecontaining30regressiondatasetscollectedbyLuisTorgo
癌症基因:
金融数据:
另一个人提供的
在下面的网址可以找到reuters数据集
DownloadtheFinancialData(~17.5Mzippedfile,~67Munzippeddata)