::-- amingsc [2006-06-25 11:15:13]
1. DMLab 缘起
- 在学习数据挖掘课程的过程中发现,编程实现书上的挖掘算法,需要完成数据准备、算法实现、算法试验等很多步骤,太麻烦,而且可重用性又很差,每次都要重复一遍这个过程,效率很低;因此,决定开发一个集成的试验环境来提高算法试验的效率,说是试验,实际上包含了从算法实现到算法测试、再到算法试验整个过程。
2. DMLab的特点
1.DMLab的数据服务器Dataserver可以为你读取数据集,解析数据集,你只需要一系列简单的图形界面操作就可以实现对数据集的探索和预处理,准备好数据集对象以供算法脚本使用;
2. 数据集的使用是可重复的,只需要配置一次,然后在算法脚本运行时直接读取就可以了,不需要每次运行算法脚本多重复数据集的配置过程,这大大的提高了算法试验的效率,对于你自己实现的算法进行调试的时候尤其有用;
3. 试验算法跟挖掘算法分离,比如有交叉验证算法CrossValidation,可以对任意一个分类算法进行试验,这样提高了试验过程的灵活性和效率;
3. 谁适合使用DMLab?
- 1.学习数据挖掘(含机器学习等)课程的学生: DMLab使你可以以最短的代码,最接近书中算法伪代码的方式来实现挖掘算法; 2.教习数据挖掘课程的老师:如果你属于此列,那么使用该系统可以让你的学生更好的完成数据挖掘课程的试验; 3.挖掘算法的研究人员,你是否想对某个不熟悉的算法进行研究,是否想验证一下改进某算法的思想是否正确,这都是最快速、直接的平台;
4. 使用DMLab需要具有哪些基础?
你需要最最最基础的Python知识,随便找本讲Python编程的书,你只需要看一个前两章就足够了,因此不要为不懂Python而有任何恐惧心理
4.1. 下载
http://cvs.woodpecker.org.cn/svn/woodpecker/zqlib/tangle/amingsc/PyDMLab/
4.2. 运行环境
Python2.4+ wxPython2.5+ Numeric (版本是开发时的版本,其他版本未作测试)
4.3. 项目日志
|
提要 |
4.4. 目标
构建一个快速实现/测试/试验数据挖掘算法的平台
4.5. 计划
4.6. 成员
欢迎感兴趣的朋友参与开发!---amingsc
4.7. 成果
系统已经初步实现,但是仍然需要进一步完善
5. 反馈
项目讨论