非开源项目 记事本 的理论片段

::-- ZoomQuiet [2005-02-25 09:50:57]

1. 记事本项目理论

我的“记事本”和你的“人机对话”好像研究目标相同,下面说说我的“记事本”的构想,而构想的核心就是对“知识”的研究。

  • 知识有两个粒度级别:

    • 第一级是“词”,数据库就是把词作为存储对象,词典等也是数据库。
    • 对于人机对话来说就是从自然语言中抽取数据,人机对话并不能从对话中抽取“关系”,因为所有的语句中的词的关系都是程序事先预料到的,并且分别处理的,所以说人机对话是从语句中抽取“词”。从语句中抽取词的过程涉及到语义学:区分名词、动词、形容词、助动词。另外,也要借助于“同义词”等语义学的概念。从语句中抽取词就是区分词的性质,然后获得所需要的词的过程。数据库就是存储的词和词之间的关系,数据库可以是关系数据库,也可以是prolog那样的有多种特定关系的可推理的数据库。我认为人机对话目前首要是具有能接受各种数据库数据的能力。数据库的形式有关系数据库、xml数据、RDF数据,这些以标准格式存在的的细粒度的知识是最有组织、最有语义概念的知识,应该是人工智能首要的消化对象。以网络形式相互联系的各个独立的数据库的联合是人类知识的最佳载体,这应该是目前最需要做的事。现在已经有很多人在呼吁建立一个全球统一的知识库,我认为应该从增强对现有的细粒度的知识的消化能力入手,一方面是消化现有的细粒度数据,另一方面是用网络的形式吸收人头脑中的知识。wordnet是一个吸收和存储人类的细粒度知识的尝试。象词典、输入法等也是以细粒度知识为基础的。我的记事本就是先从作为关系数据库的一个接口入手,比如一个通讯录。使用人机对话的形式可以方便的输入数据,比如输入一句“某某的电话是XXXX”,而不用调出相应的输入界面,也不用被迫按照输入界面的顺序输入,并且能将多个数据库的输入混合在一起,不用考虑先后顺序。在“词”这个粒度级别中,语法分析是关键,而语法不外乎表现这四种关系:抽象和具体、整体和部分、基本和衍生、对象和属性,这正是四种思维形式的表现。
    • 第二级是“语句群”,
    • 语句群的形式可以是论坛的一个帖子,FAQ的一个回答,howto的一个回答,或结构化文本的一个最小的单位,一个“小节”。
    • 就是由一个或几个段落组成的解决单一问题的语句群。这个语句群的概念比段落含义更明确。语句群的存储和检索就涉及到了思维的四种形式,一般的语句群的组织形式是以目录的形式出现的,比如结构化文本的“章”、“节”等,或网站的目录检索,或文件的目录,这就是“树状思维”。关键词的检索方式可以看作目录检索的一种比较灵活的形式,也可以看作“离散思维”的一种形式。象文章的属性,比如作者、语言、网站等,象“都柏林核心”,这种类似关系数据库的方式,属于“对应思维”的形式。象全文,标题的检索属于“离散思维”的形式。html、wiki、info那样的超链接的形式则属于“延伸思维”的表现,以一种延伸的形式找到最关心的知识。掌握了思维的四种形式,也就掌握了“语句群”级的知识的全面的检索方法。结构化文本是组织知识的工具,tex、html、xml、wiki等都是结构化文本。新闻组、论坛、RSS、BBS等都是对“语句群”级的知识进行组织的尝试。FAQ、howto、cookbook、归档网络也是知识组织的形式。研究怎样使知识更有组织,更容易检索,研究各种知识的组织形式是一个非常有意义的工作。
  • 我的记事本就是想综合两个粒度级别的各种检索方式,作出一个比较完善的知识管理软件。这个软件要有网络和本机两种交互界面,要兼容各种数据形式和输入输出方法。但这是一个宏大的计划,最好有资金支持才好,否则就只能等待我花几十年的空闲时间慢慢来搞了。不知我所说的和你的项目的重合度如何。不知是否有人或有资金来实现这个构想。我想先用scheme搞一个原型出来,确实有必要再用c语言等更高效的语言来实现。原来我曾经用lisp编了一个超链接系统,架构比较乱,肯定要重新实现一遍,但这次我打算从一个“通讯录”这样的关系数据库入手,然后是一个类似wordnet的网络接口。现在已有的知识的组织方式很多,各有特点,只有先构思一个更先进的架构才有开发的必要,而这种架构只有在一步步开发中逐渐找灵感。

....