关于jpype/lucene 的痛苦

ghostwwl <[email protected]>
reply-to        [email protected]
to      python-cn`CPyUG`华蟒用户组 <[email protected]>
date    Thu, Dec 11, 2008 at 21:56
subject [CPyUG:73571] 关于jpype\lucene\paoding

缘起

这个星期已经折腾这个好几天了

需求

在python使用lucene对爬虫的爬回来的数据包做索引提供给搜索引擎组引擎组使用的java 要控制爬虫回访数据的:

增量索引
索引的修改添加和删除

解决办法一

公司开发环境win 如果使用linux就远程登陆有的是centos 最开始我的第一个版本使用的Gcj的在centos下

良好然后使用 jcc发现也没什么问题安装过程中出现最多的就是修改makefile文件如果你写过gcc 对make的语法不是很陌生安装上应该不会有问题多线程PyLucene.PythonThread 这个你就当做python的threading用一般不会有问题为了对索引是pylucene的使用的内存控制和减少磁盘的压力我多线程的时候多个线程公用一个基于内存的IndexWriter然后到了一定量同步到基于文件的writer

这个方法很有效
需要说明的是 lucene的api上说IndexWriter是线程安全的确实是线程安全的
但是发现如果自己在python里再加一个锁保证同一时刻只有一个线程写比不加锁效率会高很多
不知道java的锁是咋搞的这个是我我对单字段磁盘文件索引极限速度可以到 100万数据 5分钟左右使用标准分词

结果需求又来了

搜索组要求使用庖丁解牛分词然后我就很努力的想把庖丁的源代码包和lucene的源代码包放在一起用pylucene-src的通过修改makefile 来达到安装好pylucene后就有了paoding 我可耻尝试了 gcj 和jcc两个版本

因为对java我是小白最后还是可耻的失败了 1个多星期天天堆着makefile和java 痛苦可想而知

解决办法二:

本周二的时候在偶们组长惊喜的发现jpype然后说这个可以直接使用jar包他说不要看网上资料很少大部分骂他不稳定他说他觉得应该是稳定的这个更实用的人有关系不稳定肯定是自己的使用有问题不要怀疑这个东西的稳定性可耻的鄙视自己一把我一直就怀疑后来证明这个是很稳定的确实跟代码和使用有关系
然后让搜索组的兄弟姐妹弄来lucene和paoding的jar 昨天我不知道怎么同时使用2个jar 问了木头兄今天可耻的

发现只要分好跟多个jar 再次鄙视自己问这么低级的问题

到下午的时候把以前使用pylucene的代码使用jpype重构嗯终于可以索引了效率比直接用pylucene低

速度只有那个的1/2不到当然我同样多线程这个时候又碰到一个恶心的问题 java的虚拟机报出内存问题堆内存不够用了然后问问了zq 哎。。。。

又是一个低级的问题没办法老大告我们碰到问题的时候去查资料不如问别人来的快省时间要知道我还正写代码在，后

来没办法google找到解决办法

庖丁使用一路下来折磨不少特别那个配置加载和词库加载感谢偶们搜索组的java同胞帮助没有他们还用不是庖丁

小结：

网上说的所谓的jpype不稳定这个是不对的如果出现问题
- 第一看看自己的代码
- 第二看你调用的java的代码
- 第三看jpype的手册
千万不要在调用jpype的时候在python里使用那个关闭jvm的那个函数让python运行完自己关闭jvm 不然。。。我发现死在那里动不了呵呵

依然存在的问题:

现在没有解决的问题就是怎么在python使用jpype的时候手动对java虚拟机里的资源回收?!
都知道java的gc要到空闲的时候才资源回收不然如果长时间跑特别大量数据交互频繁创建对象你会发现 java虚拟机的堆内存永远是不够用的这个还没解决有知道的pythoner告诉偶一声

反馈

创建 by -- ZoomQuiet [2008-12-11 14:21:44]

PageCommentData