存档在 2011年10月

中文分词资料

2011年10月18日

pymmseg-cpp

  • Python 中文分词工具。JavaEye曾经报道过ruby的中文分词程序:rmmseg-cpp这个项目。rmmseg-cpp实际上是用C++来编写的分词,只在最外层和ruby进行了粘合。 现在作者pluskid(张驰原)在rmmseg-cpp的基础上提供了Python的代码封装,可以用在Python项目当中进行中文分词。

paoding

  • Lucene中文分词“庖丁解牛” Paoding Analysis,Paoding’s Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
    高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
    采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析

SCWS-1.1.7

  • 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
  • 文本自动分类建议系统 http://www.ftphp.com/scws/demo/a.php
  • 在线演示:http://www.ftphp.com/scws/demo/pscws23/demo.php

Ineffable Shopping Guide 介绍

2011年10月10日

Ineffable Shopping Guide 是我们参加微软校园菁英计划之“有求必应”结构化数据搜索是想到的。主要目的还是因为面对那些琳琅满目的商品你是否觉得无从下手,买各种数码产品首先都是到处找该产品的评论信息。我们就准备将这些产品的评论信息进行整合起来,这样就极大的方便了用户,既给了用户想知道的信息,又为用户提供了没有考虑到的信息。下面是我们作品展示的海报。在线Demo展示:http://shopping.daijun.info

large_V5I0_503900007a941260

在线视频:

技术说明

Childsearch—-2010腾讯校园之星作品

2011年10月10日
  • 专为儿童开发的搜索引擎,主要功能有:
  • 拼音搜索功能
  • 自动对输入关键字分类
  • 智能匹配电影、游戏
  • 游戏可以自动播放
作品展示
在线运行

拼音处理资料

2011年10月5日

ibus-sogoupycc

  • 非官方的搜狗云拼音客户端, for Linux/ibus,调用搜狗云端输入法来实现本地拼音客户端。

ibus-cloud-pinyin

  • 为 Linux / ibus 设计的一个支持在线云拼音服务的拼音输入法

pinyin4j

  • convert 中文 to zhongwen.pinyin4j是一个支持将中文转换到拼音的Java开源类库。 支持简体中文和繁体中文字符; 支持转换到汉语拼音,通用拼音,威妥玛拼音(威玛拼法),注音符号。

imewlconverter

  • IME Words Library Converter/深蓝词库转换实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。
    支持的输入法
    目前支持的输入法有: PC端: 搜狗拼音 QQ拼音 QQ五笔(纯汉字) 谷歌拼音 搜狗五笔 紫光拼音 拼音加加 新浪拼音 极点郑码 自定义格式 手机端: QQ手机拼音 百度手机拼音 触宝手机输入法(Android)

中文自然语言处理开放平台

  • 中科院计算机自然语言处理的词库、论文等资料。