本文约1000字,建议阅读5分钟。
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。
语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,语料库怎么找,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用方法
下载语料
将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:
把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;然后在命令行输入以下之后,即可看到所有的txt文件名列表了。
执行命令即可
python main.py
生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
最后,可以建立英语学习者语料库。英语学习者语料库的语料素材主要来自EFL学生。建议语料库的目的就是观察各类学生的英语特征和言语失误的情况,为我国学生的英语教学提供有用的反馈信息。[7]将英语语料库引入课堂教学,可以缩小课堂上教的语言。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
query \t answer
校对:林亦霖
— 完 —
3、语料库特征 语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工(分析和处理),才能成为有用的资源。