汉英-泰互译有声语料的数据库研究
作者:
基金项目:

国家自然科学基金(61363085);国家语委重大科研项目(WT125-61);云南省教育厅科学研究基金重大专项(ZD2013013);云南民族大学高水平民族大学建设科研项目(ZZZC1501-JF12002);云南民族大学研究生创新基金重点项目(2015YJCXZ17)


Research on the Database of English Chinese-Thai Translation Audible Corpus
Author:
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [12]
  • |
  • 相似文献 [12]
  • | | |
  • 文章评论
    摘要:

    “汉英-泰互译有声语料库”的开发,在泰文舆情分析领域,解决了词典分词算法中训练语料缺乏的问题. 本文采用计算机化信息处理技术,对大量的收集来的泰文语料进行整理、规范、加工与存储,统计出泰文词汇8000多个. 然后利用词典翻译和人工校对其进行语料对齐. 最后,结合泰文语言语法特征以及句法的语义特点,分类归纳和规范标注泰语语料,构建了5万条左右的的汉英-泰语料数据库.

    Abstract:

    The development of “English Chinese - Thai Translation Audible Corpus”, in the field of Thai public opinion analysis, it solves the problem of the lack of training corpus in dictionary segmentation algorithm. In this paper, the computerized information processing technology is used to organize, standardize, process and store large amounts of collected Thai corpus, and then more than 8000 of the Thai vocabularies are finished. And then it uses the dictionary translation and manual calibration to align corpus. Finally, Thai corpus are classified and marked normally, combined with syntax characteristics and syntactic semantic features of Thai language, and then the database of English Chinese - Thai corpus is constructed, which contains about 50 thousand of the query terms.

    参考文献
    1 林政.Web双语平行语料自动获取及其在统计机器翻译中的应用[硕士学位论文].天津:天津师范大学,2010.
    2 江涛,江静,戴玉刚,李艾林.藏文舆情云分析系统平台研究. 信息网络安全,2014,9:92-94.
    3 才藏太,华却才让.藏语语料库加工和处理用的藏文切分词典的建立与设计.中国中文信息学会、中国科学院软件研究所、青海师范大学、五省区藏族教育协作领导小组办公室.第十届全国少数民族语言文字信息处理学术研讨会论文集.中国中文信息学会、中国科学院软件研究所、青海师范大学、五省区藏族教育协作领导小组办公室.2005,6.
    4 李绍哲.俄语语料库和基于语料库的语法研究[硕士学位论文].哈尔滨:黑龙江大学,2012.
    5 何冬梅.泰语构词研究[硕士学位论文].上海:上海师范大学,2012.
    6 韩金玲.汉泰名词性短语语序对比研究[硕士学位论文].南宁:广西大学,2014.
    7 蔡莲红,赵世霞.汉语语音合成语料库的研究与建立.语言文字应用,2013,S1:175-180.
    8 王成平.信息处理用彝、汉、英三语平行语料库的建设与语料对齐技术研究.科技通报,2012,2:131-133.
    9 常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理.术语标准化与信息技术,2003,1:28-31.
    10 才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究.中文信息学报,2011,6:157-161.
    11 姚树杰.面向统计机器翻译的语料处理与评价技术研究[硕士学位论文].沈阳:东北大学,2011.
    12 孔迎春.纳西汉语双语语料构建及智能输入法研究[硕士学位论文].昆明:昆明理工大学,2013.
    引证文献
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

胡刚,王嘉梅,李炳泽,林睿,林碧彤.汉英-泰互译有声语料的数据库研究.计算机系统应用,2016,25(9):223-229

复制
分享
文章指标
  • 点击次数:2045
  • 下载次数: 4145
  • HTML阅读次数: 0
  • 引用次数: 0
历史
  • 收稿日期:2015-11-17
  • 最后修改日期:2015-12-25
  • 在线发布日期: 2016-09-14
文章二维码
您是第11227292位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号