法律语言研究所
设为首页  |  加入收藏
 专业委员会  组织机构  秘书处  活动安排  资源下载  研究所  概况介绍  学术研究  人才培养  研究平台  学生园地  资源共享 
 文本分析 
 语音分析 
 语言心理分析 
文本分析
当前位置: 首页>>研究所>>学术研究>>实验研究>>文本分析>>正文
 
文本分析实验
2013年12月14日 张少敏 

文本分析实验研究方案概要

张少敏

文本分析的研究主要包括文本作者鉴别(authorship identification or authorship attribution)、文本作者画像(authorship characterization)以及文本相似度检测(similarity detection(Zheng, Li, Chen and Huang , 2006)。以下的介绍主要以文本作者鉴别为例。

1.      实验研究目标:

找到具有预测能力的语篇信息(Du, 2012; Du, 2013)特征,经过多次分析和验证,找到具有最佳预测能力的语篇信息特征,用这些特征对可疑作者的文本进行判别、归类,最终实现对可疑文本(query text)作者进行正确率较高的鉴别。

2.实验研究对象:

与以往以英文文本作者鉴别为主的方向不同,我们的研究对象主要涉及各种中文文本,包括电子邮件、QQ聊天记录以及手写文本等。通过语篇信息分析,找到文本中包含的个人习语,以此作为鉴别文本作者的主要标志。

3.      实验研究依据:语篇信息分析(Discourse Information Analysis

在以往对文本作者鉴别的研究中,研究方法主要集中在对文本词汇和句法层面的分析。我们的文本实验拟从更宏观的语篇信息视角,即Discourse Information的视角,对文本进行分析,找出每个作者所写文本的明显的语篇信息特征,然后与可疑文本的语篇信息特征进行比对,以此为依据,来确认可疑文本作者。

4.      实验研究拟解决的关键问题:

从理论上建构中文文本作者鉴别的分析框架,找到具有信度和效度的语篇信息特征;从实践上找到切实可行的中文文本作者鉴别的方法,确认一整套不同情况下需要的、具有实际应用价值的语篇信息特征集,为我国侦查语言手段和司法鉴别实践做出贡献。

 

参考文献

Du, Jinbang. (2012b). Application of Multimodal Information Corpus Techniques in Legal English Teaching. International Journal of Law, Language & Discourse, 2(4), 19-38.

Du, Jinbang. (2013). How Is Multimodal Information to Be Managed in the Legal English Class? International Journal of Legal English, 1(1), 23-47.

Zheng, R., Li, J., Chen, H., & Huan, Z. (2006). A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques. Journal of the American Society for Information Science and Technology, 57(3), 378-393.

 

 

关闭窗口
联系我们 | 关于我们 | 后台管理 | 版权声明

Copyright©2007 -2017  All Rights Reserved  版权所有 法律语言学研究网