文本分析实验研究方案概要
张少敏
文本分析的研究主要包括文本作者鉴别(authorship identification or authorship attribution)、文本作者画像(authorship characterization)以及文本相似度检测(similarity detection)(Zheng, Li, Chen and Huang , 2006)。以下的介绍主要以文本作者鉴别为例。
1. 实验研究目标:
找到具有预测能力的语篇信息(Du, 2012; Du, 2013)特征,经过多次分析和验证,找到具有最佳预测能力的语篇信息特征,用这些特征对可疑作者的文本进行判别、归类,最终实现对可疑文本(query text)作者进行正确率较高的鉴别。
2.实验研究对象:
与以往以英文文本作者鉴别为主的方向不同,我们的研究对象主要涉及各种中文文本,包括电子邮件、QQ聊天记录以及手写文本等。通过语篇信息分析,找到文本中包含的个人习语,以此作为鉴别文本作者的主要标志。
3. 实验研究依据:语篇信息分析(Discourse Information Analysis)
在以往对文本作者鉴别的研究中,研究方法主要集中在对文本词汇和句法层面的分析。我们的文本实验拟从更宏观的语篇信息视角,即Discourse Information的视角,对文本进行分析,找出每个作者所写文本的明显的语篇信息特征,然后与可疑文本的语篇信息特征进行比对,以此为依据,来确认可疑文本作者。
4. 实验研究拟解决的关键问题:
从理论上建构中文文本作者鉴别的分析框架,找到具有信度和效度的语篇信息特征;从实践上找到切实可行的中文文本作者鉴别的方法,确认一整套不同情况下需要的、具有实际应用价值的语篇信息特征集,为我国侦查语言手段和司法鉴别实践做出贡献。
参考文献
Du, Jinbang. (2012b). Application of Multimodal Information Corpus Techniques in Legal English Teaching. International Journal of Law, Language & Discourse, 2(4), 19-38.
Du, Jinbang. (2013). How Is Multimodal Information to Be Managed in the Legal English Class? International Journal of Legal English, 1(1), 23-47.
Zheng, R., Li, J., Chen, H., & Huan, Z. (2006). A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques. Journal of the American Society for Information Science and Technology, 57(3), 378-393.