文本分析研究的应用——侦查篇
张少敏
文本分析的研究主要包括文本作者鉴别(authorship identification or authorship attribution)、文本作者画像(authorship characterization)以及文本相似度检测(similarity detection)(Zheng, Li, Chen and Huang , 2006)。以下的介绍主要以文本作者鉴别为例。
随着计算机的普及,以纸笔为媒介的手写文本开始逐渐退出历史舞台,取而代之的是大量的电子文本材料,这使得在侦查和司法鉴定中的笔迹鉴定技术逐渐受到限制。文本分析研究能够摆脱手写材料的限制而从语言本身对文本进行研究,可以应用于国内现阶段的文本作者鉴别的侦查和司法实践中,补充目前国内以传统的笔迹检验技术为主要技术鉴定手段的不足,为我国侦查和司法实践做出理论及实际的贡献。
文本作者研究的目标是通过对各类中文文本的分析,找到具有最佳预测能力的语篇信息(Du, 2012; Du, 2013)特征及其他文体特征,用这些特征对可疑作者的文本进行归类,最终实现对可疑文本(query text)作者进行正确率较高的鉴别。为此,文本分析的研究成果就是一整套特征的参数,这些参数根据不同的文本和作者的情况会产生各式各样的组合来完成对可疑文本作者的鉴别。这样的实验经过多次反复验证,在正确率较高的情况下就可以尝试和其他侦查手段(如手写文本的笔迹鉴定、测谎等)并行地应用于各类文本作者鉴别的侦查中,使得各种侦查手段相互佐证。如果包括文本作者鉴别的各种侦查结果共同指向同一个犯罪嫌疑人,那么这些侦查结果就可能作为证据应用在司法实践中,比如,为法官的最终判案提供强有力的证据支持等。
另外,实验结果还有待于在大量的实践中获得检验。通过大量的实践检验(类似于药物的临床检验)以及不断的调整分析方法后,文本分析研究才有可能独立地应用到各类相关案件的侦查实践中,发挥其独当一面的能力。
参考文献
Du, Jinbang. (2012b). Application of Multimodal Information Corpus Techniques in Legal English Teaching. International Journal of Law, Language & Discourse, 2(4), 19-38.
Du, Jinbang. (2013). How Is Multimodal Information to Be Managed in the Legal English Class? International Journal of Legal English, 1(1), 23-47.
Zheng, R., Li, J., Chen, H., & Huan, Z. (2006). A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques. Journal of the American Society for Information Science and Technology, 57(3), 378-393.