注释训练数据是一项艰巨的任务
在许多情况下,该信息不可用。例如,推文不包含有关作者的种族、国籍和宗教信仰的信息,除非用户在他们的简历中明确说明该信息。通过查看用户的时间线和他们在线发布的其他内容,可以推断出其中一些信息。但是找到和注释这类信息比在照片中给猫和狗贴标签要困难得多。
但即使添加作者信息也不足以使仇恨言论自动化。仇恨言论与文化息息相关,不同地区的文化也各不相同。被认为可憎或可接受的内容不仅因国家而异,而且因同一国家的不同城市而异。当你去不同的地理区域时,种族、性别和宗教等事物的相关性也会有所不同。文化会随着时间而改变。今天被认为是常态的东西明天可能会被认为是冒犯性的。
仇恨言论也非常主观。背景、种族和宗教相似的人经常争论某事是否可恨。
很难想象你如何开发一个人工智能训练数据集,它可以考虑到所有这些因素,并理解我们数千年来开发的所有这些不同的复杂方言。
在视觉、听觉和身体反应方面,我们的大脑和神经系统远不如野生动物。但是语言是我们大脑中最复杂的功能。
所有的动物都有某种方式来交流。一些更高级的物种甚至有基本的词来代表食物和危险等基本事物。但是我们以复杂的方式思考和交流知识、观点和感受的能力使我们比所有其他生物都具有优势。神经科学家仍然无法找出人脑中语言形成和解释的确切机制。
许多公司认为他们可以将 NLP 任务外包给外部承包商,希望人工训练他们的 AI 并最终创建一个全自动系统。
但是,如果没有大型人类大脑能够理解居住在这个星球上的人们不同语言的所有不同细微差别,很难想象有什么东西可以理解。目前,我们的 AI 算法将能够找到常见模式并帮助过滤我们创建的大量内容,但在检测仇恨言论时,我们无法将人类排除在循环之外。