【视点】机器人也会造假、有偏见？原因在这儿

　　比如说，你在数据库里询问“巴黎：法国：：东京：x”时，系统给你的答案是x=日本。但是，如果问题变为“父亲：医生：：母亲：x”时，给出的答案是x=护士；再比如问题“男人：程序员：：女人：x”，答案为x=主妇。

　　这种答案在一定程度上已经算是一种性别歧视了。而据分析，个中原因是Word2vec语料库里的文本本身带有性别偏见，之后的向量空间图随之也受到影响。

　　由此我们可以看出，机器学习之所以会出错，某种程度上还是归于“学习资料”的“不太正经”，以及算法那种什么都学的性质。

　　这种错误是否可以避免？

　　讲真，以当前的技术来讲，这种现象是很难杜绝的。如果要杜绝这种情况的出现，那不仅涉及到技术层面，还有社会道德层面。

　　先看社会道德层面。机器学习算法的数据来源于人们的语言、行为习惯等，以软银计划打造的人工智能汽车为例。7月份，软银与本田达成合作，联手打造一辆能够阅读驾驶员情绪并与之交流的汽车，在行驶过程中，系统中的机器学习算法可以学习驾驶员的驾驶习惯，从而在无人驾驶模式开启时，能够给予驾驶者最舒服、毫无违和感的的驾驶体验。但是，如果该驾驶员有不良驾驶习惯，那将会对算法的学习提供错误的示范。

　　这仅仅是驾驶习惯，而在语言方面，其中可能包括暴力、侮辱等等字眼，相比于驾驶习惯，这些更难以约束。因而，在学习对象都不能“正经”的情况下，又怎么将机器学习算法调教完美？

　　再看技术层面，这也得从数据方面下手。如果想要好好的训练算法，研究人员就得剔除数据中的不良信息和隐藏的逻辑，再让算法分别识别。但从这里我们就可以了解到，这是对于研究人员而言，将是一项极其繁重、极具难度的工作。而且，抠字眼还是比较简单的了，最难搞的还是字里行间的逻辑关系，一不小心就是一个大坑。不管是人类，还是机器，对于这种识别都是一个难以跨越的坎儿。

　　以此种种来看，机器学习固有它的好处，但我们还是不能过于依赖，尤其是涉及到一些复杂的工作，比如开车、聊天等情形。不过，虽然当前这个问题很难解决，但随着人工智能技术的发展，说不定哪天研究人员就能想到一个法子，从而彻底解决这个问题。

【视点】机器人也会造假、有偏见？原因在这儿

相关推荐