狗、狼、数据科学，以及为什么机器必须像人类一样学习

原文：https://medium.com/hackernoon/dogs-wolves-data-science-and-why-machines-must-learn-like-humans-do-41c43bc7f982

我们生活在一个机器正在学习区分狗和狼的世界。现在，一个机器人知道不要抚摸狼！我们一会儿会回到这个话题。

现在，让我们介绍一下 Evgeniy，他是 VEON 的高级数据科学家。在我们的采访中，我们谈论了很多牛逼的事情(包括狗和狼！).我们开始吧。

你拥有莫斯科国立罗蒙诺索夫大学数学建模专业的博士学位。是什么让你进入统计学领域的？

是的，我的论文涉及非负矩阵分解。我猜我对统计学的兴趣源于年轻时开始编程。我一直喜欢分析和创造。

但是我的统计之旅真正开始于和我朋友的一个玩笑。我们都知道统计学是一门超级复杂的学科，所以我们申请只是为了看看会发生什么。我们都被录取了，并决定去做。事实证明我们热爱这片土地。

这一切发生的方式很有趣。我真的很喜欢使用统计模型，尤其是涉及真实数据的时候。放学后，当我分析医学和生物学研究的数据时，我意识到这是我的方向。一个简单的笑话最终成为我一生的追求！

我们讨论了很多学习、研究和分析。现在人工智能时代已经开始，你有什么见解可以帮助你成功地驾驭这个新世界？

这是一个令人兴奋的世界。像 T2 这样的神经网络无处不在。神经网络被设计成像人脑一样学习，但我们必须小心。这并不是因为我害怕机器接管这个星球。相反，我们必须确保机器能够正确学习。

[## [1602.04938]“我为什么要相信你？”:解释任何分类器的预测

摘要:尽管被广泛采用，机器学习模型仍然主要是黑箱。了解原因…

arxiv.org](https://arxiv.org/abs/1602.04938)

我脑海中经常浮现的一个例子是一个神经网络如何学会区分狗和狼。它没有学习狗和狼的区别，而是学习了它们图片中狼在雪地上，狗在草地上。它学会了通过观察雪和草来区分这两种动物。很明显，网络学习错误。如果狗在雪地上，狼在草地上会怎么样？那就错了。

所以你认为必须对这些机器的学习方式给予极大的关注，对吗？

绝对的。这非常重要。我不是说能够区分狗和狼不重要，但是神经网络有能力做非常重要的事情。

[## Picasso:CNN 的免费开源可视化工具

多云，可能有坦克

medium.com](/merantix/picasso-a-free-open-source-visualizer-for-cnns-d8ed3a35cfc5)

有这样一个例子:一支军队使用神经网络来区分伪装的坦克和平原森林。问题是坦克的照片是在阴天拍摄的，而森林的照片是在晴天拍摄的。神经网络成功通过了所有测试，但它只是区分云和太阳，而不是坦克和森林。它学会了区分两者的错误方法。

By sequentially blocking out parts of the image, we can tell which regions are more important to classification. This image was classified by the VGG16 model, with a 94% classification probability of “tank.” Bright parts of the image correspond to higher probability of the given classification. For instance, the sky regions are very bright because occluding the sky doesn’t affect the probability of this image being classified as a tank. And conversely, the tank tread regions are darker because without them, it’s hard to for the model to know if it’s looking at a tank.

在这两个例子中，模型都错误地适应了样本中的隐含偏差——这实际上经常发生(这里是的另一个例子)。这就是为什么我们理解一个模型如何做决定是很重要的。

人工智能可以拯救生命，保护环境，全面帮助我们建设更美好的未来。显然，这项技术可能会变得复杂，我们不仅要确保我们用它做的事情有价值，我们还必须谨慎处理它。

点击了解我们所有的数据科学和工程职位