机器学习导论
机器学习导论
原文:https://medium.com/hackernoon/introduction-to-machine-learning-cab3c2efeb42
阿奇尼的学问,我们都听说过,而且听得耳朵满满的。然而,我们犹豫要不要掌握它。
“唯一愚蠢的问题是你没有问的问题”
所以让我们问几个基本问题
问)机器学的是火箭科学吗?
不,它被用于火箭科学。
为什么我们害怕偷看它?
也许这对我们来说是一个奇迹。所以我们认为这超出了我们的学习/理解范围。
问)难度/复杂程度如何?
任何敢于与九头蛇战斗的人都知道这是一件轻而易举的事情(这是一种轻描淡写的说法,但你会明白的)。
问)那么是什么呢?
这是一种让事物变得更加智能的尝试。我们大多数人都遇到过像“人工神经网络这样的术语,它试图复制人脑的工作。即使像这样的事情也不一定总是复杂的。本质上,它只是乘法和微分。是的,数学又来了,但这和你在学校学的差不多,没什么不同(这话来自一个害怕数学的人)。
问)智能是什么意思?
理解事物运作背后的概念或模式。它可以是理解情感、理解人类语言(例如英语、印地语、法语)以及像预测这样的酷东西。
问)那么它能做什么呢?
人类所能做的一切,甚至更多。有些应用真的(真的真的!!)酷。
好的。?比如什么?
考虑以下事项
1) 就像预测电子商务网站上十亿个选项中最相关的选项。
2) 还记得火绒吗?好吧,对于所有找到热门匹配的人,感谢机器学习!
3) 网飞用它来猜测你的心情,推荐你最感兴趣的电影。
4) Google 用它来猜测十亿(甚至几千亿)结果中最相关的页面。
它被用于医疗领域,在一个人被癌症感染之前预测疾病,如癌症。有人起鸡皮疙瘩吗?
6) 我个人最喜欢的: Cortana 和 Siri 型语言理解机器人。
7) 一切!!:D
现在让我们深入一点
网飞
- 它有一个类型标签,分别对应一部电影。例如:《星球大战》被贴上了冒险的标签(OFC:这是冒险!).它还有一些其他标签,如演员、导演、制片厂、描述、运行时间等。
- 现在,当你看电影时,它会记录上述所有信息,还会根据你的反应记录一些额外的信息。像这样的反应:你看了多少?你暂停了几次?现在它会在你的行为中发现模式。
所以结果大概是这样的:
- 你喜欢 X 流派-> 100 选项
- 你喜欢 Y 演员-> 50 个选项
- 你不喜欢很长的电影-> 10 个选项
- 你最喜欢的动画电影-> 5 个选项
现在,这 5 个选项是它将向您推荐的,但它不会就此停止。
你通常在下午 6 点到 10 点之间看电影->时间表推荐
你通常在睡觉前看恐怖电影->在晚上 10 点左右看恐怖电影
谷歌(文本分析)
- 从你开始写文本时谷歌显示的建议到谷歌显示的实际结果,一切都使用机器学习。它使用自然语言处理。自然语言是人类用来相互交流的语言。
- 它通过将文本转换成向量来理解语言。(是的,当我第一次听到这个概念时,我也很困惑)把单词 vector 想象成一个大小为 N 的矩阵。n 通常粗略地取决于被分析语言中规则的数量。示例英语被推断为具有 300-400 之间的规则。所以矩阵中的每个变量都指向一个规则。
问)现在的问题是应该给哪条规则赋予什么样的价值?
Ans)不知道!:D
为什么我会因为不知道答案而如此激动?
Ans) 因为这就是机器学习的力量!它 自动化了 这个过程。
这些向量包含 语义 。语义意指 上下文 。
结果差点让我做了阿基米德。
举例:考虑 3 个句子
- 梅西进了一球
- 罗纳尔多罚失了最后一个点球
- 穆库尔错过了他的睡眠
现在传统的学习会推断出句子 2 和 3 有同一个单词“missed”。没有相似之处。所以 2 和 3 更接近。很蠢,对吧?
而我们的大脑知道 1 和 2 在相同的上下文中使用,确切地说是体育或足球。
顺便说一句,我们的载体也是如此;)
罗纳尔多的向量将具有更接近梅西的向量的值。所以当我们用向量来寻找句子之间的相似性时,我们得到的 1 和 2 是更接近的。更聪明,对吗?
问)这么一个数字矩阵能理解语言和上下文吗?:O
Ans) 是,此时你眼中的彩虹和张大的嘴巴都是正常的;)