读人工不智能：计算机如何误解世界笔记06_机器学习

1. 技术世界1.1. 为了创造一个更加公正的技术世界，我们在创造技术的时候，需要接受更多不同的声音1.2. 在计算机科学中，很难说清楚‘简单’和‘几乎不可能’的区别1.3. 谈论计算太难了，这导致了很多误解1.3.1. 计算机在某些方面表现得非常优秀，而在另外一些方面表现得非常糟糕1.3.2. 当人们误判计算机在执行任务时的参与程度时，社会问题就会产生1.4. 蹒跚学步的孩子一般可以在不踩到玩具的情况下在房间内行走（当然，她可能会偏不这样干），但机器人做不到1.5. 使用机器人也有一些可预见的缺陷，那些拥有扫地机器人和宠物的人已经率先发现了1.5.1. 如果你知道你的狗可能会把家里弄得一团糟，那就别安排你的扫地机在无人看管的情况下工作1.5.2. 家里有小动物，什么事情都有可能发生1.6. 计算文化中存在的沟通问题，就有一部分是由日常语言的不精确性和数学语言的精确性所致1.6.1. 在数学中，一切语言都是高度精确的1.6.2. 在生物学中，“cell”（细胞）的得名是由于罗伯特·胡克在1665年发现细胞的时候，想起了修道院中僧侣们居住的单人房（cell）的墙壁1.6.3. Web开发框架Django，是以其发明者最喜欢的爵士吉他手金格·莱恩哈特（Django Reinhardt）的名字命名的1.7. 机器学习隐含着计算机有自主权的意味，并且由于它能“学习”，因此具有某种程度的感知能力1.7.1. “学习”这个词通常适用于诸如人类这种有感知能力的生命体（或有部分感知能力的动物）1.7.2. 意味着机器可以在它已预编程好的、常规的、自动化的任务中得到改进1.7.3. 尽管“学习”有某种隐含的意味，但不代表机器就能获得知识、智慧或者自主选择权1.8. 想象力也让事情变得更加复杂1.8.1. 如何定义人工智能，取决于你对未来的信念1.8.2. 我们没有任何理由相信奇点即将到来。你可以想象未来的样子，但你的想象不能佐证你对未来可能性的预测1.9. 但凡是理智的聪明人，对未来会发生什么是无法达成共识的1.9.1. 部分原因是没有人能看到未来1.10. 在增量学习模式下，算法会随新数据的到来而持续改进1.11. 不平等是不公平的，但并不罕见1.11.1. 如果机器学习模型只是简单地复制实际的世界，那我们就无法走向一个更加公正的社会2. 机器学习2.1. “机器学习”实在太新了，共识太少，所以语言学的定义没能跟上现实也就不足为奇了2.2. 1959年，“机器学习”这个术语被《牛津英语词典》收录2.3. 1959年《IBM公司研究与开发杂志》（IBM Journal）卷3，我们的计算机具有足够的数据处理能力和计算速度，可以好好利用机器学习技术2.4. 在2000年出版的第三版中，《牛津英语词典》开始将“机器学习”视作短语2.4.1. 机器学习（machine learning）名词（计），计算机从经验中学习的能力，是一种基于新采集的信息改进算法的能力2.5. 机器学习是学习一个数据集的一些属性，并将它们应用到新数据上。因此，在机器学习中，评估一个算法的常见做法是将数据分成两组：一组为训练集，用以学习数据属性；另一组为测试集，用以检测数据属性2.6. 所谓机器“学习”，并不意味着机器有一个由金属制成的大脑，而是指机器根据人类定义的衡量指标，在执行单个特定任务时更加准确2.6.1. 这种学习并不等同于智力2.7. 类型2.7.1. 监督学习2.7.1.1. 计算机被“教师”给定一组示例的输入数据和所需的输出数据，目的是通过将输入数据映射到输出数据，习得一般规则2.7.2. 无监督学习2.7.2.1. 给学习算法输入的数据不带标签，使其自行在数据中发现结构2.7.2.2. 无监督学习的目的可以是无监督学习本身（发现数据中的隐藏模式）或者通过无监督学习达到其他目的（特征学习）2.7.3. 强化学习2.7.3.1. 计算机程序在一个动态环境中执行某个动作，并与环境发生交互2.7.3.1.1. 如驾驶车辆，或与对手玩游戏2.7.3.2. 程序会在试探它的问题空间时收到环境返回的奖励和惩罚方面的反馈2.8. 训练数据2.8.1. 训练数据是用于训练和调整机器学习模型的已知数据集2.8.2. 三种机器学习都依赖于训练数据2.8.3. 机器学习算法可被应用于已知数据集2.8.3.1. 随机森林、决策树、最近邻、朴素贝叶斯或隐藏式马尔可夫等2.8.3.2. 算法是计算机执行任务需要遵循的一系列步骤或过程2.8.4. 网上的资源库收录了很多有意思的数据集，可用于机器学习实践2.8.4.1. 面部表情数据集2.8.4.2. 宠物数据集2.8.4.3. YouTube视频数据集2.8.5. 为数不多的标志性数据集被发布到网络上，成为当代所有人工智能的基石3. 计算机拥有智力？3.1. 国际象棋不是对智力进行的测试，它只测试一种技能3.1.1. 下象棋的技能3.2. 象棋代表智力其实基于一种错误的文化前提3.2.1. 认为优秀的棋手头脑聪明，比周围的人更有天赋3.3. 许多聪明的人擅长国际象棋，但国际象棋或任何单一的技能并不代表智力4. 泰坦尼克号4.1. 可得性启发法4.1.1. 首先浮现在脑海里的情景通常是我们认为最重要或最常发生的故事4.2. 在一个不平等的世界里，如果我们根据世界的实际情况来制定定价算法，那么女性、穷人和少数族裔客户就会不可避免地被收取更多的费用4.2.1. 种族、性别和阶级会以各种明显和不正当的方式影响商品的定价4.2.2. 贫穷往往意味着要为日常必需品支付更高的费用4.2.3. 使用分期付款计划购买家具，总价格比直接购买要高4.2.4. 发薪日贷款的利率远远高于银行贷款利率4.2.5. 贫穷的租户经常被迫为住房支付更多费用4.3. Pclass代表乘客的社会经济阶层，这可能是一个有用的预测指标4.4. 票价是“泰坦尼克号”幸存者数据的数学分析中最具影响力的因素4.4.1. 这不是什么值得害怕的事，也并不会引领我们堕入全球被超智能计算机统治的境地4.5. 得出支付更高票价的乘客更有可能在海难中幸存这一结论，是非常不明智的4.5.1. 支付高票价的人要比支付低票价的人富有，这使我们可以向富人收取较低的保险费4.5.2. 保险的重点就在于让风险在大量人群中平均分配4.5.3. 可以为保险公司赚更多钱，但推销出去的不是最好的产品4.5.4. 从保险业到旅游业，价格优化无处不在4.5.5. 价格优化常常造成价格歧视4.5.5.1. Homedepot.com和旅游网站会依据用户浏览网站时使用的是手机还是电脑，分别显示不同的价格4.6. 性别也是一个可供合理推算的预测指标4.7. “妇女和儿童优先”是海难逃生的常用原则4.7.1. 这条原则可以追溯到1852年英国皇家海军舰艇“伯肯黑德”在南非海岸搁浅的事故4.7.2. 这不是一条放之四海而皆准的原则，但它的有效频次用于社会分析是足够的4.8. 船长下了命令：“让妇女和儿童上船，然后把小艇放下。”4.8.1. 在右舷的大副默多克认为，船长让妇女和儿童优先上救生艇4.8.2. 在左舷的二副莱特勒认为，船长只允许妇女和儿童上救生艇4.8.3. 关键在于两名副官，而不是救生艇的编号4.8.3.1. 虚假因果关系的问题4.9. 弃船逃生的方法4.9.1. 塞耶尽他所能跳到远离船身的地方4.9.1.1. 塞耶活了下来4.9.2. 朗则跳到了船身近处的海里4.9.2.1. 朗被吸入了无底的深渊4.9.3. 计算机的预测仅仅基于票价等级、年龄和性别，但实际的关键因素是他们最后那一跳的差异4.10. 朗遇难的随机性，正是造成我们对“泰坦尼克号”乘客幸存情况的统计预测不可能达到100%准确的原因4.10.1. 因为人类不是统计数据，也永远不会是统计数据4.11. 不是所有重要的东西都能被计算在内4.11.1. 计算机无法从数据集中跳脱出来，并且找到可能重要的额外因素，但是人类可以5. 数据的不合理有效性原则5.1. 除非你处处留心可能出现的偏差和无序，否则人工智能就只是表面看起来那样利落5.2. 尤金·维格纳在文章《数学在自然科学中不合理的有效性》中探讨了为什么那么多物理学规律可以使用如此简单的数学公式（如f=ma或e=mc2）来巧妙地表达5.3. 涉及人类的科学被证实，比起涉及基本粒子的科学，它们对精简优雅的数学更具抵抗力5.4. 这种数据驱动的方法会让机器忽略许多人类认为非常重要的因素5.4.1. 以数据为驱动所做的决策，很少有完全符合复杂规则的5.5. 计算机能在足够的时间内正确处理足够多的事情，以至于我们可能会倾向于认为它基本上是正确的5.5.1. 但它也有可能因错误的原因而得到正确的结果5.6. 社会问题的决策不仅仅是计算，因此如果我们仅使用数据来做涉及社会和价值判断的决策，社会问题就会随之而来5.7. 有些事情是机器永远也学不会的，而人类的判断、强化和解释永远都是有必要的5.8. 我们的大脑总会把真实的事件和虚构的写实小说混淆在一起5.8.1. 这种混淆使得我们对风险的理解更加复杂5.9. 大数据世界里有一个公开的秘密：所有的数据都是脏数据，无一例外5.9.1. 数据是由人们四处走动和计算，或是人类制造的传感器收集来的东西5.9.2. 在所有看似有序的数字序列中，都有噪声数据的存在

玩酷网

读人工不智能：计算机如何误解世界笔记06_机器学习

躺柒