越来越强大的硬件功能和大量的数据使得现有的机器学习方法(如模式识别、自然语言处理和强化学习)成为可能。人工智能正在影响发展进程;它增加了版本控制、CI/CD和测试的复杂性。
ThoughtWorks人工智能全球负责人Christoph Windheuser在Goto Berlin 2018上谈到了这个行业的AI应用。InfoQ将通过问答、摘要和文章来报道这次会议。
Windheuser认为,机器学习方法最大的优点是可以通过从数据中学习而不是编程来优化算法行为。这意味着该算法可以实现非编程行为,如光学和声学模式识别或自然语言处理。因此,新的应用是可能的,而且可能性是无限的,他说。
Windheuser说,在数据科学和机器学习项目中,开发人员不仅要照顾自己的编程代码,还要照顾大量的数据,比如训练模式、从这些模式中提取的函数、参数和超参数。学习算法。他认为这给开发过程带来了新的复杂性。
随着硬件功能的不断增强和可用数据的大量增加,古老而著名的机器学习方法可以突然以可扩展和可操作的方式得到应用。各种模式识别,如语音识别和图像识别。在自然语言处理领域,如语言翻译、情感分析、意图识别、文本到语音转换和聊天机器人都是众所周知的。通过强化学习,你甚至可以学会玩电子游戏、下棋或围棋或平稳安全地驾驶汽车的策略。没有机器学习方法,所有这些都是不可能的。
数据是任何机器学习算法的基础。对于像反向传播这样的监督学习,您需要的训练模式数量远远超过要优化的参数(权重),以实现网络的良好泛化。对于深度学习模型来说,层数很高,每层的单元数很大,参数数很容易变成几百万,这就需要更大数量的训练模式才能成功训练。
对于监督学习,训练模式需要一个标签(例如模式的正确分类),通常需要手动规划。此外,数据模式必须转换成正确的格式才能被学习算法消化。这意味着必须从训练数据中提取正确的特征。这对于获得一个好的训练算法非常重要。
例如,如果你想知道顾客对杂货店商品的未来需求,你可以使用历史销售数据来预测未来的销售。您可以直接使用POS(销售点)数据来训练您的网络。但是,例如,从POS数据中的时间戳中提取工作日并将其作为附加功能输入网络是非常有帮助的。由于客户需求高度依赖工作日,这将有助于网络更轻松、更快速地学习和整合。