人工智能:数据的挑战

2018-01-13   来源:未知   点击:
在过去的几年里,人工智能在机器学习方面取得了惊人的进步,如深度学习。深度学习是机器学习的一个更广泛的领域,它关注计算机的学
在过去的几年里,人工智能在机器学习方面取得了惊人的进步,如深度学习。深度学习是机器学习的一个更广泛的领域,它关注计算机的学习能力而不需要编程。深刻的学习已经取得了一些难以置信的成功。
 
可以说,现代深度学习的时代可以追溯到2012年的ImageNet挑战。ImageNet是一个数百万的图像数据库,使用名词,例如“草莓”,“柠檬”和“狗”等进行分类。在这个挑战期间,卷积神经网络(CNN)可以达到16%的错误率(在此之前,最好的算法只能达到25%的错误率)。
机器学习,人工智能
深度学习最大的挑战之一是需要训练数据。需要大量的数据来训练网络来做最基本的事情。这些数据也必须相对干净,才能创建具有任何有意义的预测价值的网络。对于许多组织来说,这使机器学习变得不切实际。创建神经网络的机制不仅仅是具有挑战性的(尽管这本身就是一个艰巨的任务),而且也是组织和构造足够的数据来做一些有用的事情的方法。
 
世界上有大量的数据,根据调查研究,预计2025年全球数据量将超过180泽字节(1泽字节等于10的20次方)。全球有99%的数据尚未分析,超过80%的数据是非结构化的这意味着人们正在收集的数据中有很多机会和隐藏的宝藏。然而令人遗憾的是,这些数据中的很大一部分都没有进行分析。
 
那么,企业可以做些什么呢?
 
企业需要考虑与今天的做法不同的数据。数据必须被认为是信息和分析的基石。必须收集回答一个问题或一组问题。这意味着它必须具有以下特征:
 
·准确性:虽然显而易见,但数据必须准确。
 
·完整性:数据必须是相关的,并且必须提供回答问题所需的数据。数据不完整的一个明显的例子是一个教室里有30个学生,但是老师计算的平均数只有15个。
 
·一致性:如果有一个数据库表示一个班有30名学生,而另一个数据库表明同班有31名学生,那么这是一个问题。
 
·唯一性:如果学生在两个不同的数据库中有不同的标识符,这是一个问题,因为这会带来信息不完整或不一致的风险。
 
·及时性:数据可能会改变,人工智能模型可能需要更新。
 
除了数据本身之外,还有严重的制约因素,可能会阻碍分析和深入学习,其中包括安全性和访问、隐私、合规性、知识产权保护,以及物理和虚拟障碍。这些限制需要考虑。如果它拥有所有的数据,但由于各种原因无法访问数据,它并不能帮助企业。通常,需要采取诸如清理数据的步骤,以便不会有私人内容。有时需要在共享数据的各方之间达成协议,有时需要进行技术性的工作,才能将数据转移到可以分析的地方。最后,需要考虑数据的格式和结构。例如,行业专家在研究美联储的个人项目的汇率从40年前回落的问题,然后发现其中有一个令人头痛的时刻,那就是从1999年起有一个不连续点:欧元已经取代了大多数欧洲货币。有一种方法可以缓解这个问题,但是令人深感不满。因为遗留数据可能很丰富,但可能与当前的问题不兼容。
 
这个故事的寓意是人们被大量数据所困扰,但是这些条件通常不允许数据被使用。有时候,企业是幸运的,只要努力一点,就可以把数据塑造得很好。企业经常需要重新思考如何将数据收集或转换成可消费的表格。可以达成协议来共享数据或合并数据集,但完整性问题往往依然存在。
 
如前所述,成功的关键是从一个问题开始,然后构建培训数据或收集正确的数据来回答问题。尽管收集培训数据存在巨大障碍,但企业对数据科学家日益增长的影响力所显示的更高质量的数据显然是一种推动。专家非常乐观地认为,高质量的培训数据将会得到改善,从而使各种规模的企业更广泛地采用人工智能。
推荐阅读