本月累计签到次数:

今天获取 积分

大数据

大数据

901 浏览

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

智能科技类 Luck冬冬 2018-01-05 11:09 发表了文章 来自相关话题

首先,什么是 马尔可夫链蒙特卡洛(MCMC) 方法呢?
最简短的回答就
“MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法”
在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。
贝叶斯理论体系基本术语
首先是一些术语。
感兴趣的参数 只是用来抽象我们感兴趣的现象的一些数字。通常我们 查看全部
首先,什么是 马尔可夫链蒙特卡洛(MCMC) 方法呢?
最简短的回答就
“MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法”
在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。
贝叶斯理论体系基本术语
首先是一些术语。
感兴趣的参数 只是用来抽象我们感兴趣的现象的一些数字。通常我们
645 浏览

关于机器学习,你应该至少学习这8个落地案例

工业大数据 你好明天 2017-12-06 11:52 发表了文章 来自相关话题

个可供学习的机器学习落地案例 

1、机器学习在工程项目中的应用实践经验谈
目前,人工智能、机器学习在很多人眼中是数据科学家们的专属武器,能够应用和掌握他们的数据科学家们都有着极其深厚的数学理论功底。那些想要学习和实践人工智能的工程师们,往往要么是在打开相关书籍的时被映入眼帘的数学公式吓倒,要么就是学习了很多机器学习 查看全部
个可供学习的机器学习落地案例 

1、机器学习在工程项目中的应用实践经验谈
目前,人工智能、机器学习在很多人眼中是数据科学家们的专属武器,能够应用和掌握他们的数据科学家们都有着极其深厚的数学理论功底。那些想要学习和实践人工智能的工程师们,往往要么是在打开相关书籍的时被映入眼帘的数学公式吓倒,要么就是学习了很多机器学习
681 浏览

人工智能系统研究的9大挑战和4大趋势

智能科技类 宁王爷 2017-12-05 10:35 发表了文章 来自相关话题

下一代人工智能系统将更广泛地影响我们的生活,人工智能将会通过与环境交互替人类进行更关键的和更加个性化的决策。若想要人工智能发挥更大的作用,我们将面临诸多极具挑战性的问题:我们需要人工智能系统可以在各种极端情况下及时做出安全的决策,比如在各种恶意攻击情况下具备鲁棒性,在保证隐私的情况下具备处理跨多组织多个人的共享数据的 查看全部
下一代人工智能系统将更广泛地影响我们的生活,人工智能将会通过与环境交互替人类进行更关键的和更加个性化的决策。若想要人工智能发挥更大的作用,我们将面临诸多极具挑战性的问题:我们需要人工智能系统可以在各种极端情况下及时做出安全的决策,比如在各种恶意攻击情况下具备鲁棒性,在保证隐私的情况下具备处理跨多组织多个人的共享数据的
606 浏览

如何从数据小白成为数据科学家

工业大数据 志在路上 2017-11-13 10:41 发表了文章 来自相关话题

数据小白有救么?
笔者写到数据小白时候,一直怀疑这个身份,因为笔者觉得真正能做到数据小白是指一些小学数学没及格的人,当然他们也不会想去做数据分析师。从笔者的从业经历看,只要高中数学及格,那么小白进入数据分析行业会很顺利。写到这里想必很多人都很怀疑笔者这一个“武断”的结论,那是因为很多人对基础数据分析有一定误解
误解1 查看全部
数据小白有救么?
笔者写到数据小白时候,一直怀疑这个身份,因为笔者觉得真正能做到数据小白是指一些小学数学没及格的人,当然他们也不会想去做数据分析师。从笔者的从业经历看,只要高中数学及格,那么小白进入数据分析行业会很顺利。写到这里想必很多人都很怀疑笔者这一个“武断”的结论,那是因为很多人对基础数据分析有一定误解
误解1
984 浏览

虚拟kitti数据集

工业大数据 浪迹天涯 2017-11-01 10:19 发表了文章 来自相关话题

虚拟KITTI是一个照片逼真的合成视频数据集,旨在学习和评估几个视频理解任务的计算机视觉模型:对象检测和多对象跟踪,场景级和实例级语义分割,光流和深度估计。

       虚拟KITTI在不同的成像和天气条件下,包含50个城市环境中的五个不同虚拟世界产生的50个高分辨率单目视频(21,260帧)。这些世界是使用Un 查看全部
虚拟KITTI是一个照片逼真的合成视频数据集,旨在学习和评估几个视频理解任务的计算机视觉模型:对象检测和多对象跟踪,场景级和实例级语义分割,光流和深度估计。

       虚拟KITTI在不同的成像和天气条件下,包含50个城市环境中的五个不同虚拟世界产生的50个高分辨率单目视频(21,260帧)。这些世界是使用Un
816 浏览

清华马少平教授详解:人工智能能做什么?

IT软件类 小丑么么达 2017-09-25 11:09 发表了文章 来自相关话题

人工智能第一阶段—前期阶段

关键词:通用问题求解 定理证明 游戏 机器翻译等

1956年在达特矛斯会议上,人工智能的概念被首次提出来。到去年已经是整整60年了。当时的概念已经不是凭空提出的了,在1950年,图灵就已经阐述过图灵测试了。那个时候第一台电子计算机已经问世十年了,所有人都期望用计算机为工具去实现很多人工 查看全部
人工智能第一阶段—前期阶段

关键词:通用问题求解 定理证明 游戏 机器翻译等

1956年在达特矛斯会议上,人工智能的概念被首次提出来。到去年已经是整整60年了。当时的概念已经不是凭空提出的了,在1950年,图灵就已经阐述过图灵测试了。那个时候第一台电子计算机已经问世十年了,所有人都期望用计算机为工具去实现很多人工
752 浏览

618黑马的背后,锤子科技也用ERP?还是SAP的?

工业大数据 晴空万里 2017-09-20 10:42 发表了文章 来自相关话题

2017年8月,罗永浩宣布锤子科技获得约10亿人民币融资,接下来的未来3年要让锤子手机进入到国内市场三强,未来5年成为全球三强。

在2017年京东618手机销售排行榜, 6月1日至18日的手机累计销量排名中,锤子科技位列第七、手机销售额排名第八,与苹果、华为、小米等大牌厂商共列TOP10,成为最强黑马。就在去年 6 查看全部
2017年8月,罗永浩宣布锤子科技获得约10亿人民币融资,接下来的未来3年要让锤子手机进入到国内市场三强,未来5年成为全球三强。

在2017年京东618手机销售排行榜, 6月1日至18日的手机累计销量排名中,锤子科技位列第七、手机销售额排名第八,与苹果、华为、小米等大牌厂商共列TOP10,成为最强黑马。就在去年 6
933 浏览

工业数据白皮书

工业大数据 其中之一 2017-07-06 15:56 发表了文章 来自相关话题

18个行业的产业链全景图
2017年日本工业现状与中国冲击的对照
(传奇人物)任正非创业史
 
 
18个行业的产业链全景图
2017年日本工业现状与中国冲击的对照
(传奇人物)任正非创业史
 
 
浏览

其中之一 发表了文章 来自相关话题

936 浏览

华为网络放出大招,全面云化是什么概念?

电气控制类 幸福的小宝 2017-04-06 10:45 发表了文章 来自相关话题

   每年新春是厂商发布新品的好时节,今年也不例外。在刚刚过去的CeBIT展中,华为集中发布了一系列产品和技术、解决方案。其中,最显著的是“全面云化的网络”。
   在3000平米的展区,能看到单独的网络展区,分别是是CloudFabric、CloudCampus、CloudEPN、EC-IoT、CloudDCI和S 查看全部
   每年新春是厂商发布新品的好时节,今年也不例外。在刚刚过去的CeBIT展中,华为集中发布了一系列产品和技术、解决方案。其中,最显著的是“全面云化的网络”。
   在3000平米的展区,能看到单独的网络展区,分别是是CloudFabric、CloudCampus、CloudEPN、EC-IoT、CloudDCI和S
条新动态, 点击查看
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
从技术上看,大数据与云计算的关系就像一枚硬币... 显示全部 »
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
 

事实上,“公有云、私有云和混合云”不同形态的云计算在不断地发展和成熟,越来越多企业级的云计算服务被推出市场。尽管这样,大部分的声音认为这只是云计算提供商和企业的初期。“就目前来看,云计算还只是处在青春期,要想成熟进入成年期至少还需要五年的时间以上。” 我们还将会看到云计算生态系统的崛起,公有云不仅可以作为技术交互的平台,还是云服务提供商和消费者之间的生态纽扣将二者很好的连接在一起。在瞬息万变的社交网络和移动互联网的时代,云计算为整个互联网生态系统的发展提供了新加速途径。很多行业受益于“数据中心作为一个枢纽”,越来越多的以云计算为中心的生态系统合作伙伴集中在一个关键的数据中心,如金融交易、网页和在线服务或是媒体内容的企业。众所周知,这些企业有大量的数据需要进行处理和管理。随着移动智能设备的普及,云计算服务和云应用在云平台的支撑下,让这庞大的数据得以保存和处理,数据的价值不在于多,而是如何挖掘到有价值的数据,这需要借助云服务和云应用的能力了。这也是业界将云计算和大数据相提并论的原因所在,到底云计算与大数据是怎么样的关系?云计算已然走下神坛开始步入应用阶段,而大数据的催生反过来了体现了云计算的价值所在。关注IT的朋友想必已经注意到业界对于新趋势的关注已由原来的云计算转移到大数据上,越来越多的企业开始推广大数据相关的服务和产品,越来越多的企业将企业数据作为企业资产进行管理和变现,已经开始从数据抽象、数据共享和数据估值开始启动大数据战略。对于大数据趋势并不像云计算那样主要集中在概念层面的讨论,主要是在技术层面的研究。企业视大数据为企业的生命、企业的新竞争力,要想在同类行业中脱颖而出赢得市场,大数据的支持是必不可少的,所以企业纷纷制定大数据战略,无论是互联网企业还是传统企业,都在大数据时代不甘示弱,而大数据时代的特性注定了它与云计算的不解之缘。大数据推动云计算的落地,云计算促进大数据的应用。云计算大数据
 
EPCglobal在去年开始制定第二代RFID标准时,针对供应链应用,最终用户提出了一系列需求,这些成为制定第二代RFID标准的重要基础。
EPC第二代RFID标准开发中最主要的部分是设计了第二代的UHF(超高频率)空中接口协议,该协议用于管理从标签到读卡器的... 显示全部 »
EPCglobal在去年开始制定第二代RFID标准时,针对供应链应用,最终用户提出了一系列需求,这些成为制定第二代RFID标准的重要基础。
EPC第二代RFID标准开发中最主要的部分是设计了第二代的UHF(超高频率)空中接口协议,该协议用于管理从标签到读卡器的数据的移动,为芯片中存储的数据提供了一些保护措施。新标准采用"一个安全的链路",保护被动标签免于受诸如RFDump和其他一些在供应链应用中被发现的大多数攻击行为。
       根据第二代RFID标准规范,当数据被写入标签时,数据在经过空中接口时被伪装。从标签到读卡器的所有数据都被伪装,所以当读卡器在从标签读或者写数据时数据不会被截取。一旦数据被写入标签,数据就会被锁定,这样只可以读取数据,而不能被改写,就是具有我们常说的只读功能。
        EPC被动标签一般只包括产品的识别信息,比如产品代码、产品部件数,或者SKU数目,也就是仅仅包括物品本身的信息。另外EPC被动标签不包括依据秘密保护规则涉及的物品个性化的识别信息。
       产品的识别信息通常是指相对于个性化识别信息而言不太敏感的内容,通常伪装也只针对其中涉及的数据。数据并不被加密,但是读卡器需要一个破解伪装的"密钥"。
       根据美国国防部副部长助理、负责供应链整合的Alan Estevez先生透露,美国国防部在今年8月公布了其最终的针对供应链应用的RFID规范,其中并没有包括数据加密要求。Estevez先生列举了两条理由,说明DOD规范的合理性:第一,产品信息比如序列号等在它没有被整合到带有附加信息的数据库之前,并没有太多值得利用的信息;第二,潜在的"敌人"不可能非常近距离地接近它,比如在10英尺之内,以读取标签上的信息。
大皇帝

大皇帝 回答了问题 • 2016-09-13 15:47 • 5 个回复 不感兴趣

云计算与大数据是什么关系?

赞同来自:

  云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
  云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
大漠豪情

大漠豪情 回答了问题 • 2016-10-24 13:28 • 9 个回复 不感兴趣

听说,美国断网了?怎么会事?谁干的?

赞同来自:

本次攻击的目标是美国DNS域名解析服务商。DNS 域名解析服务商所做的事情很简单,每一个网站地址都是以 IP 的形式存在的,例如当你输入 www.baidu.com 的时候,你的请求实际上到了域名解析服务商手里,他们把这一串人类可以理解的网址转化成网站的真实 ... 显示全部 »
本次攻击的目标是美国DNS域名解析服务商。DNS 域名解析服务商所做的事情很简单,每一个网站地址都是以 IP 的形式存在的,例如当你输入 www.baidu.com 的时候,你的请求实际上到了域名解析服务商手里,他们把这一串人类可以理解的网址转化成网站的真实 IP,进而返回你要的网页。
然而,DNS 服务商遭到了大量垃圾请求,不断有“人”来找 DNS 服务商“搭话”,请求访问一些网址,甚至访问并不存在的域名,甚至可能仅仅是无意义的闲聊:“你妈是谁?你家里人都好吗?”
这让“接客”的 DNS 解析商应接不暇,完全无法应对,处于“懵逼”状态,无法接“正经的客人”(正常用户发起的域名解析请求),这就是著名的 DoS 攻击,学名“拒绝服务攻击”。
用脚趾头都可以想明白,美国的域名解析服务商可不是吃素的,正常情况下他们有充足的带宽和算力来应对来自世界各地的请求,不会轻易被打摊。
那么,究竟是谁能够有这么大的力量,同时发起天文数字般的请求呢?
答案是:分布在各家各户的摄像头、智能传感器、智能门磁、智能冰箱洗衣机们。
简单来说,全美国(甚至可能是全球)的智能硬件要“造反”。
烘焙人

烘焙人 回答了问题 • 2016-11-09 14:54 • 10 个回复 不感兴趣

大数据和数据科学有哪些算法?

赞同来自:

Crunchers

这些算法使用比较少的重复步骤和较为简单的规则处理(crunch)复杂问题。我们给这些算法提供数据,它们就能得出一个答案。如果我们不喜欢这个答案,可以给算法提供更多的数据,让算法调整答案。Cruncher类算法擅长客户分类、预估项目持续时间... 显示全部 »
Crunchers

这些算法使用比较少的重复步骤和较为简单的规则处理(crunch)复杂问题。我们给这些算法提供数据,它们就能得出一个答案。如果我们不喜欢这个答案,可以给算法提供更多的数据,让算法调整答案。Cruncher类算法擅长客户分类、预估项目持续时间、分析调查数据等任务。
小黄鸭

小黄鸭 回答了问题 • 2016-11-14 09:16 • 5 个回复 不感兴趣

“Alice Who”的APP,是什么原理?

赞同来自:

这个APP是好用,你只要把手机摄像头对准一栋建筑,或一家餐厅,“Alice Who”就会告诉你,这是什么地方,这家餐厅叫什么名字;“Alice Who”还能够帮你链接去美国版的大众点评网Yelp,FourSquare等,让你能够了解这家餐厅的详细信息和评价。
... 显示全部 »
这个APP是好用,你只要把手机摄像头对准一栋建筑,或一家餐厅,“Alice Who”就会告诉你,这是什么地方,这家餐厅叫什么名字;“Alice Who”还能够帮你链接去美国版的大众点评网Yelp,FourSquare等,让你能够了解这家餐厅的详细信息和评价。
看似简单的应用,背后包含了复杂的技术。对于户外环境中建筑、店面的识别,一直是计算机视觉的难点。如何让计算机看清楚,看得准?即使户外的光线千变万化,即使环境中存在众多干扰因素?
 
秋时柿子

秋时柿子 回答了问题 • 2016-11-24 15:00 • 8 个回复 不感兴趣

"一带一路"影响大数据吗?

赞同来自:

近年来,对大数据的定义较为多样。第462次香山会议 (2013年5月29日—31日)提出了大数据通俗的定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据是来源众多、类型多样、大而复杂、具有潜在价值,但难以在期... 显示全部 »
近年来,对大数据的定义较为多样。第462次香山会议 (2013年5月29日—31日)提出了大数据通俗的定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据是来源众多、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集。


我国的“十三五”规划纲要提出实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。

大数据的高效采集、有效整合、融合利用可以提高国家宏观调控、市场监管、社会治理和公共服务的精准性和有效性;依托政府数据建立统一的大数据共享交换平台,对加快推进跨部门数据资源共享共用具有较强的实践意义。因此,急需加快深化政府数据和社会数据关联分析,建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享;研究制定数据开放、保护等法律法规,制定政府信息资源管理办法;深化大数据在各行业的创新应用,探索与传统产业协同发展新业态新模式,加快完善大数据产业链;加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私保护等领域关键技术攻关;促进大数据软硬件产品发展。完善大数据产业公共服务支撑体系和生态体系,加强标准体系和质量技术基础建设。

在当前的国内经济、政策背景下,中国科学院大数据挖掘与知识管理重点实验室采用先进的数据挖掘技术解决当前社会众多现实问题,使其真正做到普惠民众。目前,在大数据支持下,我国已经成功建立全国个人信用评分系统,正在建设新一代居民身份证等一系列重要的个人信息、信用系统。未来的大数据还将继续深入涉足医疗、生物、航天、金融等社会的各行各业。
寒风刺骨

寒风刺骨 回答了问题 • 2016-12-06 09:33 • 8 个回复 不感兴趣

大数据为什么可以为运营服务?

赞同来自:

让我们看个关于精细化运营的例子,北京朝阳大悦城为了更好的提升运营效率,合理运用大数据帮助其改善运营情况。首先大悦城先根据客户属性进行分析用户属性,有效的进行消费者洞察,方便企业做出精准用户画像;然后根据分析出来的用户属性进行客群的划分,找到用户的价值和偏好等属... 显示全部 »
让我们看个关于精细化运营的例子,北京朝阳大悦城为了更好的提升运营效率,合理运用大数据帮助其改善运营情况。首先大悦城先根据客户属性进行分析用户属性,有效的进行消费者洞察,方便企业做出精准用户画像;然后根据分析出来的用户属性进行客群的划分,找到用户的价值和偏好等属性,把用户和不同品牌、不同品类的产品进行差异化拼配,找到相关性;最后根据这些做客流的引导,其实这就是一种运营的手段的拉新手段。




 
杀猪刀

杀猪刀 回答了问题 • 2016-12-26 19:42 • 6 个回复 不感兴趣

大数据产业发展态势如何?

赞同来自:

?做哪个行业?隔行如隔山?
?做哪个行业?隔行如隔山?
1 回答
6 回答

大数据产业发展态势如何?

机械自动化类 朝中有人 2016-12-26 19:47 回复了问题 • 7 人关注 来自相关话题

2 回答

数据潮未来的发展如何,有什么特点?

机械自动化类 jingjing 2016-12-13 15:03 回复了问题 • 3 人关注 来自相关话题

1 回答

大数据技术工厂中起什么作用?

机械自动化类 jingjing 2016-12-13 14:40 回复了问题 • 2 人关注 来自相关话题

8 回答

大数据为什么可以为运营服务?

机械自动化类 鸟是真实的写照 2016-12-06 10:00 回复了问题 • 9 人关注 来自相关话题

3 回答

都在讨论大数据,但是大数据是万能的吗?

机械自动化类 带裙摆的彗星 2016-11-29 15:24 回复了问题 • 4 人关注 来自相关话题

8 回答

"一带一路"影响大数据吗?

机械自动化类 图像语言 2016-11-24 15:05 回复了问题 • 9 人关注 来自相关话题

3 回答
5 回答

“Alice Who”的APP,是什么原理?

机械自动化类 图像语言 2016-11-14 11:17 回复了问题 • 6 人关注 来自相关话题 产生赞赏:¥1.00

10 回答

大数据和数据科学有哪些算法?

机械自动化类 对不起gung 2016-11-09 15:07 回复了问题 • 11 人关注 来自相关话题 产生赞赏:¥1.00

901 浏览

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

智能科技类 Luck冬冬 2018-01-05 11:09 发表了文章 来自相关话题

首先,什么是 马尔可夫链蒙特卡洛(MCMC) 方法呢?
最简短的回答就
“MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法”
在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。
贝叶斯理论体系基本术语
首先是一些术语。
感兴趣的参数 只是用来抽象我们感兴趣的现象的一些数字。通常我们会使用统计的方法来估计这些参数。例如,如果我们想了解成年人的身高,那么我们需要的参数可能就是以英寸为单位的平均身高。
分布 就是参数的各个可能值和我们能观察到每个参数的可能性的数学表示。
最好的例子就是钟形曲线:




在贝叶斯统计方式中,分布还有另一个解释。贝叶斯不仅仅代表参数的值和每个参数的真实值有多大,而是认为分布描述了我们对参数的确信度。因此,上面的钟形曲线可以表明我们非常确定参数的值接近于零,同时我们认为真实值高于或低于该值的可能性是相等的。

事实上,人的身高是遵循一个正态分布的,所以我们假设平均人体高度的真实值遵循如下的钟形曲线:




显然,这个图表显示这个人群以巨人的身高生活了很多年,因为据调查所知,最有可能的平均成年身高是6'2''英寸。

让我们想象某人去收集了一些数据,然后他们观察到了一批5英寸和6英寸之间的人。 我们可以用另一个正态分布曲线来表示这些数据,这个曲线显示了哪个人体平均身高值最能解释数据:
 




在贝叶斯统计中,表示我们对参数确信度的分布被称为 先验分布 ,因为它在看到任何数据之前捕捉到了我们的知识。

似然分布 以参数值范围的形式总结了数据可以告诉我们什么,而参数值中的每个参数解释了我们正在观察的数据的可能性。估计最大似然分布的参数值就是回答了这个问题:什么样的参数值能使分布最有可能观察到我们观察到的数据?在没有先验信息的情况下,我们可能会就此打住了。

然而,贝叶斯分析的关键是将先验信息和似然分布结合起来去确定 后验分布 。这告诉我们,在有先验数据的情况下,哪些参数值能够最大化观察到我们指定数据的概率。在上面的例子中,后验分布应该是这样的:




在上面的图中,红线表示后验分布。你可以把它看作一种先验和可能性分布的平均值。由于先验分布较短且较为分散,所以它代表了一组关于平均人体身高真实值“不太确定”的概率。 同时,可能性分布在相对较窄的范围内就可以总结数据,因此它代表了对真实参数值“更确定”的概率。
当先验和可能性结合在一起时,数据(可能性分布表示)弱化了个体在巨人中长大的可能性。 尽管那个人仍然认为人的平均身高比数据告诉他的稍高一些,但是他最相信的还是数据。
在两条钟形曲线的情况下,求解后验分布是非常容易的。 有一个简单的方程来结合这两者。 但是如果我们的先验分布和可能性分布不那么好呢?如之前所讲,有一些后验分布可以给出每个参数值的可能性。但是很难确定分布曲线的具体样子,而且通过分析也无法解决。
因此进入 MCMC方法 。
MCMC方法
MCMC方法允许我们估计后验分布的形状,以防我们无法直接计算。事实上, MCMC就是马尔可夫链蒙特卡洛方法 。为了理解它们是如何工作的,我将首先介绍蒙特卡洛估计,然后是讨论马尔可夫链。
蒙特卡洛估计

蒙特卡洛估计 是一种通过重复生成随机数来估计固定参数的方法。在通过生成随机数并对其进行一些计算时,有时直接计算这个参数不现实时,蒙特卡洛估计可以提供一个参数的近似值。
马尔可夫链

理解MCMC方法的第二个要素就是 马尔可夫链 。 这个就是 事件相互关联概率的序列 。每个事件来自一组结果,而其中的每个事件的结果根据一组固定的概率来确定下一个事件的结果。
  查看全部
首先,什么是 马尔可夫链蒙特卡洛(MCMC) 方法呢?
最简短的回答就
“MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法”
在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。
贝叶斯理论体系基本术语
首先是一些术语。
感兴趣的参数 只是用来抽象我们感兴趣的现象的一些数字。通常我们会使用统计的方法来估计这些参数。例如,如果我们想了解成年人的身高,那么我们需要的参数可能就是以英寸为单位的平均身高。
分布 就是参数的各个可能值和我们能观察到每个参数的可能性的数学表示。
最好的例子就是钟形曲线:
QQ图片20180105110445.jpg

在贝叶斯统计方式中,分布还有另一个解释。贝叶斯不仅仅代表参数的值和每个参数的真实值有多大,而是认为分布描述了我们对参数的确信度。因此,上面的钟形曲线可以表明我们非常确定参数的值接近于零,同时我们认为真实值高于或低于该值的可能性是相等的。

事实上,人的身高是遵循一个正态分布的,所以我们假设平均人体高度的真实值遵循如下的钟形曲线:
QQ图片20180105110542.jpg

显然,这个图表显示这个人群以巨人的身高生活了很多年,因为据调查所知,最有可能的平均成年身高是6'2''英寸。

让我们想象某人去收集了一些数据,然后他们观察到了一批5英寸和6英寸之间的人。 我们可以用另一个正态分布曲线来表示这些数据,这个曲线显示了哪个人体平均身高值最能解释数据:
 
QQ图片20180105110633.jpg

在贝叶斯统计中,表示我们对参数确信度的分布被称为 先验分布 ,因为它在看到任何数据之前捕捉到了我们的知识。

似然分布 以参数值范围的形式总结了数据可以告诉我们什么,而参数值中的每个参数解释了我们正在观察的数据的可能性。估计最大似然分布的参数值就是回答了这个问题:什么样的参数值能使分布最有可能观察到我们观察到的数据?在没有先验信息的情况下,我们可能会就此打住了。

然而,贝叶斯分析的关键是将先验信息和似然分布结合起来去确定 后验分布 。这告诉我们,在有先验数据的情况下,哪些参数值能够最大化观察到我们指定数据的概率。在上面的例子中,后验分布应该是这样的:
QQ图片20180105110743.jpg

在上面的图中,红线表示后验分布。你可以把它看作一种先验和可能性分布的平均值。由于先验分布较短且较为分散,所以它代表了一组关于平均人体身高真实值“不太确定”的概率。 同时,可能性分布在相对较窄的范围内就可以总结数据,因此它代表了对真实参数值“更确定”的概率。
当先验和可能性结合在一起时,数据(可能性分布表示)弱化了个体在巨人中长大的可能性。 尽管那个人仍然认为人的平均身高比数据告诉他的稍高一些,但是他最相信的还是数据。
在两条钟形曲线的情况下,求解后验分布是非常容易的。 有一个简单的方程来结合这两者。 但是如果我们的先验分布和可能性分布不那么好呢?如之前所讲,有一些后验分布可以给出每个参数值的可能性。但是很难确定分布曲线的具体样子,而且通过分析也无法解决。
因此进入 MCMC方法 。
MCMC方法
MCMC方法允许我们估计后验分布的形状,以防我们无法直接计算。事实上, MCMC就是马尔可夫链蒙特卡洛方法 。为了理解它们是如何工作的,我将首先介绍蒙特卡洛估计,然后是讨论马尔可夫链。
蒙特卡洛估计

蒙特卡洛估计 是一种通过重复生成随机数来估计固定参数的方法。在通过生成随机数并对其进行一些计算时,有时直接计算这个参数不现实时,蒙特卡洛估计可以提供一个参数的近似值。
马尔可夫链

理解MCMC方法的第二个要素就是 马尔可夫链 。 这个就是 事件相互关联概率的序列 。每个事件来自一组结果,而其中的每个事件的结果根据一组固定的概率来确定下一个事件的结果。
 
645 浏览

关于机器学习,你应该至少学习这8个落地案例

工业大数据 你好明天 2017-12-06 11:52 发表了文章 来自相关话题

个可供学习的机器学习落地案例 

1、机器学习在工程项目中的应用实践经验谈
目前,人工智能、机器学习在很多人眼中是数据科学家们的专属武器,能够应用和掌握他们的数据科学家们都有着极其深厚的数学理论功底。那些想要学习和实践人工智能的工程师们,往往要么是在打开相关书籍的时被映入眼帘的数学公式吓倒,要么就是学习了很多机器学习的理论及算法但面对实际项目却手足无措。

近年来蔡超带领亚马逊工程团队应用机器学习、深度学习技术在全球客服系统智能化,推荐系统本地化及合规性检测自动化等多个方面实现了大量的成功创新。本案例是亚马逊工程师的学习和实践经验分享,告诉广大工程师如何成长为一个人工智能的实践者。

2、打造人工智能时代的最强计算引擎——深度学习框架演进漫谈
随着深度学习技术在图像、语言、语音等应用场景都达到了state of the art效果,深度学习框架也呈现群雄逐鹿的态势,谷歌、脸书、微软、亚马逊、百度等大企业及少数几家创业公司都推出了自己的产品。本案例将对现有主流深度学习框架做一梳理,和业界同行探讨这个领域的技术是否已收敛。

首先,从用户体验角度讨论,一个好的深度学习框架应该有什么样的特点;
其次,从技术角度讨论,什么样的设计和实现才能打造人工智能时代的最强计算引擎。

3、机器学习和运筹优化在外卖行业的应用实践
外卖行业继电商、出行之后成为第三个千万级别的互联网消费行业,每天有2500万人次足不出户地在外卖平台上找到自己喜欢的餐厅和食物,享受着30分钟送到手里的便利。如何精准地找到用户需求,提高转化率和增加用户粘度,最大化平台的物流效率和服务质量,都需要大数据和人工智能的帮助。

本案例将主要通过分享4个实例,介绍机器学习和运筹优化在外卖行业的应用实践,具体讲讲算法解决方案和迭代过程。

4、第四范式如何利用大规模机器学习技术解决问题并创造价值
目前深度学习在某些领域已经有了较成熟的解决方案,例如图像特征提取、语音识别、文本翻译等。但企业级应用涉及各个范围,以上只是企业经营过程中的一小部分。在其他领域如营销、反欺诈、广告等行业应用,就需要一些其他的算法和技术,比如说超高维的特征工程和算法。

本案例将从机器学习的概念开始,讲到怎样做数据清洗处理、机器学习的典型建模流程、机器学习常见的评估指标,以及第四范式在金融、互联网领域应用机器学习的成功案例。

5、如何使用机器学习实现 News Feed 正向交互率提升100%
从 2016 年年底开始,知乎使用机器学习技术对 News Feed 进行了改进,期间经历了 Edge Rank - Learning to Rank - DNN 模型推荐等阶段,并且取得了不错的成果:News Feed 的正向交互率提升了100%,用户在 Feed 页的停留时长上升了 40%。

本案例将会从产品和技术等方面向大家阐释知乎过去一年内所做的改进,包括他们在构建用户画像系统、首页的推荐和排序模块中遇到的一些技术问题和解决方法。

6、Tutorabc如何通过机器学习有效解决业务难题
本次分享将从大数据团队的构建、数据平台的架构和落地、数据仓库的建设、数据可视化、机器学习和人工智能如何结合大数据平台落地,讲叙Tutorabc大数据和AI的快速成长之路,以及在实践过程中,如何通过机器学习和人工智能有效帮助业务解决问题,提高业务服务效率,提升用户体验。

在介绍过程中,会穿插讲解如何用一个不足10人的团队,解决“缺少银弹”的问题,并在完成对公司业务帮助的同时,见缝插针的解决技术架构升级。

7、深度学习在直播推荐系统中的应用 
本案例将从推荐系统的两个关键技术点:召回和排序,来讲解深度学习模型的应用,包括推荐召回中的标签提取,结果排序中的CTR预估等方面,探讨深度神经网络在自然语言处理和CTR预估领域中的优势与挑战,以及深度推荐系统的前景与发展。

8、国美推荐引擎与算法持续部署实践
电商平台中,个性化推荐是提高用户购物体验的关键组件。作为国美在人工智能领域的重要试金石,“推荐系统如何做好算法的持续部署”是一个非常有挑战性的问题。

本案例以国美推荐引擎提升自身训练和决策能力的升级历程为主线,介绍了流式计算引擎、特征多级存储系统、机器学习算法的演进、A/B测试系统、算法和特征的双链路监控、深度学习模型的实践部署等内容。同时还探讨了国美在人工智能领域未来的发力点。

除了机器学习,还有哪些AI前沿?

1、从视觉计算近期进展“管窥”AI之ABCDE
本次分享将在回顾计算机视觉领域近期部分重要进展的基础上,对此次AI热潮背后的深度学习技术源起和基本原理做概括性的介绍,特别是将探寻深度学习与脑神经科学的关系。之后,将以一个具体的例子为切入点,介绍深度学习给AI研发带来的方法论上的变迁,继而分析深度学习对全面实现AI的不足之处以及未来需要努力的方向。

听众收益:
1.学到一个公式:AI=A+B+C+D+E,即AI背后需要的几大驱动力;
2.深度学习从生物神经系统那里得到了哪些启发;
3.现有深度学习为代表的AI方法论的优缺点是什么;
4.AI全面开花还需要哪些努力。

2、微信小程序商业智能技术应用实践
2017年初微信小程序正式上线,经过一年的发展,人们已经逐渐认识到小程序带来的便利,随着越来越多的人开始使用小程序,小程序已经成了微信生态系统中不可分割的一部分。本案例将和大家一起分享小程序在商业化方向的技术尝试和相关应用案例,包括商业智能、数据决策、用户分析、个性化推荐等,并与大家一起探讨小程序未来的发展方向。

3、苏宁智能机器人平台
随着苏宁云商、金融、体育、文创等线上、线下业务的不断拓展,积累了大量的用户行为以及客服会话数据,如何充分挖掘海量规模的数据,改进用户体验、提高客服效率,成为苏宁亟待解决的问题。苏宁技术研究院人工智能实验室研发了智能机器人平台,采用当前流行的会话即平台技术,集成闲聊陪伴和专业助理等不同技能,包括家电控制、智能办公、智能客服、智能导购等,为业务线提供良好支持。
来源网络 查看全部
个可供学习的机器学习落地案例 

1、机器学习在工程项目中的应用实践经验谈
目前,人工智能、机器学习在很多人眼中是数据科学家们的专属武器,能够应用和掌握他们的数据科学家们都有着极其深厚的数学理论功底。那些想要学习和实践人工智能的工程师们,往往要么是在打开相关书籍的时被映入眼帘的数学公式吓倒,要么就是学习了很多机器学习的理论及算法但面对实际项目却手足无措。

近年来蔡超带领亚马逊工程团队应用机器学习、深度学习技术在全球客服系统智能化,推荐系统本地化及合规性检测自动化等多个方面实现了大量的成功创新。本案例是亚马逊工程师的学习和实践经验分享,告诉广大工程师如何成长为一个人工智能的实践者。

2、打造人工智能时代的最强计算引擎——深度学习框架演进漫谈
随着深度学习技术在图像、语言、语音等应用场景都达到了state of the art效果,深度学习框架也呈现群雄逐鹿的态势,谷歌、脸书、微软、亚马逊、百度等大企业及少数几家创业公司都推出了自己的产品。本案例将对现有主流深度学习框架做一梳理,和业界同行探讨这个领域的技术是否已收敛。

首先,从用户体验角度讨论,一个好的深度学习框架应该有什么样的特点;
其次,从技术角度讨论,什么样的设计和实现才能打造人工智能时代的最强计算引擎。

3、机器学习和运筹优化在外卖行业的应用实践
外卖行业继电商、出行之后成为第三个千万级别的互联网消费行业,每天有2500万人次足不出户地在外卖平台上找到自己喜欢的餐厅和食物,享受着30分钟送到手里的便利。如何精准地找到用户需求,提高转化率和增加用户粘度,最大化平台的物流效率和服务质量,都需要大数据和人工智能的帮助。

本案例将主要通过分享4个实例,介绍机器学习和运筹优化在外卖行业的应用实践,具体讲讲算法解决方案和迭代过程。

4、第四范式如何利用大规模机器学习技术解决问题并创造价值
目前深度学习在某些领域已经有了较成熟的解决方案,例如图像特征提取、语音识别、文本翻译等。但企业级应用涉及各个范围,以上只是企业经营过程中的一小部分。在其他领域如营销、反欺诈、广告等行业应用,就需要一些其他的算法和技术,比如说超高维的特征工程和算法。

本案例将从机器学习的概念开始,讲到怎样做数据清洗处理、机器学习的典型建模流程、机器学习常见的评估指标,以及第四范式在金融、互联网领域应用机器学习的成功案例。

5、如何使用机器学习实现 News Feed 正向交互率提升100%
从 2016 年年底开始,知乎使用机器学习技术对 News Feed 进行了改进,期间经历了 Edge Rank - Learning to Rank - DNN 模型推荐等阶段,并且取得了不错的成果:News Feed 的正向交互率提升了100%,用户在 Feed 页的停留时长上升了 40%。

本案例将会从产品和技术等方面向大家阐释知乎过去一年内所做的改进,包括他们在构建用户画像系统、首页的推荐和排序模块中遇到的一些技术问题和解决方法。

6、Tutorabc如何通过机器学习有效解决业务难题
本次分享将从大数据团队的构建、数据平台的架构和落地、数据仓库的建设、数据可视化、机器学习和人工智能如何结合大数据平台落地,讲叙Tutorabc大数据和AI的快速成长之路,以及在实践过程中,如何通过机器学习和人工智能有效帮助业务解决问题,提高业务服务效率,提升用户体验。

在介绍过程中,会穿插讲解如何用一个不足10人的团队,解决“缺少银弹”的问题,并在完成对公司业务帮助的同时,见缝插针的解决技术架构升级。

7、深度学习在直播推荐系统中的应用 
本案例将从推荐系统的两个关键技术点:召回和排序,来讲解深度学习模型的应用,包括推荐召回中的标签提取,结果排序中的CTR预估等方面,探讨深度神经网络在自然语言处理和CTR预估领域中的优势与挑战,以及深度推荐系统的前景与发展。

8、国美推荐引擎与算法持续部署实践
电商平台中,个性化推荐是提高用户购物体验的关键组件。作为国美在人工智能领域的重要试金石,“推荐系统如何做好算法的持续部署”是一个非常有挑战性的问题。

本案例以国美推荐引擎提升自身训练和决策能力的升级历程为主线,介绍了流式计算引擎、特征多级存储系统、机器学习算法的演进、A/B测试系统、算法和特征的双链路监控、深度学习模型的实践部署等内容。同时还探讨了国美在人工智能领域未来的发力点。

除了机器学习,还有哪些AI前沿?

1、从视觉计算近期进展“管窥”AI之ABCDE
本次分享将在回顾计算机视觉领域近期部分重要进展的基础上,对此次AI热潮背后的深度学习技术源起和基本原理做概括性的介绍,特别是将探寻深度学习与脑神经科学的关系。之后,将以一个具体的例子为切入点,介绍深度学习给AI研发带来的方法论上的变迁,继而分析深度学习对全面实现AI的不足之处以及未来需要努力的方向。

听众收益:
1.学到一个公式:AI=A+B+C+D+E,即AI背后需要的几大驱动力;
2.深度学习从生物神经系统那里得到了哪些启发;
3.现有深度学习为代表的AI方法论的优缺点是什么;
4.AI全面开花还需要哪些努力。

2、微信小程序商业智能技术应用实践
2017年初微信小程序正式上线,经过一年的发展,人们已经逐渐认识到小程序带来的便利,随着越来越多的人开始使用小程序,小程序已经成了微信生态系统中不可分割的一部分。本案例将和大家一起分享小程序在商业化方向的技术尝试和相关应用案例,包括商业智能、数据决策、用户分析、个性化推荐等,并与大家一起探讨小程序未来的发展方向。

3、苏宁智能机器人平台
随着苏宁云商、金融、体育、文创等线上、线下业务的不断拓展,积累了大量的用户行为以及客服会话数据,如何充分挖掘海量规模的数据,改进用户体验、提高客服效率,成为苏宁亟待解决的问题。苏宁技术研究院人工智能实验室研发了智能机器人平台,采用当前流行的会话即平台技术,集成闲聊陪伴和专业助理等不同技能,包括家电控制、智能办公、智能客服、智能导购等,为业务线提供良好支持。
来源网络
681 浏览

人工智能系统研究的9大挑战和4大趋势

智能科技类 宁王爷 2017-12-05 10:35 发表了文章 来自相关话题

下一代人工智能系统将更广泛地影响我们的生活,人工智能将会通过与环境交互替人类进行更关键的和更加个性化的决策。若想要人工智能发挥更大的作用,我们将面临诸多极具挑战性的问题:我们需要人工智能系统可以在各种极端情况下及时做出安全的决策,比如在各种恶意攻击情况下具备鲁棒性,在保证隐私的情况下具备处理跨多组织多个人的共享数据的能力。随着摩尔定律的终结,存储和处理数据的能力将受限,这些挑战也将变得更加难以解决。在这篇文章里,我们将总结在系统领域、体系结构领域、安全领域等方面的具体研究方向。

四大趋势:
关键性任务的人工智能(Mission-critical AI)
个性化人工智能(Personalized AI)
跨多组织机构的人工智能(AI across organizations)
后摩尔定律时期的人工智能(AI demands outpacing the Moore's Law

九大挑战:
持续学习(Continual learning)
鲁棒决策(Robust decisions)
可解读的决策(Explainable decisions)
安全飞地(Secure enclaves)
对抗学习(Adversarial learning)
在保密数据上的共享学习(Shared learning on confidential data)
特定领域定制的硬件(Domain specific hardware)
组件化的AI系统(Composable AI systems)
跨云端和边缘的系统(Cloud-edge systems) 查看全部
下一代人工智能系统将更广泛地影响我们的生活,人工智能将会通过与环境交互替人类进行更关键的和更加个性化的决策。若想要人工智能发挥更大的作用,我们将面临诸多极具挑战性的问题:我们需要人工智能系统可以在各种极端情况下及时做出安全的决策,比如在各种恶意攻击情况下具备鲁棒性,在保证隐私的情况下具备处理跨多组织多个人的共享数据的能力。随着摩尔定律的终结,存储和处理数据的能力将受限,这些挑战也将变得更加难以解决。在这篇文章里,我们将总结在系统领域、体系结构领域、安全领域等方面的具体研究方向。

四大趋势:
关键性任务的人工智能(Mission-critical AI)
个性化人工智能(Personalized AI)
跨多组织机构的人工智能(AI across organizations)
后摩尔定律时期的人工智能(AI demands outpacing the Moore's Law

九大挑战:
持续学习(Continual learning)
鲁棒决策(Robust decisions)
可解读的决策(Explainable decisions)
安全飞地(Secure enclaves)
对抗学习(Adversarial learning)
在保密数据上的共享学习(Shared learning on confidential data)
特定领域定制的硬件(Domain specific hardware)
组件化的AI系统(Composable AI systems)
跨云端和边缘的系统(Cloud-edge systems)
606 浏览

如何从数据小白成为数据科学家

工业大数据 志在路上 2017-11-13 10:41 发表了文章 来自相关话题

数据小白有救么?
笔者写到数据小白时候,一直怀疑这个身份,因为笔者觉得真正能做到数据小白是指一些小学数学没及格的人,当然他们也不会想去做数据分析师。从笔者的从业经历看,只要高中数学及格,那么小白进入数据分析行业会很顺利。写到这里想必很多人都很怀疑笔者这一个“武断”的结论,那是因为很多人对基础数据分析有一定误解
误解1:我数学不好,做不了数据分析
其实,数学不好的人不是做不了数据分析,是做不深数据分析。但是只要你逻辑清楚,懂业务,精通PPT,完全可以进入数据分析这行,很多公司也称这样的人为业务分析师。笔者之前做网站分析、舆情监测、不乏很多同事是英语系毕业,虽然相对很多理科生没有较多优势,但是经过笔者的观察,能做好数据分析的文科生一定是要逻辑清楚,逻辑体现在对业务的理解,知道那些指标有什么作用,知道客户关注的目标,知道解决什么业务场景,会用一些基本工具例如GA,webtrend等,同时会沟通,懂表达,这些都是数据分析的基本功。因为,业务永远是老大,做数据分析久了,我们发现即使用了一个很厉害的算法,但是解决不了实际业务问题,还不如用简单的统计报表来应答业务诉求更有效,所以数学不好并不是软肋。这个阶段数据分析师需要大量阅读新闻、年报来完成一些战略报告或者市场分析报告等
 
误解2:我不会技术咋办?
技术在数据分析过程中应用基本在数据处理、运用算法。虽然现在都在喊大数据,但是笔者发现当我们做数据分析时,对已经确定的口径数据,即划定范围满足业务需求的数据,例如:双十一购买某理财产品的客群;最终都会变为样本数据,这句话可以这样理解,其实数据量没有很大,完全用excel处理就可以;同时,也可以说,不懂算法没关系,只要你会基本的数理统计,会发现异常值,会用分位数(quantile),中值,均值等,知道数据维度可以做哪些数据统计。那么,恭喜你进入数据分析中级阶段。这个阶段的数据分析师需要会统计,用基本的统计值来刻画用户画像,懂运营指标,同时会写战略市场报告。
 
这个阶段可以掌握一些入门的技术&书籍
http://bluewhale.cc/蓝鲸网站分析,笔者五年前在学习网站分析时候就看蓝鲸网站分析这个网站,适合于初学者,并且很多事实操经验总结
《流量的秘密》也是蓝鲸翻译的一本书,内容很多干货
http://www.chinawebanalytics.cn/网站分析在中国,宋老师的沙龙组织,宋老师是数据分析的网红,同时,也是我当时4A公司老板的同事,所以算是有着不解之缘吧,推荐大家可以感受下线下沙龙
《谁说菜鸟不会数据分析》
《深入浅出统计学》老外思维写的统计学,很有趣,但是思路很清楚
 
误解3:懂算法才能做数据
不可否认算法在数据中有太多的魅力,笔者不止一次向现在老板请求要求多做点模型。笔者以前做咨询顾问时候,每次和客户聊到算法,客户眼睛就在放光。但是从笔者实践而言,算法很美好,现实很骨感。我也和其他数据分析师讨论过,我们发现算法并不是很重要,数据的核心在于数据处理,数据处理的过程中就是业务逻辑重新梳理的过程,其实也是特征工程过程,若数据处理做不好,就算引用算法结果也会有偏差。很多大企业招收数据分析师,数据科学家时候,要训练一年基本功,即处理一年的数据,这是基本功。但是并不是说算法不重要,而是没那么重要,懂得会调用sklearn的包,知道算法的原理就好。这个阶段距离数据科学家很近了,笔者也一直努力前进,希望和大家一起进步
 
所需工具&技能:
R & python,笔者喜欢用R做数据探索,用python调用算法包,个人喜好不同,用自己擅长的。
SQL:其实做ETL必备技能,SQL可以做基本查询语句,若会一些函数,完全可以用SQL做数据处理
Python自学手册:http://vdisk.weibo.com/s/yWM2DKKma0-no
R书籍《数据建模与R软件》
《从零进阶!数据分析的统计基础》三部曲
《机器学习》
Andrew NG课程等
 
最后:要善于总结自己的心得体会,笔者每次都项目都做系统的总结知识点总结。这些比看书,要进步很快 查看全部
数据小白有救么?
笔者写到数据小白时候,一直怀疑这个身份,因为笔者觉得真正能做到数据小白是指一些小学数学没及格的人,当然他们也不会想去做数据分析师。从笔者的从业经历看,只要高中数学及格,那么小白进入数据分析行业会很顺利。写到这里想必很多人都很怀疑笔者这一个“武断”的结论,那是因为很多人对基础数据分析有一定误解
误解1:我数学不好,做不了数据分析
其实,数学不好的人不是做不了数据分析,是做不深数据分析。但是只要你逻辑清楚,懂业务,精通PPT,完全可以进入数据分析这行,很多公司也称这样的人为业务分析师。笔者之前做网站分析、舆情监测、不乏很多同事是英语系毕业,虽然相对很多理科生没有较多优势,但是经过笔者的观察,能做好数据分析的文科生一定是要逻辑清楚,逻辑体现在对业务的理解,知道那些指标有什么作用,知道客户关注的目标,知道解决什么业务场景,会用一些基本工具例如GA,webtrend等,同时会沟通,懂表达,这些都是数据分析的基本功。因为,业务永远是老大,做数据分析久了,我们发现即使用了一个很厉害的算法,但是解决不了实际业务问题,还不如用简单的统计报表来应答业务诉求更有效,所以数学不好并不是软肋。这个阶段数据分析师需要大量阅读新闻、年报来完成一些战略报告或者市场分析报告等
 
误解2:我不会技术咋办?
技术在数据分析过程中应用基本在数据处理、运用算法。虽然现在都在喊大数据,但是笔者发现当我们做数据分析时,对已经确定的口径数据,即划定范围满足业务需求的数据,例如:双十一购买某理财产品的客群;最终都会变为样本数据,这句话可以这样理解,其实数据量没有很大,完全用excel处理就可以;同时,也可以说,不懂算法没关系,只要你会基本的数理统计,会发现异常值,会用分位数(quantile),中值,均值等,知道数据维度可以做哪些数据统计。那么,恭喜你进入数据分析中级阶段。这个阶段的数据分析师需要会统计,用基本的统计值来刻画用户画像,懂运营指标,同时会写战略市场报告。
 
这个阶段可以掌握一些入门的技术&书籍
http://bluewhale.cc/蓝鲸网站分析,笔者五年前在学习网站分析时候就看蓝鲸网站分析这个网站,适合于初学者,并且很多事实操经验总结
《流量的秘密》也是蓝鲸翻译的一本书,内容很多干货
http://www.chinawebanalytics.cn/网站分析在中国,宋老师的沙龙组织,宋老师是数据分析的网红,同时,也是我当时4A公司老板的同事,所以算是有着不解之缘吧,推荐大家可以感受下线下沙龙
《谁说菜鸟不会数据分析》
《深入浅出统计学》老外思维写的统计学,很有趣,但是思路很清楚
 
误解3:懂算法才能做数据
不可否认算法在数据中有太多的魅力,笔者不止一次向现在老板请求要求多做点模型。笔者以前做咨询顾问时候,每次和客户聊到算法,客户眼睛就在放光。但是从笔者实践而言,算法很美好,现实很骨感。我也和其他数据分析师讨论过,我们发现算法并不是很重要,数据的核心在于数据处理,数据处理的过程中就是业务逻辑重新梳理的过程,其实也是特征工程过程,若数据处理做不好,就算引用算法结果也会有偏差。很多大企业招收数据分析师,数据科学家时候,要训练一年基本功,即处理一年的数据,这是基本功。但是并不是说算法不重要,而是没那么重要,懂得会调用sklearn的包,知道算法的原理就好。这个阶段距离数据科学家很近了,笔者也一直努力前进,希望和大家一起进步
 
所需工具&技能:
R & python,笔者喜欢用R做数据探索,用python调用算法包,个人喜好不同,用自己擅长的。
SQL:其实做ETL必备技能,SQL可以做基本查询语句,若会一些函数,完全可以用SQL做数据处理
Python自学手册:http://vdisk.weibo.com/s/yWM2DKKma0-no
R书籍《数据建模与R软件》
《从零进阶!数据分析的统计基础》三部曲
《机器学习》
Andrew NG课程等
 
最后:要善于总结自己的心得体会,笔者每次都项目都做系统的总结知识点总结。这些比看书,要进步很快
984 浏览

虚拟kitti数据集

工业大数据 浪迹天涯 2017-11-01 10:19 发表了文章 来自相关话题

虚拟KITTI是一个照片逼真的合成视频数据集,旨在学习和评估几个视频理解任务的计算机视觉模型:对象检测和多对象跟踪,场景级和实例级语义分割,光流和深度估计。

       虚拟KITTI在不同的成像和天气条件下,包含50个城市环境中的五个不同虚拟世界产生的50个高分辨率单目视频(21,260帧)。这些世界是使用Unity游戏引擎和一种新颖的实时到虚拟的克隆方法创建的。这些照片逼真的合成视频是自动,准确,完整的注释为2D和3D多对象跟踪和像素级与类别,实例,流和深度标签(参见下面的下载链接)。

       我们的CVPR 2016论文[pdf,arxiv]描述了数据集,我们用于构建它的半自动方法,以及测量实际到虚拟差距的实验,使用虚拟数据进行深度学习,以及测量成像变化下的泛化性能和天气条件。

新闻

        2016年9月23日:新版本(v.1.3.1),有2个新版本(+/- 30度相机旋转),新的3D对象地面实况和摄像机参数(内在+姿态),汽车元数据(移动/不移动标志,颜色和汽车制造,...)以及细分和光流边缘情况(包括车轮和复杂的薄结构)的小错误修复。实验结论与我们的CVPR 2016论文相同。事实上,DPMCF的MOTA平均差距甚至更小(实际KITTI为81.0,VKITTI 1.3.1克隆为81.2)。以前版本的文件(1.2.1)仍然可以在这里下载(md5)。
 
        2016年8月10日:更新场景地面实况(v.1.2.1)。小错误修复了极点和透明着色器,仅影响场景地面真实图像的几个像素。其余的都没有改变。

使用条款和参考

虚拟KITTI数据集(KITTI数据集的适应)

版权

虚拟KITTI数据集中的版权归Xerox所有。

       在下载虚拟KITTI DATASET之前,请仔细阅读这些条款。下载或使用数据表示您接受这些条款。
       虚拟KITTI数据集由施乐提供,可能仅用于非商业目的,并受知识共享署名 - 非商业性共享3.0的约束,其摘要位于此处。

归因

       虚拟KITTI数据集是KITTI Vision Benchmark Suite的适应。另见2012年计算机视觉和模式识别(CVPR)中的Andreas Geiger和Philip Lenz和Raquel Urtasun的题为“我们准备好自主驾驶?KITTI Vision Benchmark Suite”的出版物。

引用

        在您的研究中使用或引用此数据集时,请引用Xerox作为虚拟KITTI数据集的发起人,并引用我们的CVPR 2016论文[pdf](6MB)[arxiv],参见也全文参考如下:

虚拟世界作为多对象跟踪分析的代理
 阿德里安·盖登,乔旺,Yohann Cabon,Eleonora Vig
在IEEE计算机视觉与模式识别会议(CVPR)2016年@inproceedings {Gaidon:虚拟:CVPR2016, 作者= {Gaidon,A和Wang,Q和Cabon,Y和Vig,E},  title = {虚拟世界作为多对象跟踪分析的代理} booktitle = {CVPR}, 年= {2016}}
资料下载

       我们为每种数据提供一个.tar [.gz]存档,如下所述。以下是批量下载的所有URL的列表,以下是每个存档的MD5校验和列表。您可以通过命令'tar xvf filename.tar'将文件解压缩到文件夹中(用xzvf替换xvf来压缩.tar.gz文件)。 Windows用户可以使用7-zip软件来提取这些档案。

         在下文中,“<version>”是数据集版本号(当前为1.3.1),“<world>”是虚拟世界的名称,它是相应原始“种子”现实世界的序列号KITTI序列(0001,0002,0006,0018,0020)。占位符“<variation>”表示成像或天气条件方面的10种不同渲染变体之一:

    克隆:渲染尽可能接近原始的真实世界的KITTI条件
    15度右:照相机水平旋转15度向右
    15度左:照相机向左旋转15度
    30度右:照相机水平旋转30度向右
    30度左:照相机向左旋转30度
    早晨:晴天后黎明的典型照明条件
    日落:日落之前的照明典型
    阴天:典型的阴天(漫反射阴影,强烈的环境照明)
    雾:雾效应通过体积公式实现
    雨:简单的雨水颗粒效应(忽略相机上水滴的折射)请注意,我们的索引始终从0开始。
请注意,我们的索引始终从0开始。 查看全部

QQ图片20171101101650.jpg

虚拟KITTI是一个照片逼真的合成视频数据集,旨在学习和评估几个视频理解任务的计算机视觉模型:对象检测和多对象跟踪,场景级和实例级语义分割,光流和深度估计。

       虚拟KITTI在不同的成像和天气条件下,包含50个城市环境中的五个不同虚拟世界产生的50个高分辨率单目视频(21,260帧)。这些世界是使用Unity游戏引擎和一种新颖的实时到虚拟的克隆方法创建的。这些照片逼真的合成视频是自动,准确,完整的注释为2D和3D多对象跟踪和像素级与类别,实例,流和深度标签(参见下面的下载链接)。

       我们的CVPR 2016论文[pdf,arxiv]描述了数据集,我们用于构建它的半自动方法,以及测量实际到虚拟差距的实验,使用虚拟数据进行深度学习,以及测量成像变化下的泛化性能和天气条件。

新闻

        2016年9月23日:新版本(v.1.3.1),有2个新版本(+/- 30度相机旋转),新的3D对象地面实况和摄像机参数(内在+姿态),汽车元数据(移动/不移动标志,颜色和汽车制造,...)以及细分和光流边缘情况(包括车轮和复杂的薄结构)的小错误修复。实验结论与我们的CVPR 2016论文相同。事实上,DPMCF的MOTA平均差距甚至更小(实际KITTI为81.0,VKITTI 1.3.1克隆为81.2)。以前版本的文件(1.2.1)仍然可以在这里下载(md5)。
 
        2016年8月10日:更新场景地面实况(v.1.2.1)。小错误修复了极点和透明着色器,仅影响场景地面真实图像的几个像素。其余的都没有改变。

使用条款和参考

虚拟KITTI数据集(KITTI数据集的适应)

版权

虚拟KITTI数据集中的版权归Xerox所有。

       在下载虚拟KITTI DATASET之前,请仔细阅读这些条款。下载或使用数据表示您接受这些条款。
       虚拟KITTI数据集由施乐提供,可能仅用于非商业目的,并受知识共享署名 - 非商业性共享3.0的约束,其摘要位于此处。

归因

       虚拟KITTI数据集是KITTI Vision Benchmark Suite的适应。另见2012年计算机视觉和模式识别(CVPR)中的Andreas Geiger和Philip Lenz和Raquel Urtasun的题为“我们准备好自主驾驶?KITTI Vision Benchmark Suite”的出版物。

引用

        在您的研究中使用或引用此数据集时,请引用Xerox作为虚拟KITTI数据集的发起人,并引用我们的CVPR 2016论文[pdf](6MB)[arxiv],参见也全文参考如下:

虚拟世界作为多对象跟踪分析的代理
 阿德里安·盖登,乔旺,Yohann Cabon,Eleonora Vig
在IEEE计算机视觉与模式识别会议(CVPR)2016年@inproceedings {Gaidon:虚拟:CVPR2016, 作者= {Gaidon,A和Wang,Q和Cabon,Y和Vig,E},  title = {虚拟世界作为多对象跟踪分析的代理} booktitle = {CVPR}, 年= {2016}}
资料下载

       我们为每种数据提供一个.tar [.gz]存档,如下所述。以下是批量下载的所有URL的列表,以下是每个存档的MD5校验和列表。您可以通过命令'tar xvf filename.tar'将文件解压缩到文件夹中(用xzvf替换xvf来压缩.tar.gz文件)。 Windows用户可以使用7-zip软件来提取这些档案。

         在下文中,“<version>”是数据集版本号(当前为1.3.1),“<world>”是虚拟世界的名称,它是相应原始“种子”现实世界的序列号KITTI序列(0001,0002,0006,0018,0020)。占位符“<variation>”表示成像或天气条件方面的10种不同渲染变体之一:

    克隆:渲染尽可能接近原始的真实世界的KITTI条件
    15度右:照相机水平旋转15度向右
    15度左:照相机向左旋转15度
    30度右:照相机水平旋转30度向右
    30度左:照相机向左旋转30度
    早晨:晴天后黎明的典型照明条件
    日落:日落之前的照明典型
    阴天:典型的阴天(漫反射阴影,强烈的环境照明)
    雾:雾效应通过体积公式实现
    雨:简单的雨水颗粒效应(忽略相机上水滴的折射)请注意,我们的索引始终从0开始。
请注意,我们的索引始终从0开始。
816 浏览

清华马少平教授详解:人工智能能做什么?

IT软件类 小丑么么达 2017-09-25 11:09 发表了文章 来自相关话题

人工智能第一阶段—前期阶段

关键词:通用问题求解 定理证明 游戏 机器翻译等

1956年在达特矛斯会议上,人工智能的概念被首次提出来。到去年已经是整整60年了。当时的概念已经不是凭空提出的了,在1950年,图灵就已经阐述过图灵测试了。那个时候第一台电子计算机已经问世十年了,所有人都期望用计算机为工具去实现很多人工智能的设想。

在当时达特矛斯会议上,大多数与会者都是二十几岁的年轻人,他们对实现人工智能这一想法非常的乐观,也很有自信。在人工智能提出的早期阶段,就有人研究“通用问题求解”,简称GPS。当时的设想是通过一个通用的方法去求解所有的问题。除此之外,在那个时代,人们用当时的计算机做了很多的数学定理证明,甚至是证出了《数学原理》一书上的所有定理。这在当时的条件下是十分不易的。还有很多人研究游戏,因为游戏是可以反映人类智能的。当时就有很多人研究棋类游戏。在1956年达特矛斯会议上就有人演示了机器下棋的过程。

还有一个方面是机器翻译,在当时人们认为有了计算机这个强大的工具,在后台存储一本庞大的电子词典,就可以解决自然语言的翻译问题了。但是,这些先驱者们很快就陷入了困境,发现这件事情不是那么简单。他们失败的关键点就在于“知识”。比如说我们要翻译一本专业性很强的人工智能方面的书,把它交给一个没有科技翻译经验的、学语言的学生,他肯定会翻译得漏洞百出,即使他的外语和汉语能力都没有问题。为什么呢?因为我们在做这方面的工作的时候,一定要先掌握相关的“知识”。人工智能技术其实也是这样,要实现“智能”,必须要依靠“知识”。

人工智能第二阶段——知识处理时代

关键词:知识工程 专家系统

当人们意识到了这点的时候,人工智能就发展到了第二个时代——知识处理时代。这个时代主要的特征就是知识工程和专家系统。专家系统是先被提出来的概念,然后才是知识工程。专家的特点就是掌握相关领域的知识,如果知识能够被总结出来,那么我们就可以用计算机来替代这些专家,去解决相关领域的问题了。继专家系统之后,又提出知识工程,就是说我专家之所以是专家,就是因为他们掌握了这方面的知识,如果我把他的知识给总结出来,那么我就可以用计算机来代替专家来解决这方面的问题。

当时造了很多专家系统,最著名的大概就是六十年代中期MIT做过一个用于做血液病的诊断的专家系统MYCIN,这之后还有很多专家系统问世。虽然在这个过程中人们认识到了知识的重要性,但是知识获取始终是一个难题。当时虽然机器学习的概念也被提了出来,有基于归纳法的学习、基于解释的学习、基于演绎的学习等等各种理念,但是都没能取得成功。所以知识获取仍然是一个很大的瓶颈。

当时,也就是在大概80年代的时候,我也曾经参加制作过几个专家系统。那是非常幸苦的工作,为了能和专家没有障碍的交流,必须要学习和研究专业领域的专业知识,否则根本连专家在说什么也不知道。但是,即使是这样,这种获取知识的方式仍然是非常艰难的,因为很多知识是很难提炼和归纳的。比如说我不会骑自行车,一上去就会倒。我问会骑自行车的怎样骑车不会倒。他肯定告诉我这种事情没法口头上教,只能找个没事的礼拜天扶着练练才能会。这也就说明了人工去做知识的提取不光困难,而且效率很低。因此当年虽然做了很多的专家系统,但是真的成功应用的却并不多。

人工智能第三阶段——特征处理时代

关键词:特征抽取 统计学习 优化技术

时间进入了90年代末期,这是一个特征处理的时代。其实这个时代最主要的就是统计学习,试图用统计机器学习的方法来让机器自动地学习。不过机器学习的材料并不是原始数据,是我们从数据抽取出来的特征。比方说那个时候如果说要识别一个猫,那可能就得找各种各样的特征,想做语音识别,也需要各种各样的特征,然后在得到特征之后再用统计学习方法进行处理。

这个过程中难点其实更多的是找特征。比如那个时候做汉字识别,大家用的统计学习方法其实都差不多,关键在于怎么找特征,到底哪些特征才能把这汉字给描述出来,并且计算机还能处理。比如“横竖撇捺”是汉字的特征,我们人脑就是这么识别汉字的,但是那个时候计算机抽取不出来。所以怎样找特征才是一个真正的难点。人工智能第四阶段——数据处理时代

关键词:深度学习(神经网络) 训练算法

我们现在处在一个数据处理时代,我们应用各种数据进行深度学习。不过这些数据不再是我们抽取的特征了,而是原始的数据。让机器自己从原始数据中进行学习。做语音识别的,只要把语音的采集信号交给机器就好。做图片识别的,只要给机器图像,让它自己去判断,也就不用抽取特征了。所以这个时代在技术上已经是更加进步的了。

这是人工智能的一个进阶,从知识到特征再到数据处理,人的参与越来越少。在专家系统时代一定要专家级的人物参与才行。现在数据时代,从我们准备的学习对象、处理对象来说,把原始数据交给系统就行了。这个程度上来说,人工智能是一点点进步的,人的干预程度了越来越少了。
二、人工智能的典型应用

应用场景1: 对机器和人类都很容易

现在的人工智能的一些典型的应用可能大家也都是有一些了解的。比如说,现在我们这个阶段深度学习领域,做的比较好的像是语音识别,比如2011年的微软,首先将深度学习应用到语音识别中,一下把错误率拉低了30%。2016年谷歌也是这样,它首先做了一个很完整的系统,就是基于神经网络的机器翻译。还有一个就是名声大噪的围棋人工智能AlphaGo,在比赛中连续战胜顶尖高手李世石、柯洁。这个里边一个很重要的东西都是就所谓的深度学习,也就是说神经网络模型,这些是比较成功的应用。

应用场景2:对机器和人类都很难

我们再看一下比较难求解的领域,人工智能哪些事情做不了。比如说让人工智能提出一个新的概念,或者是创立一个新的科学体系。或者是在数学领域开创一个新的分支等等,这些事情对于计算机或者是人工智能而言都是无法完成的。至少现在还没有办法去处理。上面说到的几件事情不仅仅是对于计算机,对于我们人类其实也是比较难以完成的。

应用场景3:对人类很容易,对机器很难

那么还有一些事情,对于我们而言是非常容易的,可是人工智能处理起来依然比较困难。比如说理解幽默、比如联想能力、比如说漫画识别等等。这些方面上至老人下至三岁小孩,我们的水平都比人工智能高很多。比如我举一个例子,这是一个真实的事情,有一天我买东西,下了一个单,客服说一杯咖啡后,就会有人与我联系,害得我赶紧下楼买了一杯咖啡,很显然我做了一件十分搞笑的事情,我们正常人都能明白,但是机器就不知道幽默点在哪里。这张图片,大家的第一反应就是一个头发花白的老人。可是如果我提示你,图片里面有字。我们都能很快地找出“长命百岁”来。还有就是漫画识别,我们从来没有见过这张漫画。但是让我们认识陈佩斯。我从来没看过它的漫画,第一眼看见,我也知道它画的是是陈佩斯。但是机器怎样通过这张漫画识别呢? 查看全部
人工智能第一阶段—前期阶段

关键词:通用问题求解 定理证明 游戏 机器翻译等

1956年在达特矛斯会议上,人工智能的概念被首次提出来。到去年已经是整整60年了。当时的概念已经不是凭空提出的了,在1950年,图灵就已经阐述过图灵测试了。那个时候第一台电子计算机已经问世十年了,所有人都期望用计算机为工具去实现很多人工智能的设想。

在当时达特矛斯会议上,大多数与会者都是二十几岁的年轻人,他们对实现人工智能这一想法非常的乐观,也很有自信。在人工智能提出的早期阶段,就有人研究“通用问题求解”,简称GPS。当时的设想是通过一个通用的方法去求解所有的问题。除此之外,在那个时代,人们用当时的计算机做了很多的数学定理证明,甚至是证出了《数学原理》一书上的所有定理。这在当时的条件下是十分不易的。还有很多人研究游戏,因为游戏是可以反映人类智能的。当时就有很多人研究棋类游戏。在1956年达特矛斯会议上就有人演示了机器下棋的过程。

还有一个方面是机器翻译,在当时人们认为有了计算机这个强大的工具,在后台存储一本庞大的电子词典,就可以解决自然语言的翻译问题了。但是,这些先驱者们很快就陷入了困境,发现这件事情不是那么简单。他们失败的关键点就在于“知识”。比如说我们要翻译一本专业性很强的人工智能方面的书,把它交给一个没有科技翻译经验的、学语言的学生,他肯定会翻译得漏洞百出,即使他的外语和汉语能力都没有问题。为什么呢?因为我们在做这方面的工作的时候,一定要先掌握相关的“知识”。人工智能技术其实也是这样,要实现“智能”,必须要依靠“知识”。

人工智能第二阶段——知识处理时代

关键词:知识工程 专家系统

当人们意识到了这点的时候,人工智能就发展到了第二个时代——知识处理时代。这个时代主要的特征就是知识工程和专家系统。专家系统是先被提出来的概念,然后才是知识工程。专家的特点就是掌握相关领域的知识,如果知识能够被总结出来,那么我们就可以用计算机来替代这些专家,去解决相关领域的问题了。继专家系统之后,又提出知识工程,就是说我专家之所以是专家,就是因为他们掌握了这方面的知识,如果我把他的知识给总结出来,那么我就可以用计算机来代替专家来解决这方面的问题。

当时造了很多专家系统,最著名的大概就是六十年代中期MIT做过一个用于做血液病的诊断的专家系统MYCIN,这之后还有很多专家系统问世。虽然在这个过程中人们认识到了知识的重要性,但是知识获取始终是一个难题。当时虽然机器学习的概念也被提了出来,有基于归纳法的学习、基于解释的学习、基于演绎的学习等等各种理念,但是都没能取得成功。所以知识获取仍然是一个很大的瓶颈。

当时,也就是在大概80年代的时候,我也曾经参加制作过几个专家系统。那是非常幸苦的工作,为了能和专家没有障碍的交流,必须要学习和研究专业领域的专业知识,否则根本连专家在说什么也不知道。但是,即使是这样,这种获取知识的方式仍然是非常艰难的,因为很多知识是很难提炼和归纳的。比如说我不会骑自行车,一上去就会倒。我问会骑自行车的怎样骑车不会倒。他肯定告诉我这种事情没法口头上教,只能找个没事的礼拜天扶着练练才能会。这也就说明了人工去做知识的提取不光困难,而且效率很低。因此当年虽然做了很多的专家系统,但是真的成功应用的却并不多。

人工智能第三阶段——特征处理时代

关键词:特征抽取 统计学习 优化技术

时间进入了90年代末期,这是一个特征处理的时代。其实这个时代最主要的就是统计学习,试图用统计机器学习的方法来让机器自动地学习。不过机器学习的材料并不是原始数据,是我们从数据抽取出来的特征。比方说那个时候如果说要识别一个猫,那可能就得找各种各样的特征,想做语音识别,也需要各种各样的特征,然后在得到特征之后再用统计学习方法进行处理。

这个过程中难点其实更多的是找特征。比如那个时候做汉字识别,大家用的统计学习方法其实都差不多,关键在于怎么找特征,到底哪些特征才能把这汉字给描述出来,并且计算机还能处理。比如“横竖撇捺”是汉字的特征,我们人脑就是这么识别汉字的,但是那个时候计算机抽取不出来。所以怎样找特征才是一个真正的难点。人工智能第四阶段——数据处理时代

关键词:深度学习(神经网络) 训练算法

我们现在处在一个数据处理时代,我们应用各种数据进行深度学习。不过这些数据不再是我们抽取的特征了,而是原始的数据。让机器自己从原始数据中进行学习。做语音识别的,只要把语音的采集信号交给机器就好。做图片识别的,只要给机器图像,让它自己去判断,也就不用抽取特征了。所以这个时代在技术上已经是更加进步的了。

这是人工智能的一个进阶,从知识到特征再到数据处理,人的参与越来越少。在专家系统时代一定要专家级的人物参与才行。现在数据时代,从我们准备的学习对象、处理对象来说,把原始数据交给系统就行了。这个程度上来说,人工智能是一点点进步的,人的干预程度了越来越少了。
二、人工智能的典型应用

应用场景1: 对机器和人类都很容易

现在的人工智能的一些典型的应用可能大家也都是有一些了解的。比如说,现在我们这个阶段深度学习领域,做的比较好的像是语音识别,比如2011年的微软,首先将深度学习应用到语音识别中,一下把错误率拉低了30%。2016年谷歌也是这样,它首先做了一个很完整的系统,就是基于神经网络的机器翻译。还有一个就是名声大噪的围棋人工智能AlphaGo,在比赛中连续战胜顶尖高手李世石、柯洁。这个里边一个很重要的东西都是就所谓的深度学习,也就是说神经网络模型,这些是比较成功的应用。

应用场景2:对机器和人类都很难

我们再看一下比较难求解的领域,人工智能哪些事情做不了。比如说让人工智能提出一个新的概念,或者是创立一个新的科学体系。或者是在数学领域开创一个新的分支等等,这些事情对于计算机或者是人工智能而言都是无法完成的。至少现在还没有办法去处理。上面说到的几件事情不仅仅是对于计算机,对于我们人类其实也是比较难以完成的。

应用场景3:对人类很容易,对机器很难

那么还有一些事情,对于我们而言是非常容易的,可是人工智能处理起来依然比较困难。比如说理解幽默、比如联想能力、比如说漫画识别等等。这些方面上至老人下至三岁小孩,我们的水平都比人工智能高很多。比如我举一个例子,这是一个真实的事情,有一天我买东西,下了一个单,客服说一杯咖啡后,就会有人与我联系,害得我赶紧下楼买了一杯咖啡,很显然我做了一件十分搞笑的事情,我们正常人都能明白,但是机器就不知道幽默点在哪里。这张图片,大家的第一反应就是一个头发花白的老人。可是如果我提示你,图片里面有字。我们都能很快地找出“长命百岁”来。还有就是漫画识别,我们从来没有见过这张漫画。但是让我们认识陈佩斯。我从来没看过它的漫画,第一眼看见,我也知道它画的是是陈佩斯。但是机器怎样通过这张漫画识别呢?
752 浏览

618黑马的背后,锤子科技也用ERP?还是SAP的?

工业大数据 晴空万里 2017-09-20 10:42 发表了文章 来自相关话题

2017年8月,罗永浩宣布锤子科技获得约10亿人民币融资,接下来的未来3年要让锤子手机进入到国内市场三强,未来5年成为全球三强。

在2017年京东618手机销售排行榜, 6月1日至18日的手机累计销量排名中,锤子科技位列第七、手机销售额排名第八,与苹果、华为、小米等大牌厂商共列TOP10,成为最强黑马。就在去年 618时,锤子科技还默默无闻,今年凭借着坚果Pro实现了品牌销售额同比增长3006%,位居增长第一。

在锤子科技成为今年618黑马的背后,除了坚果Pro的亮眼技术与设计外,还有一个默默做着贡献却鲜为人知的支撑技术,这就是生产与供应链管理系统ERP。众所周知,任何生产制造型企业都会有自己的生产与供应链管理系统,通常采用市面上已有的ERP软件。在ERP软件供应商中,既有面向全球大型制造企业的SAP,也有面向中小企业的国际和本土ERP软件商。

锤子科技的IT经理张佳伟于2014年加入锤子科技,那一年5月锤子科技刚刚推出了第一代产品T1,两个月上市。尽管锤子科技成立于2012年,但在成立的头两年里一直从事产品的研发,在企业运营、生产和流程管理方面相当的简单。2014年开始,锤子科技开始正式采用了SAP中小企业产品B1,用于供应链、财务、物流、维修、人力资源及相关企业业务流程管理等。

张佳伟就是在B1上线伊始加入了锤子科技。“我基本上就是为了帮助公司实施B1而加入锤子科技的”,张佳伟表示。“2014年以前,公司大部分投入在研发,人员也少,因此没有信息化的投入。从2014年开始,公司各部门的人员都已经到位,产品也开始上市,必须用ERP系统把整个业务流程连接起来,否则内部就无法控制,经过调研以及前期的测试,最后选择了SAP B1”。

SAP Business One(B1)是SAP公司专门针对中小型企业以及大型企业分支机构设计的产品,它提供直观并能快速实施的解决方案,帮助中小企业以及大型企业分支机构解决管理问题。该产品具有简单和实用的特点,继承了SAP多年服务于全球大型企业的管理思想精华,易于进行升级和集成,覆盖了企业的核心业务流程。

负责SAP B1实施的北京奥维奥科技有限公司市场经理周虎林介绍说,初创公司建立时业务不成熟,B1相对是更好的选择,B1的管理业务逻辑是SAP集成了全球众多优秀企业的管理经验而形成的业务流程,这是B1的打动企业尤其是初创企业的一个优势。“锤子作为当时的初创企业选择用B1的一个重要原因,也是希望借鉴B1的先进管理经验,让企业能够快速成长。”周虎林表示。

通过业务流程梳理建立有效的内部监督、控制机制,锤子科技实现了初步信息化目标。锤子科技在实施SAP B1 ERP项目后,实现了很好的供应链管理、财务管理、物流管理、维修管理等,为锤子科技在2017年618脱颖而出,打下了坚实的基础。

在谈到B1的优势时,张佳伟认为在很好的完成企业业务流程管理的同时,B1对财务、销售、采购等方面的数据分析功能,以及业务处理、审计流都是都满足锤子科技的需求:

在财务管理方面,张佳伟认为B1相对开放、灵活,可以根据财务的理念定义流程,比如财务的费用分析可以在B1上以自定义的方式完成。因为业务端不仅要完成业务,还要相应对应财务的需求,把附加的数据加到到业务单据上,这样就便于财务以后的数据分析。

在销售管理方面,因为锤子手机是电子产品,销售模式比较多,涉及渠道销售、电商平台以及线下零售等。B1在财务分析过程中可以按不同销售方式分开来分析,比如电商平台单独按电商渠道分析、渠道销售则按渠道销售的方式来分析,还可以按区域等进行统计分析。

在采购供应链管理方面,锤子科技既采购国内的原材料,也通过货代采购进口原材料,有两种采购模式。对这两种采购模式是要通过不同的维度去分析,特别是进口原材料的采购是直接给代理商下订单,而不跟国际供应商直接发生关系,所以采购过程也比较复杂,同样也需要加入财务所需要的数据,以供后续分析。

总结锤子科技成功实施SAP B1的经验,张佳伟表示,锤子科技的SAP B1信息化项目是由财务总监直接推动,而且公司主要业务部门的领导都曾是SAP产品的用户,对SAP产品有着极高地信任度,所以SAP B1项目实施顺利且成功。

当然,员工意识的理解及转变、系统流程的合理及规范、日常制度的执行和约束,系统外的沟通和协调等,全都是ERP成功是的重要因素,缺一不可。“系统不能医治百病”,而锤子科技的很多员工都来自外企,本身就已经受过ERP意识的训练,这是锤子科技能够在短短几年就成为618黑马的真正原因。这也是锤子科技未来能够跻身国内和全球三强的坚强后盾。 查看全部
2017年8月,罗永浩宣布锤子科技获得约10亿人民币融资,接下来的未来3年要让锤子手机进入到国内市场三强,未来5年成为全球三强。

在2017年京东618手机销售排行榜, 6月1日至18日的手机累计销量排名中,锤子科技位列第七、手机销售额排名第八,与苹果、华为、小米等大牌厂商共列TOP10,成为最强黑马。就在去年 618时,锤子科技还默默无闻,今年凭借着坚果Pro实现了品牌销售额同比增长3006%,位居增长第一。

在锤子科技成为今年618黑马的背后,除了坚果Pro的亮眼技术与设计外,还有一个默默做着贡献却鲜为人知的支撑技术,这就是生产与供应链管理系统ERP。众所周知,任何生产制造型企业都会有自己的生产与供应链管理系统,通常采用市面上已有的ERP软件。在ERP软件供应商中,既有面向全球大型制造企业的SAP,也有面向中小企业的国际和本土ERP软件商。

锤子科技的IT经理张佳伟于2014年加入锤子科技,那一年5月锤子科技刚刚推出了第一代产品T1,两个月上市。尽管锤子科技成立于2012年,但在成立的头两年里一直从事产品的研发,在企业运营、生产和流程管理方面相当的简单。2014年开始,锤子科技开始正式采用了SAP中小企业产品B1,用于供应链、财务、物流、维修、人力资源及相关企业业务流程管理等。

张佳伟就是在B1上线伊始加入了锤子科技。“我基本上就是为了帮助公司实施B1而加入锤子科技的”,张佳伟表示。“2014年以前,公司大部分投入在研发,人员也少,因此没有信息化的投入。从2014年开始,公司各部门的人员都已经到位,产品也开始上市,必须用ERP系统把整个业务流程连接起来,否则内部就无法控制,经过调研以及前期的测试,最后选择了SAP B1”。

SAP Business One(B1)是SAP公司专门针对中小型企业以及大型企业分支机构设计的产品,它提供直观并能快速实施的解决方案,帮助中小企业以及大型企业分支机构解决管理问题。该产品具有简单和实用的特点,继承了SAP多年服务于全球大型企业的管理思想精华,易于进行升级和集成,覆盖了企业的核心业务流程。

负责SAP B1实施的北京奥维奥科技有限公司市场经理周虎林介绍说,初创公司建立时业务不成熟,B1相对是更好的选择,B1的管理业务逻辑是SAP集成了全球众多优秀企业的管理经验而形成的业务流程,这是B1的打动企业尤其是初创企业的一个优势。“锤子作为当时的初创企业选择用B1的一个重要原因,也是希望借鉴B1的先进管理经验,让企业能够快速成长。”周虎林表示。

通过业务流程梳理建立有效的内部监督、控制机制,锤子科技实现了初步信息化目标。锤子科技在实施SAP B1 ERP项目后,实现了很好的供应链管理、财务管理、物流管理、维修管理等,为锤子科技在2017年618脱颖而出,打下了坚实的基础。

在谈到B1的优势时,张佳伟认为在很好的完成企业业务流程管理的同时,B1对财务、销售、采购等方面的数据分析功能,以及业务处理、审计流都是都满足锤子科技的需求:

在财务管理方面,张佳伟认为B1相对开放、灵活,可以根据财务的理念定义流程,比如财务的费用分析可以在B1上以自定义的方式完成。因为业务端不仅要完成业务,还要相应对应财务的需求,把附加的数据加到到业务单据上,这样就便于财务以后的数据分析。

在销售管理方面,因为锤子手机是电子产品,销售模式比较多,涉及渠道销售、电商平台以及线下零售等。B1在财务分析过程中可以按不同销售方式分开来分析,比如电商平台单独按电商渠道分析、渠道销售则按渠道销售的方式来分析,还可以按区域等进行统计分析。

在采购供应链管理方面,锤子科技既采购国内的原材料,也通过货代采购进口原材料,有两种采购模式。对这两种采购模式是要通过不同的维度去分析,特别是进口原材料的采购是直接给代理商下订单,而不跟国际供应商直接发生关系,所以采购过程也比较复杂,同样也需要加入财务所需要的数据,以供后续分析。

总结锤子科技成功实施SAP B1的经验,张佳伟表示,锤子科技的SAP B1信息化项目是由财务总监直接推动,而且公司主要业务部门的领导都曾是SAP产品的用户,对SAP产品有着极高地信任度,所以SAP B1项目实施顺利且成功。

当然,员工意识的理解及转变、系统流程的合理及规范、日常制度的执行和约束,系统外的沟通和协调等,全都是ERP成功是的重要因素,缺一不可。“系统不能医治百病”,而锤子科技的很多员工都来自外企,本身就已经受过ERP意识的训练,这是锤子科技能够在短短几年就成为618黑马的真正原因。这也是锤子科技未来能够跻身国内和全球三强的坚强后盾。
933 浏览

工业数据白皮书

工业大数据 其中之一 2017-07-06 15:56 发表了文章 来自相关话题

[干货] 18个行业的产业链全景图
2017年日本工业现状与中国冲击的对照
(传奇人物)任正非创业史
 
  查看全部
936 浏览

华为网络放出大招,全面云化是什么概念?

电气控制类 幸福的小宝 2017-04-06 10:45 发表了文章 来自相关话题

   每年新春是厂商发布新品的好时节,今年也不例外。在刚刚过去的CeBIT展中,华为集中发布了一系列产品和技术、解决方案。其中,最显著的是“全面云化的网络”。
   在3000平米的展区,能看到单独的网络展区,分别是是CloudFabric、CloudCampus、CloudEPN、EC-IoT、CloudDCI和Security等,正好对应了企业网络全面云化的六大解决方案。
了解华为的读者可能知道,这两年华为全面转向云化。在这个集团战略之下,网络如何响应这个战略,是务虚还是实实在在的“云化”?这个“全面云化”和之前的“敏捷网络”又有什么关系?
   这个问题解答之前,先看看现在的行业发展和技术趋势。
看行业发展。所有行业转向“数字化”,这是未来企业的必由之路。关于数字化是什么,如何转型,各个厂商和研究机构会从不同角度给出不同的建议。但不能否认的是,数字化的核心是,所有业务几乎都用数字驱动,用数据说话,也就是全面云化的开端。
再看技术趋势。从当前发展看,云和大数据、物联网正从概念期落地,切实成为企业的生产力。但在实践应用中,如何落地还有不少困惑。以网络的SDN和NFV来说,概念提了快有10年,而真正普及的却很少。原因在于技术壁垒,应用场景。
无论是SDN还是NFV,本质是让网络服务化,让网络“随需应变”,更简单、更智能,更节约成本,更容易维护。视角从网络技术转向应用,让用户忘记复杂的配置、难以维护的运营。尤其是SDN,让你忘记“汇聚层、转发层、应用层”,更让你忘记IP化,用数据的角度控制和转发流量。
  有了现在这个背景,就不难理解华为企业网络“全面云化”的意图。
华为这几年的战略是“敏捷网络”,让网络更敏捷地为业务服务,越来越智能化。
   并且,华为网络细分场景化,每年在年度大会中,都会针对不同场景发布解决方案,以园区、分支、广域网、数据中心等场景为例,引入最新的技术和成熟的解决方案。
    到了如今,不管是响应集团号召还是华为网络的自身发展,或者两者皆有的原因,华为网络走到了“全面云化”的阶段。可以认为,这是在过去“敏捷网络”基础上的升级,理念一脉相承,技术上则是更多引入云和物联网等新技术的概念。
    举例来说,华为的“梯联网”是在电梯中安装设备,帮助电梯厂商监控网络运行的情况。这样的好处是,随时在手机终端查看状态,节省人力巡检的时间和精力,还能促进电梯厂商展开其他的商业活动。
    “梯联网”解决的几个问题是,物联网时代如何做到上千个、上万个设备联网;如何确保有用数据随时上传到数据中心处理,涉及到数据筛选和过滤机制,以及边缘计算的理念。最后才是在技术之上,如何开放一个平台,让电梯厂商、用户和其他开发商利益共享,形成生态圈。
     华为网络产品线副总裁曾兴云从理念角度说,华为网络的核心还在于“管”,是“云端管”中的“管道”。华为网络不会碰数据和应用,要从数据的角度让网络更加智能,让“端”的数据通过网络的“管道”更加智能的进入“云”中。
    全面云化有三层含义。
    在分支和物联等各个场景下,将人、物、数据和应用全面连接起来;
    有一个开放的云平台,要借助云端管理实现资源的集中调度来获得效率的提升和商业模式的创新,而开放的云可以更便捷的进行行业化扩展;
    社交化的行业应用。
     我觉得如果从技术和功能来说,全面云化是将网络“云化”和“服务化”实现的手段。正如IaaS让企业不再建设基础设施如数据中心那样,网络全面云化之后,企业不用关心谁来建设网络,网络在哪里,功能如何实现。只要关心是,需要提供什么样的功能,在这个网络功能上,如何实现商业创新?甚至是以后可以按需付费。
     网络云化有些费解,它不像IaaS或者SaaS容易理解,因为它在企业业务中,不是一个平台,只是计算和存储等数据连接的方式。但在企业业务中,网络非常重要,决定了用户的体验。
    顺便说一下,从另一个角度看各个场景的互联互通,可以认为是数据在终端到数据中心、数据中心和数据中心、广域网和数据中心、广域网之间的连接。如果从数据的角度理解网络的作用,就会明白全面云化是建设一个无所不在,智能可控,随需应变的网络。
    让网络成为服务,而不是成为技术,这就是华为网络全面云化给客户带来的商业价值:极致体验、敏捷创新以及无处不在的安全。
    具体关于这个战略之下的解决方案以及实施,我们将持续关注。 查看全部
   每年新春是厂商发布新品的好时节,今年也不例外。在刚刚过去的CeBIT展中,华为集中发布了一系列产品和技术、解决方案。其中,最显著的是“全面云化的网络”。
   在3000平米的展区,能看到单独的网络展区,分别是是CloudFabric、CloudCampus、CloudEPN、EC-IoT、CloudDCI和Security等,正好对应了企业网络全面云化的六大解决方案。
了解华为的读者可能知道,这两年华为全面转向云化。在这个集团战略之下,网络如何响应这个战略,是务虚还是实实在在的“云化”?这个“全面云化”和之前的“敏捷网络”又有什么关系?
   这个问题解答之前,先看看现在的行业发展和技术趋势。
看行业发展。所有行业转向“数字化”,这是未来企业的必由之路。关于数字化是什么,如何转型,各个厂商和研究机构会从不同角度给出不同的建议。但不能否认的是,数字化的核心是,所有业务几乎都用数字驱动,用数据说话,也就是全面云化的开端。
再看技术趋势。从当前发展看,云和大数据、物联网正从概念期落地,切实成为企业的生产力。但在实践应用中,如何落地还有不少困惑。以网络的SDN和NFV来说,概念提了快有10年,而真正普及的却很少。原因在于技术壁垒,应用场景。
无论是SDN还是NFV,本质是让网络服务化,让网络“随需应变”,更简单、更智能,更节约成本,更容易维护。视角从网络技术转向应用,让用户忘记复杂的配置、难以维护的运营。尤其是SDN,让你忘记“汇聚层、转发层、应用层”,更让你忘记IP化,用数据的角度控制和转发流量。
  有了现在这个背景,就不难理解华为企业网络“全面云化”的意图。
华为这几年的战略是“敏捷网络”,让网络更敏捷地为业务服务,越来越智能化。
   并且,华为网络细分场景化,每年在年度大会中,都会针对不同场景发布解决方案,以园区、分支、广域网、数据中心等场景为例,引入最新的技术和成熟的解决方案。
    到了如今,不管是响应集团号召还是华为网络的自身发展,或者两者皆有的原因,华为网络走到了“全面云化”的阶段。可以认为,这是在过去“敏捷网络”基础上的升级,理念一脉相承,技术上则是更多引入云和物联网等新技术的概念。
    举例来说,华为的“梯联网”是在电梯中安装设备,帮助电梯厂商监控网络运行的情况。这样的好处是,随时在手机终端查看状态,节省人力巡检的时间和精力,还能促进电梯厂商展开其他的商业活动。
    “梯联网”解决的几个问题是,物联网时代如何做到上千个、上万个设备联网;如何确保有用数据随时上传到数据中心处理,涉及到数据筛选和过滤机制,以及边缘计算的理念。最后才是在技术之上,如何开放一个平台,让电梯厂商、用户和其他开发商利益共享,形成生态圈。
     华为网络产品线副总裁曾兴云从理念角度说,华为网络的核心还在于“管”,是“云端管”中的“管道”。华为网络不会碰数据和应用,要从数据的角度让网络更加智能,让“端”的数据通过网络的“管道”更加智能的进入“云”中。
    全面云化有三层含义。
    在分支和物联等各个场景下,将人、物、数据和应用全面连接起来;
    有一个开放的云平台,要借助云端管理实现资源的集中调度来获得效率的提升和商业模式的创新,而开放的云可以更便捷的进行行业化扩展;
    社交化的行业应用。
     我觉得如果从技术和功能来说,全面云化是将网络“云化”和“服务化”实现的手段。正如IaaS让企业不再建设基础设施如数据中心那样,网络全面云化之后,企业不用关心谁来建设网络,网络在哪里,功能如何实现。只要关心是,需要提供什么样的功能,在这个网络功能上,如何实现商业创新?甚至是以后可以按需付费。
     网络云化有些费解,它不像IaaS或者SaaS容易理解,因为它在企业业务中,不是一个平台,只是计算和存储等数据连接的方式。但在企业业务中,网络非常重要,决定了用户的体验。
    顺便说一下,从另一个角度看各个场景的互联互通,可以认为是数据在终端到数据中心、数据中心和数据中心、广域网和数据中心、广域网之间的连接。如果从数据的角度理解网络的作用,就会明白全面云化是建设一个无所不在,智能可控,随需应变的网络。
    让网络成为服务,而不是成为技术,这就是华为网络全面云化给客户带来的商业价值:极致体验、敏捷创新以及无处不在的安全。
    具体关于这个战略之下的解决方案以及实施,我们将持续关注。
762 浏览

云电视和智能电视的几个区别

物联网类 志在路上 2017-03-31 11:50 发表了文章 来自相关话题

云电视是应用云计算、云存储技术的电视产品,是云设备的一种。是用户不需要单独再为自家的电视配备所有互联网功能或内容,将电视连上网络,就可以随时从外界调取自己需要的资源或信息,可以在云电视里安装使用各种即时通讯软件,在看电视的同时,进行社交、办公。




智能电视,指像智能手机一样,具有全开放式平台,搭载了操作系统,可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对彩电的功能进行扩充,并可以通过网线、无线网络来实现上网的这样一类电视的总称。





资源享用,真正的云电视是无需注册的账户,各种云端资源可以随时分享,真正的给用户带来娱乐享受,而智能电视则不能达到。云电视能统筹所有云应用,打开新的云应用,而智能电视是进入每个应用前均需要分别注册帐户、分别登录。云电视使用更方便、更快捷,资源更丰富。云电视通过云端协同计算,拓展电视本身性能,对硬件更新换代依赖低,智能电视完全依赖本地硬件,受硬件更新速度影响大、淘汰速度快。 查看全部

QQ图片20170331114855.jpg

云电视是应用云计算、云存储技术的电视产品,是云设备的一种。是用户不需要单独再为自家的电视配备所有互联网功能或内容,将电视连上网络,就可以随时从外界调取自己需要的资源或信息,可以在云电视里安装使用各种即时通讯软件,在看电视的同时,进行社交、办公。
QQ图片20170331114945.jpg

智能电视,指像智能手机一样,具有全开放式平台,搭载了操作系统,可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对彩电的功能进行扩充,并可以通过网线、无线网络来实现上网的这样一类电视的总称。

QQ图片20170331115033.jpg

资源享用,真正的云电视是无需注册的账户,各种云端资源可以随时分享,真正的给用户带来娱乐享受,而智能电视则不能达到。云电视能统筹所有云应用,打开新的云应用,而智能电视是进入每个应用前均需要分别注册帐户、分别登录。云电视使用更方便、更快捷,资源更丰富。云电视通过云端协同计算,拓展电视本身性能,对硬件更新换代依赖低,智能电视完全依赖本地硬件,受硬件更新速度影响大、淘汰速度快。