数据为何*非*新石油数据市场失败

实时程序数据交换如何改变一切

13分钟读取 7月13日

义工

短语 "数据表示新油曾是克莱夫洪比2006年自那以来,一直被大肆鹦鹉然而,类比只在少数方面有价值(例如:和数据更广泛的经济影响 被屏蔽在少数技术金融公司之外石油数据之间的实际差分基础

最显著的是石油是一种商品质量标准化和可测量性,从不同源取油代用品(从经济角度讲,它是一种“同质良品”。无所不在并有既定代价并非最不重要的是,如果你有一桶石油,你不能简单复制产生另一桶石油-石油是一种有限资源,必须从地下拉出。

数据则多样性无限多样和无法客观测量每种事件值双方交换货物时,卖方必须定价,买方必须证明愿意支付。由数据的两个属性复杂化

向另一买家出售相同数据边际成本为零.生成数据的成本极易变异(序列基因组比取温度代价更高),但一旦存在,即代价沉没.过程向另一买家出售是简单复制行为,在所有实用目的上为零

很难确定数据值而不耗用.数据库销售线索只有产生实际销售才值钱更糟的是,完全相同的数据集值高度依赖买方(或预期使用量)。数据实际上接近书籍或度假之类“经验产品”。

数据使用不足最大, 并因此被低估价值实时程序数据交换新公司并可能对数据经济产生深远影响

数据最利用不足并因此被低估价值

为什么要关心数据经济学

划分一党和三党数据

无人反对数据的重要性但即使描述数据资产数据可能是最未充分利用品之一,并因此被低估价值

多数企业思考数据时 思考数据时自定义.第一党数据(1PD)通常从网站、CRM/ERP系统、客户通信等收集约第一党数据集比其他数据集更值钱:Google搜索小溪并点击历史

图片编写者

显而易见的是,第三方数据数目(3PD)的存在,即数据非直接拥有者,数级量大于1PD多数人不知道 3PD对企业的价值举个例子来说明这一点

检测邮箱垃圾邮件

检测邮件垃圾邮件最能预测信号是什么最常见的答案包括:打字语法或引用特定关键字像v1agra.略优解答发件人是否为联系人非垃圾邮件寄出者比寄出者有效多,

假设检测邮件垃圾邮件中最重要的信号 其实是邮件垃圾邮件时代发送者域.曾表示这似乎直觉性:spamers常注册新域名,这些域名在短时间通知后被邮箱提供商阻塞

为何大多数人不想到答案发件人域年限不包含单方数据集, 内含寄件人和接收人邮件、主体和邮件体等内容所有知道域名的人 都会告诉你们 信息不单易获取 而且也免费取域名,转到域注册员处,并查找它注册的时间(例如:gmail.com于1995年8月13日注册

事实证明,你拥有的数据(1PD)如果加增对您可能更有价值数据他人所有者

图片编写者

从邮件垃圾邮件到量化交易

推断出只要用发件人域代法扩充数据集就能更好地检测邮件垃圾邮件,你可以想象有无限方法可以应用相同原理下方简单示例从地址查找数据(至少在美国)。

图片编写者

当然,这不是新点子缓冲基金使用替代数据数十年Rentech系统第一批公司使用替代数据如卫星图像、网络抓取和其他创用数据集,使它们在交易中拥有优势UBS使用卫星图像监听大零售商停车场并连接汽车流量与季度收入, 允许更精确预测收入

或可猜到这是向何处发展有超过300k数据提供单在美国 可能数十亿数据集其中许多都可能给你竞争优势 不论你想预测或分析唯一极限就是你的创造力

外部数据使用(主体)值

外部数据对量化贸易公司的价值即时而重要,而其他行业执行者则慢步实现相同目标思想实验帮助:考虑企业最重要的预测任务亚马逊最有可能购买哪种产品对石油勘探公司来说,它可能在哪里发现下一个油库对杂货链来说 可能是对特定产品的需求

下一个,想象你有一个魔术拨号 你可以转机提高性能 预测任务杂货链丢失约10%的食物变质.光能预测需求更好,就能改善供应链并减少损耗开约20%总比值下降百分点损耗会提高毛差0.8pp对艾伯森斯公司来说 预测需求每提高百分点 估计每年值64000万替代数据可帮助实现这一点

保存杂货链数亿美元的数据 对商业房地产开发者来说可能值更多数据市场无法提取值物价歧视因为他们离实际业务应用相去甚远取通用价库 与它最终使用无关

外部数据终于成为估计5B市场生长时间点50%全年交易数据市场另1B市场.仅代表潜在市场规模的一小部分,原因至少有二:(1) 虽然每个公司都应该能从3PD获益唯一分析最成熟公司了解如何利用3PD提高他们的优势敢试者因老化发现并购买3PD过程减慢快速绕行广告购买过程来说明这一点

编程广告教我们如何改善数据经济

进化广告购买过程

不久前,2014年,程序化广告表示不到半数字广告花.人怎么买广告他们告诉代理商想接触什么样的观众代理商查看同业出版商和他们的“目录”(magazine页面、广告牌、电视广告插槽.),并拟出计划向何处展开运动以满足这些需求商谈后公司和代理最终签定合同开发、评审和批准插入指令提交最终广告赛跑数月后公司会得到一份报告说明代理公司的想法去向(基于小样本数据集)。

Google推广程序化广告Google创建自有ad交换机用户进行搜索或访问网站时,它实时拍卖(是的,加载网页所需时间内),所有广告商互投并选择出价最高者第二高显示他们的广告

正像这样,广告购买从数月的磨难 涉及多人和极少透明化, 转而实时交易 两者都定价(通过拍卖)安卓即时测量感知(有时甚至转换)速度、流动性和透明度水平导致在线广告市场大爆炸,程序化广告现在表示近90%数字广告预算.

古代数据购买过程

事实显示,今天购买数据比20年前购买广告更痛苦

图片编写者

发现器 :第一,你需要了解 3PD对你极有价值记得邮箱垃圾邮件实例下一步,你需要创造力思考所有3PD卫星停机坪图片预测零售商收入并搜索你认为你需要的东西将发现大多数数据市场 基本只是免费文本搜索 而不是描述下一步你将不得不查看数据模式 看它是否包含你所寻找的东西 以及你需要的粒子性时时需要脚流量逐分钟比仅小时强,并有正确覆盖度(例如:右日期范围或地理区域)

采购:一旦你发现你认为你需要的东西,你就必须想出如何获取数据难怪它不总是 简单点购事件与数据提供商对话,学习数据许可(甚至能将数据用于预期目的吗? ),商谈条件并签署合同数次重复该过程 3PD来自不同的提供商 都拥有不同的合同、条件和许可等待接收邮箱软盘数据

集成性 :终于你得到了你想要的数据等待数周后数据工程队加入1PD, 学习它并不如期望有效时间和钱都浪费了 再也不试更令人痛苦的是,你发现3PD确实能给你有意义的改进,你继续制作预测模型,只是为了发现你每小时需要新数据,而你使用的数据源之一每周更新一次。万一你再试一次,你现在就知道,除了检查粒度基于schema外,你必须考虑刷新率

进程可随处取数月到一年以上.以图造快马咨询公司建议解决办法是雇用全组数据并创建与数据聚合器的关系

数据经济需要实时程序数据交换

原因我引用程序化广告购买实例 是因为我坚信数据经济可以以同样方式演化 从而产生相似的深远经济影响

发现采购考虑数据交换集合所有数据提供者(“目录”)并理顺许可,以便从程序上便利事务处理数据消费者会提供iPD并表达他们所感兴趣的任务(例如预测需求)和对每件改进品的价值(记得需求预测提高值一分对艾伯特森斯值64000元?数据交换自动识别3PD为这项任务提供可衡量的改进,运行实时拍卖基于数据消费者预算,并最优选择3PD子集满足需求接近实际任务(和关联值)解决现有数据市场发现和值提取问题,数据市场必须视数据为商品而非经验优

持续集成改善因为最值钱预测任务性质持续性需要定期预测需求,而不仅仅是一次,交换会成为重复交易中心,随着新数据提供者和消费者进入生态圈而提供更多值运行拍卖时每次执行预测任务(而不只是决定购买数据时一次)将确保新数据提供者立即实现分发,数据消费者将从最新数据盘点和物价发现中受益。正像广告购买从离线人工演化一样,数据交易将变成实时程序化和最重要的可测量性

图片编写者

实时程序数据交换能为市场所有参与者提供经济奖励

  • 数据提供者和消费者都从提高可发现性中受益数据市场有一个长尾问题:数据数量大多多,数据种类多,几乎不可能使用现有方法发现任何任务/应用最相关数据
  • 标准化条件和许可程序化交易将提高数据经济速度和流动性,消除采购过程摩擦并开放给更多对象结果,总体市场将大幅扩展。
  • 依据对每个数据消费者的主观值在拍卖中定价后,如果多数据提供商拥有可比数据,消费者会得到更好的交易,而提供商可因消费者对同类数据的不同评价而产生价格差异。
  • 汇总数据用户对平台的需求将为数据提供者提供宝贵的洞见。数据交换考虑到需求方所有任务并愿意支付,可以推算出提供方缺哪些数据,帮助优先获取和创建数据记号合成数据提供者

硬问题需要解决

除解决可发现性和数据定价问题外,与Google广告工作相似的是,程序数据交换也需要解决许可和交付问题,这与Spotife为音乐做的工作不同。但如果没有数大难解题 就不会像努力那样有趣和有意义

商业

  • 数据许可比较新从我所知道的数据认证没有太多标准化每一数据提供方都有自身特殊许可口味,与他人互不相容为促进交换,需要精简许可程序
  • 数据市场可能害怕解析.数据生态环境复杂对数据提供者来说,这将是全新分发通道他们痛苦地意识到可发现性问题,这种交换可能向数以百万计的新消费者开放市场,否则这些新消费者就不会考虑替代数据数据市场和聚合器是记录标签等效物,可能想阻塞数据提供者直接访问程序数据交换
  • 向老产业引入新定价模型很难.程序交换变现机制将大大扩展供求方,定价机制将优化值捕捉程序数据交换对数据提供者总而言之将取胜

技术类

  • 语义型检测卡住过去为了自动识别哪些数据集可合并,你首先需要理解数据语义类型E.g.东西只是一个数,拉链码或货币多语义类型检测基于启发式,但方法更多现代
  • 无法粗力数据发现结果证明有很多数据详解寻找3PD最有利于你的任务 的天真方法就是简单“试出”所有数据 识别提供最值的幸好信息理论和数据汇总等领域有现代突破,使问题易于处理。
  • 合并数据难一旦知道语义类型并有机制识别3PD提供有意义的收益后,你就必须以有趣的方式加入1PD和3PD天气数据可能随天气站的经度和纬度而来 与机场不匹配或步流量数据逐小时传来,你需要弄清楚你是否想使用平均值、最大值或nth百分位
  • 数据安全数据提供者不喜欢放弃数据(因为它很容易复制)。However, there are techniques (like联想学习允许放大预测同时保留数据存取和隐私

实时程序数据交换将产生深远影响,值得庆幸的是,AI最近的进展为上述挑战提供了解决办法。期望未来数据比商品好经验

文章表达的意见归我个人所有,

义工

义工

克莱门斯创业产品头目 花上8+年 带AI到开发商和企业

Baidu