全线产品

网站数据定向采集推送业务

大数据时代,数据作为第一生产力。数据的重要性已经被越来越多的政府机构、公司、个人所熟知与接受,甚至于有过犹不及之势头。用大数据来改进、提升现有业务,找出数据能够创造的新业务机会是数据分析从业者的一致目标,但数据的采集需要耗费大量的人力、服务器、IP池和带宽等软硬件资源,迅奥凭借多年的数据采集、挖掘、分析经验和云数据中心海量的数据资源,可为政府、企业、科研等机构和个人,快速提供定向数据的采集能力和数据处理能力,缩短项目进程,帮助用户将主要的精力放在数据分析、应用和决策等层面,不受数据采集、处理等问题受限,快速创造竞争优势。
 
 

产品概况


 
针对用户指定的任意网站、网站的任意频道或者网站中的任意内容,进行定向采集并形成结构化数据进行推送,例如:电子商务网站商品、评论、交易量等数据的采集;金融类网站成交价、成交量、交易指数等数据的采集;农产品价格、走势、资讯等数据的采集。房产类网站租赁、买卖相关数据的采集等。
 
 
支持的网站类型
 
任意可公开访问的动态、静态或需登录后方可访问的网站。
 
采集周期及时效性
 
可按用户要求定制,最短可达分钟级。
 
数据时间范围
 
依据网站自身存储时间范围而定,原则上只要可以访问即可采集。
 
数据存储及推送
 
数据存储及推送规则可由用户指定,标准服务为常用数据库或全文检索库,推送方式采用标准的JAVA API 接口方式
 
服务流程
 
 

 
 
 

迅奥大数据平台既有数据


 
覆盖境内外9.3万数据源
新闻网站覆盖3000家
政务网站覆盖1000家
论坛网站覆盖 1000家
贴吧覆盖 上千个
博客网站覆盖 上百个
微博 覆盖80%的大V用户 
电子刊物 覆盖上百家
采集时间:2011年11月 至今
总数据量:超20亿条
采集规则:标题、正文、作者、发帖时间、阅读量、点赞数、转发量、URL等
更新频率:30分钟
推送规则:可按网站来源、关键词、时间范围、地域、作者、正负面等单一维度或组着维度推送
接口方式:JAVA API接口方式

 

既有数据范例