精彩博客

KTV歌曲推荐-深入浅出协同过滤

前言 推荐算法有很多,最基础的就是协同过滤,前段时间对KTV数据比较感兴趣,大家去唱歌也只是唱熟悉的歌,那是不是有办法给大家一些建议拓展一下唱歌的宽度呢。KTV推荐可能要考虑很多因素,...

11/14 12:05
735
1
马蜂窝推荐排序算法模型是如何实现快速迭代的

(马蜂窝技术原创文章,微信ID:mfwtech) Part.1马蜂窝推荐系统架构 马蜂窝推荐系统主要由召回(Match)、排序(Rank)、重排序(Rerank)几个部分组成,整体架构图如下: 在召回阶段,系统...

11/08 16:19
386
0
Spark Core 解析:RDD

引言 Spark Core是Spark的核心部分,是Spark SQL,Spark Streaming,Spark MLlib等等其他模块的基础, Spark Core提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分...

10/28 20:56
42
0
kylin集群解决无法加载到RowKeyWritable类

问题:cdh集成kylin之后,对kylin的cube进行build操作的时候,在Convert Cuboid Data to HFile步骤报错:Class org.apache.kylin.storage.hbase.steps.RowKeyWritable not found 问题分析:加...

10/28 14:40
179
0
在LINQPad中使用Ignite.NET

LINQPad是进行.NET开发的一款优秀工具,非常有利于Ignite.NET API的快速入门。 入门 下载LINQPad:linqpad.net/Download.aspx,注意要选择64位操作系统的AnyCPU版本; 安装Ignite.NET的NuGet...

10/16 23:15
1K
0
数据模型之版本管理

转载本文需注明出处:微信公众号EAWorld,违者必究。 引言: 主数据是描述企业核心数据、业务对象,当记录到数据库中时,需要对其进行维护,确保其时效性、准确性。数据模型管理是重要的环节...

10/09 10:35
370
1
马蜂窝数据仓库的架构、模型与应用实践

(马蜂窝技术原创内容,公众号ID:mfwtech) 一、马蜂窝数据仓库与数据中台 最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。 数据中台到底是什么...

10/08 11:25
1K
1
Scala implicit 隐式转换安全驾驶指南

这篇短文将结合实例对隐式转换的各种场景进行解释和总结,希望看完的人能够安全驶过隐式转换这个大坑。 隐式转换函数 隐式转换函数有两种作用场景。 1 转换为期望类型:就是指一旦编译器看到...

09/29 23:03
980
2
GNE——准确率高达99.9%的新闻类网页通用抽取器

项目起源 开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》) 这篇论文中描述的算法看起来简洁清晰,并且符合逻...

09/27 10:05
535
0
在Ignite中自定义身份认证安全插件

Ignite集群搭建完成之后,应用就可以接入集群进行各种操作了,但是默认的集群,没有安全保护机制,任何应用、支持JDBC的客户端,只要知道集群节点的IP地址,都可以接入集群,这造成了一定的安...

09/18 12:49
487
0
拆解大数据总线平台DBus的系统架构

拓展阅读: 如何基于日志,同步实现数据的一致性和实时抽取? 快速部署DBus体验实时数据流计算 Dbus所支持两类数据源的实现原理与架构拆解。 大体来说,Dbus支持两类数据源: RDBMS数据源 日志...

09/12 10:26
2.2K
2
海量数据搜索---demo展示百度、谷歌搜索引擎的实现

在我们平常的生活工作中,百度、谷歌这些搜索网站已经成为了我们受教解惑的学校,俗话说得好,“有问题找度娘”。那么百度是如何在海量数据中找到自己需要的数据呢?为什么它搜索的速度如此之...

09/05 14:07
2.5K
1
云端数据仓库的模式选型与建设

数据,对一个企业的重要性不言而喻,如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色,构建并正确...

08/29 10:24
2.6K
6
Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?

前言 如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的。最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark、Apache Drill、Apache Flin...

08/11 22:14
3.4K
5
hdfs Balancer剖析

balance过程就是从存储使用率超出集群平均使用率的datanode上将超出的block移动到低于集群平均使用率的datanode上,最终满足平衡标准。 over-utilized------>under-utilized over-utilized--...

08/11 09:06
405
0
关系型数据库全表扫描分片详解

导读:数据总线(DBus)专注于数据的实时采集与实时分发,可以对IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充...

08/02 10:28
2.3K
1
基于可视化配置的日志结构化转换实现

导读:数据总线DBus的总体架构中主要包括六大模块,分别是:日志抓取模块、增量转换模块、全量抽取程序、日志算子处理模块、心跳监控模块、Web管理模块。六大模块各自的功能相互连接,构成D...

07/31 10:38
1K
2
使用EMR-Kafka Connect进行数据迁移

1.背景 流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。 Kafka Connect是一种可扩展的、可...

07/30 10:51
309
0
Apache Sentry实战之旅(二)—— Sentry客户端使用

Apache Sentry虽然可以将HDFS、Hive与Impala三个组件的权限认证统一,但是只能按照给组授予角色的方式来进行授权,不能直接授权给组中的用户,显得不太灵活。有时候为了兼容已有大数据平台的...

07/27 22:06
598
0
spark 通过 jdbc 写入 clickhouse 需要注意的点

最近在用 spark 通过 jdbc 写入 clickhouse 的时候,遇到一些坑,这里分享下,造福人民群众。 一个 WARN WARN JdbcUtils: Requested isolation level 1, but transactions are unsupported 这...

07/27 20:05
1K
0

没有更多内容

加载失败,请刷新页面

Scala implicit 隐式转换安全驾驶指南

这篇短文将结合实例对隐式转换的各种场景进行解释和总结,希望看完的人能够安全驶过隐式转换这个大坑。 隐式转换函数 隐式转换函数有两种作用场景。 1 转换为期望类型:就是指一旦编译器看到...

09/29 23:03
980
2
云端数据仓库的模式选型与建设

数据,对一个企业的重要性不言而喻,如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色,构建并正确...

08/29 10:24
2.6K
6
Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?

前言 如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的。最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark、Apache Drill、Apache Flin...

08/11 22:14
3.4K
5
关系型数据库全表扫描分片详解

导读:数据总线(DBus)专注于数据的实时采集与实时分发,可以对IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充...

08/02 10:28
2.3K
1
谈谈机器学习模型的可解释性

随着AI和机器学习的发展,越来越多的决策会交给自动化的机器学习算法来做。但是当我们把一些非常重要的决定交给机器的时候,我们真的放心么?当波音飞机忽略驾驶员的指令,决定义无反顾的冲向...

07/02 03:01
1K
8
再谈使用开源软件搭建数据分析平台

三年前,我写了这篇博客使用开源软件快速搭建数据分析平台, 当时收到了许多的反馈,有50个点赞和300+的收藏。到现在我还能收到一些关于dataplay2的问题。在过去的三年,开源社区和新技术的发...

04/20 00:54
3.4K
6
现代IM系统中的消息系统架构 - 架构篇

前言 IM全称是『Instant Messaging』,中文名是即时通讯。在这个高度信息化的移动互联网时代,生活中IM类产品已经成为必备品,比较有名的如钉钉、微信、QQ等以IM为核心功能的产品。当然目前微...

04/16 14:34
2.8K
8
Apache Ignite上的TensorFlow

任何深度学习都是从数据开始的,这是关键点。没有数据,就无法训练模型,也无法评估模型质量,更无法做出预测,因此,数据源非常重要。在做研究、构建新的神经网络架构、以及做实验时,会习惯...

03/20 12:06
1K
1
Kafka连接器深度解读之JDBC源连接器

在现实业务中,Kafka经常会遇到的一个集成场景就是,从数据库获取数据,因为关系数据库是一个非常丰富的事件源。数据库中的现有数据以及对该数据的任何更改都可以流式传输到Kafka主题中,在这...

03/12 14:02
2.2K
5
自动机器学习简述(AutoML)

为什么需要自动机器学习 对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响。随着深度学习的流行,工程师需要选择相应的神经网络架构,训练过...

02/19 02:46
3.7K
5
缓存伪共享问题以及解决方案缓存行填充

缓存伪共享 共享对象存在同一个缓存中,由于MESI协议,一个对象中一些不需要改变的属性因为其他改变的属性,导致整个对象的缓存进入到M被修改状态。 MESI缓存一致性协议:https://blog.csdn...

01/29 16:52
1K
2
百亿次的锤炼 - 地狱模式的分布式系统测试

本文以近期开源的Dragonboat多组Raft库为例,介绍Dragonboat这样一个典型分布式系统是如何做测试的。Dragonboat以Go实现,能在普通硬件上提供每秒1000万次以上的强一致读写,它是目前github....

01/18 18:50
2.6K
6
为什么说Laxcus颠覆了我的大数据使用体验

切入正题前,先做个自我介绍。 本人是从业三年的大数据小码农一枚,在帝都一家有点名气的广告公司工作,同时兼着大数据管理员的职责。 平时主要的工作是配合业务部门,做各种广告大数据计算分...

2018/12/16 17:02
1K
5
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

【背景介绍】 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使...

2018/11/20 09:42
8.6K
19
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

2018/10/05 03:00
7.2K
5
利用TICK搭建Docker容器可视化监控中心

概述 性能监控是容器服务必不可少的基础设施,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息。在我的前文《Doc...

2018/07/05 07:08
2.9K
2
玩转 Elasticsearch 的 SQL 功能

最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修...

2018/06/28 09:25
9K
11
在浏览器中进行深度学习:TensorFlow.js (六)构建一个卷积网络 Convolutional Network

在上一篇中,我们介绍了了用TensorflowJS构建一个神经网络,然后用该模型来进行手写MINST数据的识别。和之前的基本模型比起来,模型的准确率上升的似乎不是很大。(在我的例子中,验证部分比...

2018/05/15 07:02
2.3K
4
Docker容器可视化监控中心搭建

概述 一个宿主机上可以运行多个容器化应用,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息,而且这些信息随时间...

2018/04/17 07:16
3.7K
5
Apache Ignite事务架构:Ignite持久化的事务处理

在本系列[上一篇文章](https://my.oschina.net/liyuj/blog/1791800)中,介绍了故障和恢复,下面是本系列剩下的文章将要讨论的主题: - Ignite持久化的事务处理(WAL、检查点及其他) - 第三方...

2018/04/11 14:12
1K
3

没有更多内容

加载失败,请刷新页面

Valve announced a beta of Steam Remote Play Together

Last month, Valve announced a beta of Steam Remote Play Together, which let you play local multiplayer games over the internet with your friends across Windows, Linux, and macOS...

34分钟前
4
0
想要高效地分析决策?快收下这份企业BI避坑指南

有些企业BI软件看着什么都好,但用起来就是不顺手,想要分析的分析不出来,想要的呈现效果没达到。不对呀,不是号称是好用、实用的企业BI吗,为什么到我这就不灵了?你这是一不小心掉坑里了,...

昨天 16:17
8
0
ETL调度系统及常见工具对比:azkaban、oozie、数栖云

最近遇到了很多正在研究ETL及其工具的同学向我们抱怨:同样都在用 Kettle ,起点明明没差异,但为什么别人ETL做的那么快那么好,自己却不断掉坑? 其实,类似于像 Kettle 这样开源的工具,已...

昨天 14:46
18
0
直击JDD | 徐雷:智能化零售,以技术为驱动力的突破路径

“京东零售已经成为一家典型的以技术驱动为主的零售公司”。在11月19日召开的 2019京东全球科技探索者大会上,京东零售集团CEO徐雷首次阐释了京东零售的智能化零售路径。 徐雷指出,零售行业...

前天 17:40
7
0
直击JDD | 陈生强:京东数科的底层是数字化操作系统

11月19日,由京东集团主办的JDD-2019京东全球科技探索者大会在京开幕,京东数字科技集团CEO陈生强作了题为“以科技为美,为价值而生”的主旨发言,再论“数字科技”,向与会嘉宾分享了京东数...

前天 17:38
9
0
Helm 3 发布 | 云原生生态周报 Vol. 27

作者 | 墨封、元毅、冬岛、敖小剑、衷源 业界要闻 1.Helm 3 发布 美国时间 11 月 13 日,Helm 团队发布 Helm 3 第一个稳定版本。Helm 3 以 Helm 2 的核心特性为基础,改进了 chart 存储库、版...

前天 16:27
10
0
带你上手一款下载超 10 万次的 IDEA 插件

作者 | 倪超(银时) 阿里云开发者工具产品专家 本文整理自 11 月 7 日社群分享,每月 2 场高质量分享,点击加入社群。 导读:Cloud Toolkit 是本地 IDE 插件,帮助开发者更高效地开发、测试...

前天 16:21
8
0
好程序员大数据教程分享大数据之流程控制

好程序员大数据教程分享大数据之流程控制,程序在运行的时候, 对代码执行的先后顺序, 称作程序的执行结构. 在Java中, 程序的执行结构分为三种: 顺序结构: 代码从上往下逐行执行, 是程序执行的...

11/19 17:01
9
0
好程序员大数据学习路线分享大数据之基础语法

1.2.1 计算机理论介绍 1.2.2 编程基础--进制分类、进制转换 进制 就是进位制。指的是我们来表示一个数字的时候进位的制度。 进制分类 计算机中,常用的进制有以下几种: | 进制 | 描述 | 示例...

11/19 16:43
8
0
dubbo-go 的开发、设计与功能介绍

dubbo-go 的前世今生 dubbo-go 是目前 Dubbo 多语言生态最火热的项目。dubbo-go 最早的版本应该要追溯到 2016 年,由社区于雨同学编写 dubbo-go 的初版。当时很多东西没有现成的轮子,如 Go...

11/19 15:47
17
0
数据一致性检测的应用场景与最佳实践

随着业务规模的扩张,企业系统变得越来越复杂,在这种复杂的分布式系统架构下,难免会出现远程调用失败,消息发送失败,并发 bug 等等问题,这些问题最终会导致系统间的数据不一致,导致用户...

11/19 15:33
12
0
搭建企业BI,就真能逃出管理决策困境了吗?

当代企业面临怎样的管理决策困境?逃出管理决策困境真的只能依靠企业BI了吗?逃出管理决策困境的前提是及早发现问题,了解问题的前因后果和影响程度,这样才能在不影响其他正常工作的前提下快...

11/19 11:01
8
0
大数据HDFS的相关运维题

1.在 HDFS 文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,使用相关命令查看文件系统中 1daoyun/file 目录的文件列表信息...

11/19 09:41
24
0
MySQL/RDS数据如何同步到MaxCompute之实践讲解

实验方案概述 本实验是对RDS同步数据到MaxCompute的一个初步讲解。当企业需要利用MaxCompute进行数据开发时,如果数据不在MaxCompute而在RDS中,首先需要将RDS中的数据同步到MaxCompute。本实...

11/18 15:15
8
0
宜信卢山巍:数据中台的“自动化数据治理”时代已来

中台,我理解是能力的下沉,数据处理能力下沉为加工平台,数据处理结果下沉为数据资产。那么数据治理能否下沉?可以下沉出什么东西? ——宜信数据中台负责人 卢山巍 本文来源:宜信数据中台...

11/18 14:31
1K
0
BI软件能让浏览者自行决定分析内容和方向?

即便是面对同一张BI报表,总经理、部门经理所关注的内容和方向必然不同,但同一张分析报表所能展现的内容是相对固定并且有限的,那BI软件能不能做到让浏览者自行决定分析内容和方向?拥有多维...

11/18 11:34
19
0
Flink入门(一)——Apache Flink介绍

Apache Flink是什么? 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。随着雅虎对hadoop的...

11/18 10:20
17
0
手绘风格的数据可视化实现 Sketchify

多少年以前,我在一家BI企业负责数据可视化产品的开发,作为产品创新的需要,一篇论文吸引了我的目光,《Sketchy Rendering for Information Visualization》(该论文发表于2013年) 于是我带...

11/16 17:11
33
0
Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运...

11/16 13:31
23
0
RPC服务治理框架实战(一) - 手写RPC

0 相关源码 1 从使用者考虑 用,户使用RPC框架开发过程时需要做什么? 定义过程接口 服务端实现过程 客户端使用生成的stub代理对象 2 设计客户端 客户端生成过程接口的代理对象 设计客户端代理...

11/16 12:06
11
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部
天津时时彩