怎样提升 Spark 中排序的性能?

怎样提升 Spark 中排序的性能?

发表于2年前 | 作者: Kar Chan | 分类: 大数据云计算 | 流行热度: 211 views°

0
Cloudera和Intel的工程师们正在就提升Spark shuffle过程的可扩展性和可靠性方面展开合作。下面是该方案设计上的细节: 像MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎,和高度并行系统之间的主要区别就是对”多对多”操作的支持。作为分布式引擎,MapReduce和Spark要对分区会跨越集群的数据集合的子分片进行操作。很多操作一次只处理集中的数据,可以完全在分区内部完成。......

MySQL单表百万数据记录分页性能优化

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 219 views°

0
背景: 自己的一个网站,由于单表的数据记录高达了一百万条,造成数据访问很慢,Google分析的后台经常报告超时,尤其是页码大的页面更是慢的不行。 测试环境: 先让我们熟悉下基本的sql语句,来查看下我们将要测试表的基本信息 MySQL use infomation_schema SELECT * FROM TABLES WHERE TABLE_SCHEMA = ‘dbname’ AND TABLE_NAME = ‘product’ ......

HTTP 的长连接和短连接

发表于2年前 | 作者: Kar Chan | 分类: web技术 | 流行热度: 209 views°

0
本文总结分享网络编程中涉及的长连接、短连接概念。 一、什么是长连接 HTTP1.1规定了默认保持长连接(HTTP persistent connection ,也有翻译为持久连接),数据传输完成了保持TCP连接不断开(不发RST包、不四次握手),等待在同域名下继续用这个通道传输数据;相反的就是短连接。 HTTP首部的Connection: Keep-alive是HTTP1.0浏览器和服务器的实验性扩展,当前的HTTP1.1 RFC2616文档没有对它做说明,因......

SQL Server中的锁的简单学习

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 230 views°

0
原文出处: DB乐之者 简介 在SQL Server中,每一个查询都会找到最短路径实现自己的目标。如果数据库只接受一个连接一次只执行一个查询。那么查询当然是要多快好省的完成工作。但对于大多数数据库来说是需要同时处理多个查询的。这些查询并不会像绅士那样排队等待执行,而是会找最短的路径执行。因此,就像十字路口需要一个红绿灯那样,SQL Server也需要一个红绿灯来告诉查询:什么时候走,什么时候不可......

Oracle存在修改,不存在插入记录

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 193 views°

0
接触编程以来,在数据存储方面一直用的MS SQL。Oracle这名字对我来说是如此的熟悉,但是对其内容却很陌生,最近公司的一个项目用起了Oracle,所以也开始高调的用起了Oracle。在没有接触Oracle之前,听很多人都说Oracle的语法与MS SQL差不多,我在朋友圈里也帮着吹嘘这个观点。告诉朋友们,Oralce与MSSQL差不多,确实,貌似一看CRUD几乎没区别,但是当你慢慢深入了解Oracle的时候,你会发现这个观点有点......

优化 MySQL 中的分页

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 186 views°

0
很多应用往往只展示最新或最热门的几条记录,但为了旧记录仍然可访问,所以就需要个分页的导航栏。然而,如何通过MySQL更好的实现分页,始终是比较令人头疼的问题。虽然没有拿来就能用的解决办法,但了解数据库的底层或多或少有助于优化分页查询。 我们先从一个常用但性能很差的查询来看一看。 MySQL SELECT * FROM city ORDER BY id DESC LIMIT 0, 15 ......

Oracle的表空间、用户和用户授权

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 175 views°

0
一:Oracle表空间 1,Oracle表空间与SQL Server文件组对比 SQL Server的文件组(文件组包括若干MDF,NDF数据文件)对我们来说并不陌生,前段时间我在博客“怎样玩转千万级别的数据”提到了过表分区的概念,其实表分区说到本质上就是按一定条件把不同数据放在不同的数据文件里,这些数据文件在物理上是相对独立的,在逻辑上又是一个整体。特别强调一下,在SQL Server中,建表时是默认把所有的表都保存在PRI......

MySQL 中的两种临时表

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 204 views°

0
外部临时表 通过CREATE TEMPORARY TABLE 创建的临时表,这种临时表称为外部临时表。这种临时表只对当前用户可见,当前会话结束的时候,该临时表会自动关闭。这种临时表的命名与非临时表可以同名(同名后非临时表将对当前会话不可见,直到临时表被删除)。 内部临时表 内部临时表是一种特殊轻量级的临时表,用来进行性能优化。这种临时表会被MySQL自动创建并用来存储某些操作的中间结果。这些操作可能......

MySQL 加锁处理分析

发表于2年前 | 作者: Kar Chan | 分类: 数据库技术 | 流行热度: 371 views°

0
背景 MySQL/InnoDB的加锁分析,一直是一个比较困难的话题。我在工作过程中,经常会有同事咨询这方面的问题。同时,微博上也经常会收到MySQL锁相关的私信,让我帮助解决一些死锁的问题。本文,准备就MySQL/InnoDB的加锁问题,展开较为深入的分析与讨论,主要是介绍一种思路,运用此思路,拿到任何一条SQL语句,都能完整的分析出这条语句会加什么锁?会有什么样的使用风险?甚至是分析线上的一个死锁场景......