Databricks đánh đổ chuẩn dữ liệu lớn để chứng minh Spark là số 1

Ngày 11/10/2014 đăng bởi seo3.vdo@gmail.com

Databricks, khởi động tập trung vào thương mại hóa các khuôn khổ xử lý dữ liệu Apache Spark phổ biến , đã sử dụng Spark để đè bẹp một kỷ lục trước đó thiết lập tiêu chuẩn sử dụng Hadoop MapReduce. Công ty cho biết đó là một quan niệm sai lầm Spark đó chỉ là nhanh hơn đáng kể so với MapReduce cho bộ dữ liệu có thể phù hợp với bộ nhớ của một cụm, và thử nghiệm này chạy hoàn toàn trên đĩa giúp chứng minh rằng.

Sử dụng 206 máy và gần 6.600 nhân trên đám mây Amazon Web Services, Databricks hoàn thành Daytona GraySort kiểm tra, trong đó có việc sắp xếp 100 terabyte dữ liệu, chỉ trong 23 phút. Kỷ lục trước đó được thiết lập bởi Yahoo, trong đó sử dụng một 2.100 nút Hadoop cluster với hơn 50.000 nhân để hoàn thành các bài kiểm tra (mặc dù trên 102,5 terabyte) trong 72 phút.

Để giải quyết mối lo ngại về khả năng đầu Spark đáng tin cậy để xử lý bộ dữ liệu quy mô lớn, nhóm nghiên cứu Databricks sau đó chạy một bài kiểm tra không chính thức và hoàn thành các tiêu chuẩn này trên petabyte dữ liệu, trên 190 máy, chỉ trong vòng 4 giờ. “Chúng tôi có thể tiếp tục đi,” Databricks Giám đốc khách hàng Engagement Arsalan Tavakoli nói, nhưng lưu ý có rất ít các công ty cần phải quy mô vượt quá đó. Ông nói thêm rằng nếu có ai vẫn còn muốn chứng minh rằng Spark có thể mở rộng hơn nữa, và khối lượng công việc sản xuất, họ nên nhìn vào cụm Spark của Alibaba mà kéo dài hàng trăm petabyte.

Ali Ghodsi, người đứng đầu cơ Databricks, cho biết các loại hình hoạt động trộn thử nghiệm này liên quan đến “hóa ra là, hoạt động tiên tiến nhất đắt nhất bạn làm trong các loại hình hệ thống dữ liệu lớn.” Và mặc dù các tiêu chuẩn thường bị chỉ trích là bị giới hạn ứng dụng thực tế, ông cho biết xáo trộn là một hoạt động phổ biến trong sản xuất, trong khi tham gia hoạt động trong Spark SQL hoặc học máy tính nhất định, ví dụ.

Databricks chia sẻ thêm chi tiết về tiêu chuẩn , giá trị của nó và phương pháp luận của nó trong một bài đăng blog hôm thứ Sáu.

Kỷ lục mới so với kỷ lục cũ.  Nguồn: Databricks

Chứng minh khả năng của Spark để xử lý dữ liệu lớn trên đĩa và tài nguyên điện toán đám mây là rất quan trọng, như công ty dự kiến phần lớn doanh thu của nó đến từ các dịch vụ đám mây Databricks nó công bố vào tháng Sáu . Đó là dịch vụ, trong đó bao gồm các công cụ để xử lý công việc đang chạy Spark cũng như phân tích các kết quả, được lưu trữ trên Amazon Web Services. Cuối cùng, Ghosdi cho biết, Databricks Cloud sẽ không chỉ chạy các công việc cá nhân nhưng Spark sẽ cắm vào các ứng dụng của người sử dụng thông qua API để xử lý các nhu cầu xử lý dữ liệu của họ.

Hiện nay, “hơn một ngàn” người sử dụng đã đăng ký các dịch vụ đám mây và công ty đang trong quá trình vào trú tất cả, Tavakoli nói. Ông nói thêm rằng Databricks không thực hiện bất kỳ tiền từ chương trình chứng nhận Spark của nó, và chỉ có một số lượng tương đối nhỏ từ chương trình khuyến mại hỗ trợ tại chỗ với các đối tác như Cloudera và DataStax.

Cả hai Tavakoli và Ghosdi đã nhanh chóng chỉ ra rằng mặc dù các cộng đồng Spark không nghĩ Spark cung cấp một tập tốt hơn các công cụ với nhiều loại hình xử lý dữ liệu (công việc hàng loạt, các truy vấn SQL và xử lý dòng trong số đó), nó vẫn còn rất phù hợp với Hadoop tổng thể. Các xét nghiệm chuẩn GraySort sử dụng Hadoop Distributed File System (HDFS) là lớp lưu trữ, và Databricks Mây hỗ trợ dữ liệu được lưu trữ trong hoặc Amazon S3 hoặc HDFS (chạy trên các trường hợp AWS). Và nếu bạn đang chạy Spark tại chỗ, Ghosdi nói, tải về nó như là một phần của một phân phối Hadoop thương mại vẫn là cách tốt nhất để làm điều đó.

Bạn có thể tìm hiểu thêm về những gì là Spark và làm thế nào nó đã đến được trongnày Cấu trúc Hiện podcast cuộc phỏng vấn với nhà đồng sáng lập và Giám đốc công nghệ Databricks, Matei Zaharia, từ tháng.

Nguồn: Databricks

Hotline tư vấn miễn phí