10 điểm bạn cần căn nhắc khi sử dụng giải pháp Big Data trên đám mây

Ngày 16/07/2014 đăng bởi seo3.vdo@gmail.com

 Giải pháp Big Data trên đám mây là gì?

Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh và mạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được dùng bởi các doanh nghiệp lớn và sau đó được chấp thuận dùng bởi các doanh nghiệp vừa và nhỏ. Big Data hình như là một tiến trình y hệt ra đời sau.

Khi Big Data phát triển trong thế giới thực, nó được ứng dụng cho các thành phần dữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do các chuẩn được thực hiện bằng các phương tiện khai thác Big Data theo những cách đặc biệt dành riêng cho cấu trúc Big Data.

Thậm chí, chúng ta đều đồng ý rằng trong mai sau, dữ liệu sẽ càng ngày càng nhiều hơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào các doanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi mai sau của Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiền đề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cân nhắc để tuyển lựa dịch vụ.

Việc cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vào Big Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càng xác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thời gian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năng thiết lập tăng tốc.

1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳ

Đây là chủ chốt của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường được đánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫn giữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệu quan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thể tiêu thụ nhiều loại dữ liệu khác nhau.

Ngày nay, các công ty có thể bị ngập tràn nguồn cấp dữ liệu từ tần số RFID (Radio Frequency Identification – nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuột trang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời kì để làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đó có thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽ được tróc nã và truy cập trong tương lai.

Không cần phải biết tiềm năng dùng trong mai sau của dữ liệu mà Hadoop cung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặt bước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoop phân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạn chế dùng trong tương lai.

2. Hình thức tầm tự do và phân tích dữ liệu dòng lịch sử và thời kì thực

Lưu trữ dữ liệu chỉ là một phần của con đường đến đích. Các thông tin cần phải tương đối dễ dàng để gọi về. Cách nhanh nhất để làm điều đó là cung cấp khả năng kiêng kị mau chóng (như trong việc thi hành, không phải thời kì đáp ứng). Lùng một bộ công cụ cho phép kiếm văn bản của dữ liệu phi cấu trúc. Apache Lucene (xem Tài nguyên) là một phương tiện phổ biến mà cung cấp chỉ mục văn bản và kiêng kị trong một môi trường dữ liệu lớn.

Việc có một phản hồi đúng trên màn hình làm người ta ưng, cảm giác giống như rằng vớ mọi thứ đang được lưu trữ đúng cách và có thể truy cập được. Các bước quản trị của việc này là để lập chỉ mục nội dung của dữ liệu được lưu trữ trong các nút phân bổ. Truy hỏi ngần sau đó truy cập các chỉ mục trên các nút phân bổ song song để cung cấp một phản hồi nhanh hơn.

3. Tự động khám phá tri thức từ dữ liệu

Đây là một trong những lý do kinh dinh sắp tới của Big Data. Cũng như việc chuyển tất tật các dữ liệu bán cấu trúc thành một cơ sở dữ liệu quan hệ có thể không hiệu quả, việc thực hành lóng thủ công và thưa thủ công cũng không hiệu quả gì cho công việc phân tách.

Vỡ hoang dữ liệu và dụng cụ phân tách dự báo được mau chóng chuyển đổi để có khả năng dùng Big Data như một nguồn dữ liệu phục vụ cho phân tách và trở nên một cơ sở dữ liệu dành cho việc giám sát liên tục sự thay đổi. Thảy các dụng cụ khai thác dữ liệu điều tuân theo quy trình này. Một số xác định mục đích của việc phân tách, xem xét các dữ liệu, và sau đó phát triển mô hình thống kê cung cấp các hiểu biết thấu suốt hoặc đưa ra các dự đoán. Các mô hình thống kê đó cần phải được khai triển trong môi trường Big Data để thực hiện đánh giá liên tục. Phần này nên được tự động hóa.

4. Giám sát dữ liệu của bạn và cung cấp các cảnh báo theo thời kì thực

Tìm kiếm một dụng cụ để giám sát các dữ liệu trong Big Data. Dụng cụ này tồn tại để tạo ra các truy hỏi được xử lý liên tiếp, tìm các tiêu chí cần có.

Tôi chẳng thể liệt kê tuốt những ứng dụng có thể giám sát dữ liệu đi vào Hadoop theo thời kì thực. Giả định rằng hồ hết các dữ liệu ràng buộc là không có cấu trúc và không dành cho một cơ sở dữ liệu quan hệ nào, giám sát theo thời gian thực có nhẽ là cách mà một phần tử dữ liệu được kiểm tra chém đẹp nhất.

Ví dụ, bạn có thể thiết lập một cảnh báo khi các chip RFID trong một mặt hàng thực phẩm đông lạnh được lưu trữ trong một khu vực không phải đông lạnh. Đó là cảnh báo có thể đi trực tiếp vào thiết bị di động được sử dụng trong các kho, ngăn ngừa hư thực phẩm.

Những chuyển động của khách hàng trong một cửa hàng cũng có thể được theo dõi và các quảng cáo sẽ được nhằm vào xác thực vị trí mà khách hàng đang đứng trước một mặt hàng cụ thể, sẽ được phát trên màn hình tại vị trí chiến lược. (Điều này còn xa vời và có thể hơi giống “Big Brother” một tẹo, nhưng rất khả thi.)

5. Cung cấp năng lực phân tích và vắng ad hoc

Giống như trong khai khoáng dữ liệu tự động và khám phá tri thức, các nhà phân tích cũng cần truy cập để lấy và tóm lược thông tin từ Big Data trong môi trường đám mây. Bảng danh sách các nhà cung cấp mà phương tiện của họ phục vụ cho việc vắng từ Big Data, tuồng như mỗi ngày lại dài ra thêm.

Một số dụng cụ sử dụng Apache Hive, và HQL (Hive Query Language – ngôn ngữ truy nã Hive; xem Tài nguyên). Các câu lệnh của HQL cũng rưa rứa như các câu lệnh của SQL (Structured Query Language – tiếng nói tầm nã có cấu trúc) và nhiều phương tiện mà cung cấp các kiểu mỏng quen thuộc từ Big Data cũng sử dụng HQL và giao diện Hive để chạy truy tìm xuyên suốt MapReduce.

Apache Pig là một dự án mã nguồn mở khác dành cho việc mỏng và thao tác trên Big Data. Cú pháp của nó không giống với SQL cho lắm nhưng lại rất giống với một tiếng nói kịch bản (scripting). Nó cũng vận hành xuyên suốt quá trình xử lí MapReduce để tiện cho việc xử lí song song.

Các nhà cung cấp Big Data đám mây nên hài lòng cả hai dạng câu lệnh HQL và Pig đến từ các đề nghị bên ngoài. Bằng cách đó, kho lưu trữ Big Data có thể được truy tìm bởi những người dùng phương tiện theo cách tuyển lựa của riêng họ, thậm chí dùng cả những phương tiện mà trước đó chưa hề được tạo ra.

6. Cung cấp khả năng xây dựng mau chóng các khung nhìn và bảng giám sát tùy chỉnh

Giống như sự phát triển các dự án thu thập tin kinh doanh truyền thống, khi mọi người có thể thực hiện truy trên Big Data và xuất ra các ít, họ muốn tự động hóa chức năng đó và tạo ra một bảng giám sát với các hình ảnh đẹp mắt để tiện việc xem đi xem lại nhiều lần.

Trừ khi người dùng tự viết ra các câu lệnh Hive và chỉ dùng cấu trúc Hive, nhưng hầu hết các dụng cụ đều có một số khả năng để tạo ra các khung hiển thị dưới dạng bảng giám sát từ những câu lệnh tầm nã của chúng. Vẫn còn hơi sớm để triển khai Big Data cho việc trích dẫn ra các Ví dụ về bảng giám sát. Có một dự báo, mà dựa trên lịch sử trong ngành thu thập tin cẩn kinh doanh, cho rằng, các bảng giám sát sẽ trở thành một dụng cụ biểu lộ nội bộ rất quan trọng dành cho các Big Data tóm lược. Và theo dòng lịch sử của Business Intelligence, việc có được các bảng giám sát Big Data tốt sẽ rất quan trọng cho việc lấy và duy trì các hỗ trợ thi hành.

7. Quy mô có hiệu quả đối với bất kỳ khối lượng dữ liệu dùng phần cứng thương nghiệp

Khi dùng một dịch vụ dữ liệu lớn đám mây, đây là một ý kiến lý thuyết hơn là thực tế. Nó còn tùy vào quyết định của nhà cung cấp dịch vụ để có được, sự cung cấp, và khai triển phần cứng vào đúng chỗ mà dữ liệu thường trú. Việc chọn lựa phần cứng không thành vấn đề.

Thật hàm ơn khi các hóa đơn tính sổ Big Data chỉ đến từ việc thiết kế để dùng phần cứng thương nghiệp. Có các nút kết liên kiên cố trong nền kiến trúc nơi mà một máy chủ “chất lượng cao” làm việc tốt. Tuy nhiên, phần đông các nút (những nút lưu trữ dữ liệu) trong một kiến trúc dữ liệu lớn có thể nằm ở chỗ phần cứng “kém chất lượng hơn”.

8. Cung cấp sự kiểm soát truy cập và an ninh dựa trên vai trò phân chia

Khi dữ liệu phi cấu trúc tồn tại trong một thế giới dữ liệu quan hệ, sự phức tạp của việc truy xuất dữ liệu có thể cản trở mọi người trong việc lấy ra dữ liệu. Các dụng cụ mỏng thông thường sẽ không giúp ích. Việc chuyển đổi thành Big Data là một bước tích cực hướng về việc làm cho sự phức tạp trở thành dễ dàng hơn để truy xuất. Nhưng không may, các thiết lập an ninh giống như vậy thường không chuyển đổi các hệ thống quan hệ hiện hữu thành dạng Big Data.

Có được một sự an ninh tốt sẽ trở thành quan yếu hơn nữa khi mà Big Data càng ngày càng được sử dụng nhiều hơn. Ban sơ, việc an ninh có thể thoải mái vì không ai biết làm gì với Big Data (tôi đang bị mỉa mai đấy!). Khi các công ty phát triển thêm nhiều trình phân tích sử dụng dữ liệu trong Big Data. Các thành tựu cần được bảo vệ, cụ thể là các mỏng và các bảng giám sát, cũng na ná cho cách làm thế nào để bảo vệ các hệ thống quan hệ.

Khởi đầu với Big Data đám mây, cần để ý đến nhu cầu vận dụng an ninh vào một số mục đích nào đó, cụ thể là cho môi trường giám sát và báo cáo. Để khởi đầu, tuy nhiên, tôi khuyên là hãy để các trình phân tích chạy tự do. Đó là cách tốt nhất để phát triển nên sự hiểu biết mới.

9. Hỗ trợ multi-tenancy (đa thuê mướn) và triển khai linh hoạt

Việc dùng điện toán đám mây đã mang lại khái niệm về multi-tenancy — rõ ràng, không phải là một xem xét trên tiền đề môi trường Big Data.

Nhiều người lo âu về việc đặt dữ liệu quan trọng trong một môi trường đám mây. Điều quan yếu là các đám mây cung cấp cho việc triển khai với hoài thấp và chóng vánh cần thiết để bắt đầu dự án Big Data. Đúng vậy, vì nhà cung cấp điện toán đám mây sẽ đặt các dữ liệu trong một kiến trúc mà tài nguyên phần cứng được san sẻ, phí thì thấp hơn đáng kể.

Thảy mọi thứ đều như nhau , điều này thật tốt khi chỉ có dữ liệu của bạn trên chính máy chủ của bạn với một người nào đó quản lý hết thảy việc cài đặt. Tuy vậy, đó không phải là một mô hình kinh doanh hiệu quả khi nhu cầu Big Data đôi lúc bị gián đoạn. Kết quả là tốn phí hơn vì các công ty sẽ phải chi trả cho nhiều thời giờ vô ích, đặc biệt là trong các dự án đầu, khi các nhà phân tách vẫn còn đang khám phá, ứng dụng, và học hỏi về Big Data.

10. Tích hợp và mở rộng duyệt y các tài liệu chỉ dẫn API

Có nhiều cách hiểu bài viết này có thể là một số ít dự án Big Data xa vời với cách viết các giao diện phần mềm của riêng chúng dành cho Big Data. Cũng nên chú ý, mặc dù, điều đó có thể và đang được thực hiện mỗi ngày.

Big Data được thiết kế để truy cập bởi các áp dụng tùy chỉnh. Các phương pháp tiếp cận phổ thông là dùng giao diện lập trình áp dụng (APIs) RESTful (Representational State Transfer – Bộ truyền dạng đại diện). Những thứ này đều có sẵn cho ắt các ứng dụng trong môi trường Big Data — để quản lý kiểm soát, lưu trữ dữ liệu và bẩm số liệu. Vì chưng quờ các thành phần cơ bản của Big Data là mã nguồn mở, các API này đều được hướng dẫn bài bản và hiện diện công khai để sử dụng. Hy vọng rằng, các nhà cung cấp Big Data đám mây sẽ cho phép truy cập vào toàn bộ các API hiện hành và mai sau, đặt dưới chế độ bảo mật ăn nhập.

Theo ibm.com