HỌC VIỆN ĐÀO TẠO CNTT NIIT-ICT HÀ NỘI

Phân tích dữ liệu lớn - Big Data 
với Hadoop và Spark

KHOÁ HỌC

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn, với quy mô vượt quá khả năng nắm bắt và xử lý của các công cụ phần mềm truyền thống trong khoảng thời chấp nhận. Big Data còn là tập hợp các kỹ thuật và công nghệ đòi hỏi cách tích hợp mới nhằm khám phá những giá trị tiềm ẩn to lớn từ những tập hợp dữ liệu lớn, đa dạng, phức tạp. Năm 2012, Gartner định nghĩa “Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.

Mục tiêu khoá đào tạo

Nhằm cung cấp cho học viên những kiến thức và kỹ năng cần thiết về các framework sau:

Là nền tảng nguồn mở viết bằng Java hỗ trợ xử lý và lưu trữ các tập dữ liệu cực lớn trên môi trường tính toán phân tán. Cốt lõi của Hadoop gồm phần lưu trữ (Hệ thống tập tin phân tán Hadoop – HDFS) và phần xử lý (MapReduce).

Là công cụ nguồn mở, có khả năng xử lý nhanh chóng, tiện dụng và phân tích. Nó có thể xử lý một lượng dữ liệu lớn với độ trễ thấp mà chương trình MapReduce thông thường không thể thực hiện.

Học viên bắt đầu tìm hiểu Thế nào là lưu trữ phân tán và xử lý dữ liệu lớn, và Tại sao không thể dùng các công cụ truyền thống để lưu trữ và xử lý dữ liệu lớn. Sau đó, tìm hiểu Spark (một công cụ kế tiếp MapReduce, sử dụng Scala). Sau khi kết thúc khóa học, học viên có thể

6. Thực hành nhiều ví dụ đa dạng

7. Sử dụng Sqoop và Flume để đưa dữ liệu lớn vào Hadoop cluster

8. Hiểu NoSQL và sử dụng HBase

9. Nắm rõ các khái niệm và tính năng của RDD trong Spark

10. Chuyển đổi và xử lý dữ liệu

11. Sử dụng ngôn ngữ truy vấn cấu trúc Spark (Spark SQL)

1. Cài đặt Hadoop version 2

2. Hiểu về Yarn và cơ chế làm việc

3. Hiểu sự khác biệt giữa xử lý thời gian thực (real time) và xử lý theo lô (batch)

4. Sử dụng MapReduce để phân tích xử lý theo lô

5. Các cách xử lý dữ liệu khác nhau với Java, Pig Latin và ngôn ngữ HQL

Theo NY Tech Search, nhu cầu tuyển dụng các kỹ sư và nhà khoa học dữ liệu kể từ năm 2013 đã tăng 300%. Những khu vực nóng nhất cho sự tăng trưởng của big data là công nghệ quảng cáo, dịch vụ tài chính, thương mại điện tử và truyền thông xã hội - đây là những lĩnh vực có doanh thu cao nhất.
Xem thêm

Địa điểm đào tạo

Tầng 3, Toà nhà 25T2, Nguyễn Thị Thập, Cầu Giấy, Hà Nội

Thời lượng đào tạo

Ngôn ngữ đào tạo

5 ngày 
Sáng 08h00 – 12h00; 
Trưa 13h00 – 17h00
Tiếng Anh
Xem thêm

Nội dung khoá học vui lòng ckick xem thêm để biết chi tiết !

Yêu cầu

§ Học viên cần có kiến thức cơ bản về ngôn ngữ lập trình Java & hệ điều hành Linux.

Tài liệu

§ Tài liệu hỗ trợ học tập từ giảng viên.

Chứng chỉ

§ Học viên tham dự từ 70% thời lượng đào tạo trở lên, được cấp Chứng chỉ tham gia khóa học Chuyên viên phân tích Dữ liệu lớn do NIIT cấp (Certificate of Participation).

Các điểm lưu ý

Phương pháp học

§ Học viên sử dụng Laptop cá nhân (RAM tối thiểu: Linux OS 4GB , Windows 6GB)
§ Khóa học bao gồm 30% thời gian thảo luận lý thuyết và 70% thực hành.

Thông tin Giảng viên

Sandeep Agarwal
Phụ trách đào tạo quốc tế NIIT tại Lagos & Abuja (Nigeria)
Quản lý dự án - GĐ Phần mềm
Thiên Hoàng Group
Mai Văn Hà

ĐỐI TÁC ĐỒNG HÀNH

Tầng 3, tòa nhà 25T2, tổ hợp N05, đường Nguyễn Thị Thập, Cầu Giấy, HN

Mail: info@niithanoi.vn              Hotline: 043 5574 074

TRUNG TÂM ĐÀO TẠO CÔNG NGHỆ THÔNG TIN (NIIT-ICT HÀ NỘI)

ĐĂNG KÝ NGAY