MapReduce Trong Lập Trình Song Song

MapReduce Là Gì ?

MapReduce là một kỹ thuật xử lý lớn trong lập trình song song, đặc biệt hữu ích cho các tác vụ phân tích dữ liệu với lượng dữ liệu lớn. Nó bao gồm hai bước chính: Map và Reduce.

Bước Map: Dữ liệu được chia nhỏ thành nhiều tập hợp con và mỗi tập hợp con được áp dụng với một hàm Map. Hàm này tạo ra các cặp (key, value) từ dữ liệu đầu vào.

Bước Reduce: Sau khi dữ liệu đã được gửi đến tập hợp con, dữ liệu được nhóm theo các giá trị key và áp dụng hàm Reduce để tính toán kết quả cuối cùng.

MapReduce cung cấp một cách hiệu quả để phân tích dữ liệu với lượng dữ liệu lớn bằng cách sử dụng nhiều tài nguyên máy tính đồng thời. Nó cũng đảm bảo tính toàn vẹn dữ liệu vì dữ liệu sẽ được chia nhỏ và phân tích từng tập hợp con riêng biệt.

mapre
Mô tả cách thức hoạt động của MapReduce

 

Ví dụ dễ hiểu về MapReduce

  • Giả sử bạn cần tính tổng số trang web đã được tải trong một tuần trên toàn cầu. Điều này có thể là một tác vụ rất lớn với một máy tính duy nhất, nhưng với MapReduce, bạn có thể phân tách tác vụ này thành nhiều tác vụ nhỏ hơn và chia sẻ cho mỗi node trong một cluster. Mỗi node sẽ tính tổng số trang web đã được tải trên một khu vực nhất định trong tuần. Sau đó, kết quả từ mỗi node sẽ được tổng hợp lại thành một kết quả cuối cùng cho toàn cầu.

Còn tiếp……..


Tài liệu tham khảo

  1.  “MapReduce Tutorial”Apache Hadoop. Retrieved 3 July 2019.
  2.  “Google spotlights data center inner workings”cnet.com. 30 May 2008.
  3. Jump up to:a b “MapReduce: Simplified Data Processing on Large Clusters” (PDF)googleusercontent.com.
  4. Wickham, Hadley (2011). “The split-apply-combine strategy for data analysis”Journal of Statistical Software40: 1–29. doi:10.18637/jss.v040.i01.
  5. “Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.” –“MapReduce: Simplified Data Processing on Large Clusters”, by Jeffrey Dean and Sanjay Ghemawat; from Google Research
Hãy chia sẻ vì nó miễn phí !!!