Khai Phá Dữ Liệu Lớn

*Bài viết này mình sẽ cố gắng khái quát nhất về Big Data và sẽ viết thêm các bài về hệ thống phân tán

1. Big Data có từ khi nào ?

Khái niệm “Big Data” bắt đầu được sử dụng vào khoảng cuối những năm 2000, khi công nghệ thông tin phát triển mạnh mẽ và dữ liệu trở nên ngày càng lớn và phức tạp hơn. Tuy nhiên, nguồn gốc của Big Data có thể được truy ngược lại từ những năm 1990, khi các công ty và tổ chức bắt đầu lưu trữ các tập dữ liệu lớn hơn bằng các hệ thống lưu trữ và cơ sở dữ liệu mới.

Cụ thể, khái niệm “Big Data” được đưa ra rộng rãi khi các công ty như Google, Amazon và Yahoo bắt đầu phát triển các công nghệ và phương pháp mới để xử lý các tập dữ liệu lớn và phức tạp mà họ thu thập được. Trong thập niên 2000, các công ty này đã sử dụng các công nghệ như Hadoop, MapReduce và các cơ sở dữ liệu phi cấu trúc khác để lưu trữ và xử lý các tập dữ liệu lớn hơn, từ đó giúp họ tạo ra các sản phẩm và dịch vụ mới và cải tiến hiệu suất và tối ưu hóa hoạt động của họ. Từ đó, khái niệm “Big Data” đã trở thành một thuật ngữ phổ biến và được sử dụng rộng rãi trong lĩnh vực khoa học dữ liệu và công nghệ thông tin.
Công nghệ lưu trữ tác động đến CNTT

2. Có phải BigData chỉ đơn thuần là dữ liệu có nhiều dòng ?

Theo tác giả cuốn “Dữ liệu lớn: Cuộc cách mạng sẽ thay đổi cách chúng ta sống, làm việc và suy nghĩ”[2] định nghĩa về dữ liệu lớn rằng: “Không hẳn là dữ liệu lớn chỉ có nghĩa là dữ liệu có nhiều dòng. Dữ liệu lớn có thể bao gồm nhiều loại dữ liệu khác nhau, chẳng hạn như hình ảnh, âm thanh, văn bản, video, dữ liệu địa lý, dữ liệu thời tiết, dữ liệu thương mại điện tử và nhiều loại dữ liệu khác. Dữ liệu lớn có nghĩa là số lượng dữ liệu đó là lớn đến nỗi không thể xử lý bằng các phương pháp truyền thống hoặc máy tính thông thường.”

Điều đó cho thấy rằng xử lý và thao tác trên dữ liệu lớn, cần sử dụng các công nghệ và phương pháp phân tích dữ liệu phức tạp, như các thuật toán học máy, học sâu, xử lý ngôn ngữ tự nhiên và các công nghệ khác. Các công nghệ này giúp phân tích dữ liệu lớn, tìm ra mối liên hệ giữa các dữ liệu khác nhau và đưa ra dự đoán hoặc quyết định dựa trên các kết quả phân tích.

3. Mối liên hệ giữa Big Data và học máy

Big Data và học máy (Machine Learning) có mối liên hệ chặt chẽ với nhau. Để huấn luyện một mô hình học máy có độ chính xác cao, cần có đủ lượng dữ liệu lớn và đa dạng để huấn luyện và đánh giá mô hình.

Công nghệ Big Data cung cấp các công cụ và phương pháp để xử lý, lưu trữ và phân tích các lượng dữ liệu lớn, từ đó cung cấp dữ liệu để huấn luyện mô hình học máy. Các thuật toán học máy có thể được sử dụng để phân tích và khai thác các dữ liệu lớn này, để tìm ra các mẫu, xu hướng và đưa ra các dự đoán chính xác.[3]

Ngoài ra, các kỹ thuật học máy, như mạng nơ-ron (neural networks), học sâu (deep learning), học tăng cường (reinforcement learning) cũng cần sử dụng đến các phương pháp xử lý dữ liệu lớn, như MapReduce, Spark, và các hệ thống phân tán khác để xử lý và tính toán trên lượng dữ liệu lớn.

Vì vậy, Big Data và học máy là hai lĩnh vực có sự liên kết chặt chẽ với nhau, đóng vai trò quan trọng trong việc phân tích và ứng dụng các dữ liệu lớn, để tạo ra các giải pháp thông minh và tối ưu cho các hệ thống thực tế.


Tài liệu tham khảo

[1] “The World’s Technological Capacity to Store, Communicate, and Compute Information”. MartinHilbert.net.

[2] Mayer-Schönberger, V., & Cukier, K. (2013). Big Data: die Revolution, die unser Leben verändern wird. Redline Wirtschaft.

[3] Software, E. T. (2023). Big data là gì? Mối liên hệ giữa big data và data analytics. Truy cập vào 24/02/2023, từ https://viblo.asia/p/big-data-la-gi-moi-lien-he-giua-big-data-va-data-analytics-Eb85oO4452G

[4] Zhou, L., Pan, S., Wang, J., & Vasilakos, A. V. (2017). Machine learning on big data: Opportunities and challenges. Neurocomputing237, 350-361.

3 Bình luận

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *