Người ta có thể trở thành một kiến ​​trúc sư Big Data thành công mà không cần học Khoa học dữ liệu không? Có gì khác biệt giữa kiến ​​trúc sư Big Data và nhà khoa học dữ liệu?


Câu trả lời 1:

Cảm ơn bạn đã có nhiều A2As! :)

Đây là kinh nghiệm cá nhân của tôi về vấn đề này.

Tại Miniclip, chúng tôi có một nhóm khoa học dữ liệu và một nhóm kỹ thuật dữ liệu. Nhóm kỹ thuật dữ liệu xử lý tất cả các công cụ dữ liệu lớn. Với công việc, nhóm khoa học dữ liệu có thể làm điều đó nhưng chúng tôi sẽ làm điều đó tồi tệ hơn và chậm hơn ... chúng tôi không muốn điều đó! :)

Nhóm kỹ thuật dữ liệu không thực sự cần đi sâu vào kiến ​​thức miền cụ thể theo cách mà nhóm khoa học dữ liệu thực hiện. Tuy nhiên, họ biết khá nhiều về máy học và trong các dự án dữ liệu tự động lớn hơn, chúng tôi làm việc cùng nhau.

Vì vậy, theo tôi, bạn có thể trở thành một kiến ​​trúc sư / kỹ sư dữ liệu lớn thành công mà không cần khoa học dữ liệu, không có kiến ​​thức về thuật toán / miền mà các công ty phụ thuộc vào các nhà khoa học dữ liệu. Tuy nhiên, bạn sẽ trở thành một kỹ sư dữ liệu tốt hơn nhiều nếu bạn nắm trong tay nó.


Câu trả lời 2:

Đồng ý với Marcin. Các nhà khoa học dữ liệu có thể tận dụng cơ sở hạ tầng dữ liệu lớn bởi một kiến ​​trúc sư dữ liệu lớn. IMO, một số cân nhắc quan trọng mà kiến ​​trúc sư dữ liệu lớn nên biết là những điều sau đây, trong đó phân tích dữ liệu / khoa học là một phần (điểm 3 dưới đây):

1) Nhập dữ liệu - lô & truyền phát

2) Lưu trữ dữ liệu - Lưu trữ phân tán, NoQuery

3) Xử lý & phân tích ** - Xử lý hàng loạt, xử lý luồng, phân tích. Ở đây, kiến ​​trúc sư dữ liệu lớn ít nhất nên biết về các công cụ / API phân tích có sẵn để có thể đề xuất và đưa chúng vào cơ sở hạ tầng dữ liệu lớn (cũng dựa trên trường hợp sử dụng doanh nghiệp và sở thích của các nhà khoa học dữ liệu). Một số yếu tố cần xem xét trong một công cụ cho phép nhà khoa học dữ liệu có thể là - các loại thuật toán có sẵn, hỗ trợ ngôn ngữ bản địa, kết nối với môi trường dữ liệu lớn, khả năng phân tích dữ liệu, cấu hình dữ liệu, v.v.

4) Tiêu thụ - tiêu thụ hàng loạt hoặc luồng

5) Nhu cầu phần cứng cho các thành phần khác nhau của môi trường phân tán dữ liệu lớn

6) Nhu cầu hoạt động của môi trường dữ liệu lớn


Câu trả lời 3:

Đồng ý với Marcin. Các nhà khoa học dữ liệu có thể tận dụng cơ sở hạ tầng dữ liệu lớn bởi một kiến ​​trúc sư dữ liệu lớn. IMO, một số cân nhắc quan trọng mà kiến ​​trúc sư dữ liệu lớn nên biết là những điều sau đây, trong đó phân tích dữ liệu / khoa học là một phần (điểm 3 dưới đây):

1) Nhập dữ liệu - lô & truyền phát

2) Lưu trữ dữ liệu - Lưu trữ phân tán, NoQuery

3) Xử lý & phân tích ** - Xử lý hàng loạt, xử lý luồng, phân tích. Ở đây, kiến ​​trúc sư dữ liệu lớn ít nhất nên biết về các công cụ / API phân tích có sẵn để có thể đề xuất và đưa chúng vào cơ sở hạ tầng dữ liệu lớn (cũng dựa trên trường hợp sử dụng doanh nghiệp và sở thích của các nhà khoa học dữ liệu). Một số yếu tố cần xem xét trong một công cụ cho phép nhà khoa học dữ liệu có thể là - các loại thuật toán có sẵn, hỗ trợ ngôn ngữ bản địa, kết nối với môi trường dữ liệu lớn, khả năng phân tích dữ liệu, cấu hình dữ liệu, v.v.

4) Tiêu thụ - tiêu thụ hàng loạt hoặc luồng

5) Nhu cầu phần cứng cho các thành phần khác nhau của môi trường phân tán dữ liệu lớn

6) Nhu cầu hoạt động của môi trường dữ liệu lớn