TÀI LIỆU CÔNG NGHỆ THÔNG TIN ĐẠI HỌC BÁCH KHOA

Trong seri bài bác này mình đã bắt tắt các phần liên quan cho tới học tập vật dụng với khai thác dữ liệu dựa vào slide và bài giảng môn học được thầy Thân Quang Khoát giảng dậyhttps://bkai.ai/course/machine-learning-and-data-mining/(facebook bk aihttps://www.facebook.com/bk.ai.ResearchCenter/). Bài viết gạch ốp ra một số ý mà lại theo mình thì cần giữa trung tâm, tuy nhiên bản thân khuim các bạn đề xuất học chuyên nghiệp với xem video bởi cá nhân mình coi 1-2 lần thì vẫn tương đối mung lung :( . Đây là môn học tập đề xuất tảng, cung ứng kiến thức và kỹ năng cơ bạn dạng độc nhất vô nhị đến các bạn theo lý thuyết data scientis (đọc sơ sơ là sử dụng những kĩ thuật học tập máy (cluster analysis, decision trees, random forest, neural networks, logistics regression, ...) để xây dừng những mô hình toán thù học tập Giao hàng những bài xích tân oán marketing ), còn ví dụ data scientis, data engineer, data analysis nhỏng làm sao những chúng ta cũng có thể tmê man khảohttps://www.youtube.com/watch?v=aW7P4Y8DY9o&ab_channel=DataGuyStoryvới theo mình mày mò data scientis hay là người có nấc lương tối đa.

Bạn đang xem: Tài liệu công nghệ thông tin đại học bách khoa

Bài này bản thân sẽ cầm tắt 2 phần ra mắt phổ biến vàHồi quy (Regression) , sót lại một số khác ví như Phân cụm(Kmean) , Học dựa trên láng giềng KNN, Cây quyết định, ... có lẽ (chỉ là chắc rằng :D ) mình đang ra ngơi nghỉ bài sau. À mà giả dụ các bạn đề nghị tài liệu thì đợi pro Huy đăng bài xích nhé :D

Giới thiệu chung

học thứ : desgin khối hệ thống trường đoản cú nâng cao phiên bản thân bằng phương pháp học tập tự dữ liệu

khai phá dữ liệu : tìm ra tri thức

học : improve sầu Performance at Task, following Experience. ví dụ cùng với bài bác tân oán phân các loại thỏng rác :

P : độ đúng chuẩn của phân loại thư sẽ là rác

T : phân loại

E : tập thỏng thường/ rác rến đang gồm từ bỏ trước thời điểm phân loại

thực chất của Việc học : học tập hàm f : x -> y. f còn được gọi là model (tài liệu theo 1 mô hình như thế nào đó ). học tập Mã Sản Phẩm là học tmê say số của Mã Sản Phẩm kia.

tài liệu học tập : tập học (training set, tập quan liền kề ) bao gồm X, Y (tập những x và y tương ứng). x là tài liệu nguồn vào cùng y là Áp sạc ra của tài liệu đó

phân loại :

học tất cả đo lường và thống kê : supervised learning :

classification : Multiclass (phân nhiều loại nó vào 1 lớp),Multilabel(phân nó vào những lớp - gán nhiều nhãn)

Regression : không giống với classification là đây đầu ra thường xuyên.

Xem thêm:

unsupervised learning : không có y (dữ liệu k nhãn)

phân cụm

phân phát hiện xu hướng

học tập phân phối giám sát và đo lường : Semi-Supervised Learning

học tập tăng cường : Reinforcement Learning

vấn đề:

lời giải học(chủ yếu là lặp nhằm tối ưu ) không hội tụ : No-free-lunch. không có thuận toán thù luôn luôn công dụng trên các áp dụng. từng bài toán buộc phải thử nghiệm nhiều thuật toán coi dòng nào xuất sắc nhất

lựa chọn tài liệu : nhiễu, lỗi

kỹ năng học: kĩ năng khái quát hóa(generalization) tập học tập để rất có thể phân các loại xuất sắc bên trên tập thực tế(tập dữ liệu mới, tập dữ liệu tương lại ), rời sự việc overfitting

overfitting (xẩy ra khi bao quát hóa xuất sắc khi học nhưng với tập tài liệu tương lai, cái nên thì lại rất tệ ) : quy mô thừa tinh vi, tài liệu lỗi, thừa bé.

ước muốn tổng quát hóa cao , tương đương cùng với bài toán ko dính overfitting

giải quyết : 1 trong những chính là kinh nghiệm Regularization

Hồi quy (Regression)

học hàm, cổng đầu ra liên tục

linear model

*

x là đầu vào(các x i là các trực thuộc tính của 1 dữ liệu nguồn vào / trong tập dữ liệu nguồn vào ), w là trọng số, là chiếc cần đến lớp, tương đương cùng với Việc xác minh đầu vào x góp phần từng nào phần vào câu hỏi ra quyết định cổng đầu ra mang lại mô hình

bí quyết học :

hàm lỗi(lost, cost function) : cùng với tập w bây chừ , ta và tính được cổng đầu ra, đầu ra đó là đầu ra output của Mã Sản Phẩm (linear model ), nó hoàn toàn hoàn toàn có thể khác cùng với thực tiễn. đại nhiều loại lấy sai không giống 2 điều này (Áp sạc ra dự đoán của model với thực tế)

ước muốn lỗi này trên tất cả dữ nguồn vào nhưng mà bản thân thiết lập vừa đủ rẻ nhất

thuật tân oán học :

cực tè hóa lỗi ordinary least squares: cần sử dụng gradient descent(rảnh update trọng số đến tương xứng ) rất có thể giải bằng toán học : đưa vị nào đấy …(cho đạo hàm bằng 0 tìm kiếm luôn w mang đến nhanh hao ), vấn đề không tồn tại ma trận đưa vị ?

phương pháp bên trên thừa triệu tập vào tài liệu,không có bất kể gì để kiểm soát và điều chỉnh khả năng tổng thể hóa cho tương lai =>ra đời Ridge regression bằng phương pháp thêm lamdomain authority nhân cỗ w(một đại lượng hiệu chỉnh mà mình đã kể trong bài xích 1 -Regularization ), gọi là sau thời điểm bỏ vào thì các bạn sẽ nỗ lực ép bọn w vê càng 0 càng tốt => kéo theo từng trực thuộc tính vẫn góp phần rất ít vào việc quyết định đầu ra output, bao quát rộng (đoán chũm :D). nói bình thường turning lamdomain authority vẫn kiểm soát và điều chỉnh đc độ overfitting. lamdomain authority càng lớn w càng bé dại, lỗi tập train tăng, độ tổng thể tăng. (tấn công đổi). lamda > 0 thì ma trận luôn khả nghịch

Lasso : cái lamda nhân bộ w ngơi nghỉ trên ví dụ là nhân cùng với L2 bộ w. ở chỗ này rứa L2 bởi L1. điểm cộng của Lmột là bớt miền tra cứu kiếm, tuyển lựa trực thuộc tính(sẽ có 1 số trực thuộc tính không chức năng mang đến w của nó = 0 ). cần sử dụng cho các bài bác toán nghiệm thưa . mất tính chất luôn khả nghịch.

Mong nhận thấy comment cảm nhận, góp ý trường đoản cú chúng ta, vì mình cũng rất non mảng này :(