Trong bài bác đăng trên blog này, thứ nhất tôi sẽ cố gắng giải thích các điều cơ bản về hồi quy Ridge. Sau đó, chúng tôi sẽ gây ra mô hình bằng cách sử dụng tập tài liệu với Python. Cuối cùng, cửa hàng chúng tôi sẽ review mô hình bằng phương pháp tính toán không nên số bình phương trung bình. Hãy bước đầu từng bước một.

Bạn đang xem: Ridge regression là gì


*
Hồi quy Ridge là gì?

Mục đích thiết yếu của hồi quy Ridge là tìm những hệ số tối thiểu hóa tổng bình phương lỗi bằng phương pháp áp dụng hình phạt cho những hệ số này. Còn được gọi là hồi quy Ridge L2. Trong một mối cung cấp khác, nó được tư tưởng như sau.

Hồi quy Ridge là một phương thức điều chỉnh mô hình được áp dụng để phân tích ngẫu nhiên dữ liệu nào bị đa cùng tuyến. Phương pháp này thực hiện chính quy hóa L2. Khi vụ việc đa cộng đường xảy ra, bình phương nhỏ dại nhất là không chệch với phương sai lớn, điều đó dẫn đến những giá trị dự kiến khác xa với giá trị thực tế.

Hồi quy Ridge là dạng bao gồm quy của hồi quy đường tính.

Các nhân tài của hồi quy Ridge

Trong hồi quy Ridge, quy mô được cấu hình thiết lập với toàn bộ các đổi thay đã cho. Tuy nhiên, nó không sa thải các vươn lên là có quan hệ thấp khỏi mô hình, nó gửi hệ số của các biến này về gần bởi không.

Nó có chức năng chống lại việc khai quật quá mức. Nó là thành loài kiến ​​nhưng bao gồm phương không nên thấp. Nó xuất sắc hơn phương pháp Least Squares khi có vô số tham số. Nó cung ứng một phương án chống lại sự đa chiều. Vụ việc ở đây là số lượng biến to hơn số lượng quan sát. Nó hỗ trợ một chiến thuật chống lại điều này. Nó có công dụng trong các vấn đề liên kết tuyến tính. Vụ việc ở đây là có sự đối sánh cao giữa những biến độc lập. Điều đặc biệt quan trọng là yêu cầu tìm một giá chỉ trị buổi tối ưu mang lại λ. Xác thực chéo được áp dụng cho việc này.

Trong hồi quy Ridge, λ đóng một vai trò quan lại trọng. Nó được cho phép kiểm soát những tác động kha khá của nhị điều khoản. Bởi vì vậy, thực tiễn λ là thuật ngữ hình phạt. Mang lại trước λ được màn trình diễn dưới dạng tham số alpha vào hàm hồi quy Ridge. Bằng cách thay đổi quý hiếm alpha, công ty chúng tôi kiểm rà soát thời hạn phạt. Giả dụ λ bằng 0, vấn đề đó cho chúng ta phương trình hồi quy cổ điển. Vị đó, các giá trị Alpha càng cao, hình vạc càng lớn. Vì đó, kích cỡ của những hệ số được bớt xuống.

- Nó thu nhỏ dại các thông số. Do đó, nó được thực hiện để ngăn ngừa đa cộng tuyến

- Nó làm giảm độ phức hợp của mô hình bằng hệ số co rút

quy mô hồi quy Ridge

Mô hình hồi quy Ridge là một trong phiên phiên bản của phương trình hồi quy cổ điển với một hàm hiệu chỉnh.


*
công thức SSE hồi quy Ridge

Vế trái của phương trình diễn đạt phép tính hồi quy cổ điển. Ở mặt phải, mỗi quý hiếm Beta được bình phương. Và hầu như giá trị này cộng lại. Sau đó, quy mô được chuẩn hóa bằng phương pháp nhân λ cùng với tham số sở hữu đặt. Chúng ta có thể gọi đó là sự điều chỉnh.

Các bước hồi quy Ridge

Thông số setup λ được xác minh bởi bạn dùng. Thông số beta được tính toán từ tập dữ liệu. Một tập hợp chứa các giá trị rõ ràng cho λ được chọn. Và lỗi kiểm tra Cross-Validation được tính cho mỗi lỗi. Λ, cung ứng cho chuẩn xác chéo nhỏ tuổi nhất, được lựa chọn làm thông số kỹ thuật cài đặt. Cuối cùng, quy mô được đính thêm lại cùng với λ đã lựa chọn này.

Ngoài ra còn tồn tại 2 vấn đề khác nhau cần được biết về Ridge Regression. Đó là;

Bình phương nhỏ dại nhất thông thường (OLS) Sự cân đối thiên vị với phương không nên
*
*
Lập mô hình bằng Python

Bây giờ họ hãy chế tạo một Ridge Regressionmô hình trên một tập tài liệu mẫu. Và sau đó chúng ta hãy tính căn bậc hai của mô hình Mean Squared Error. Điều này đang cho họ sai số của tế bào hình.

Đầu tiên, cửa hàng chúng tôi nhập những thư viện quan trọng để có thể thực hiện tại các thống kê giám sát về mô hình.

Sau đó, như tôi đã có tác dụng trong các nội dung bài viết trước của mình, cửa hàng chúng tôi sắp xếp thông thường về dữ liệu. Sau đó, chúng tôi chia tập tài liệu thành hai bên dưới dạng tập đào tạo và tập thử nghiệm.

Bạn hoàn toàn có thể xem năm dữ liệu bậc nhất nếu các bạn muốn.

Sau đó, chúng ta có thể kiểm tra các kích thước của dữ liệu. 263 là số hàng, 20 là số cột.

Chúng tôi xây dựng quy mô hồi quy Ridge. Cùng sau đó shop chúng tôi áp dụng quá trình lắp cho cỗ xe lửa. Quy mô hồi quy Ridge nhận một số trong những tham số. Mục tiêu chính của hồi quy Ridge là tìm những hệ số về tối thiểu hóa tổng bình phương lỗi bằng cách áp dụng hình phạt cho những hệ số này. Tham số setup này được xác định là alpha trong tế bào hình. Đầu tiên, chúng tôi tùy chỉnh thiết lập mô hình trên quý giá này là 5 trước lúc tìm thông số thiết đặt tối ưu.

Các hệ số của quy mô hồi quy Ridge đã được tùy chỉnh thiết lập có thể được xem như sau.

Hằng số của tế bào hình hoàn toàn có thể được coi như sau.

Hãy chế tạo một bộ giá trị alpha tự dưng để search tham số alpha tối ưu.

Hãy lưu giữ tập đúng theo dưới dạng lambda_values.

Sau đó, chúng tôi xây dựng một mô hình Ridge. Bên cạnh ra, shop chúng tôi tạo một tập hợp các hệ số rỗng. Shop chúng tôi tạo tế bào hình bằng phương pháp phù hợp từng quý hiếm alpha vào tập hợp những giá trị alpha mà cửa hàng chúng tôi đã tạo nên và sau đó thêm những hệ số đã giám sát vào tập hợp các hệ số mà shop chúng tôi đã sinh sản trước đó.

Chúng ta rất có thể thấy những hệ số biến đổi như rứa nào theo tài liệu alpha mà bọn họ có bằng phương pháp vẽ biểu đồ bên dưới.

Sự dự đoán

Chúng ta hãy nhớ phiên phiên bản đầu tiên của tế bào hình.

Hãy lưu các giá trị đoán trước dưới dạng y_pred mang lại tập tài liệu đoàn tàu mà không chỉ định bất kỳ tham số alpha nào.

Theo tài liệu được cầu tính trong các điều khiếu nại này, shop chúng tôi tính toán giá trị của lỗi bình phương trung bình nơi bắt đầu như sau.

Như chúng ta có thể thấy, theo các điều khiếu nại này, shop chúng tôi tính toán cực hiếm RMSE là 289,34.

Hãy nhập cross_val_score từ tủ sách Scikit-Learn. Công ty chúng tôi sẽ quan lại sát cách giá trị RMSE chuyển đổi sau khi tuyệt đối chéo.

Đối với nhóm tàu, công ty chúng tôi tính toán giá trị RMSE bằng phương pháp thực hiện tại Xác thực chéo cánh 10 lần như sau.

Bây giờ, bọn họ hãy thực hiện quá trình ước lượng với quy mô hồi quy Ridge cho tập kiểm tra. Sau đó, shop chúng tôi tính toán giá trị RMSE như sau.

Không chỉ định ngẫu nhiên tham số tập phù hợp nào, công ty chúng tôi nhận thấy giá trị lỗi mà công ty chúng tôi đã giám sát cho tập khám nghiệm là 356,80.

Điều chỉnh tế bào hình

Bây giờ họ sẽ Điều chỉnh nhằm tìm giá trị alpha tối ưu và chuẩn hóa mô hình. Tôi đã chế tạo hai bộ alpha khác nhau trong quá trình điều chỉnh. Tôi sẽ thực hiện lambda_values1. Chúng ta có thể sử dụng bất cứ thứ gì bạn muốn. Tác dụng sẽ khác biệt tùy trực thuộc vào cụm lambda mà bạn sử dụng.

Chúng tôi sử dụng RidgeCV nhằm xây dựng quy mô được điều chỉnh với Ridge Regression. Bạn có thể thấy các giá trị alpha khác biệt bên dưới.

Chúng tôi tìm quý giá alpha về tối ưu để thực hiện trong mô hình đã kiểm soát và điều chỉnh như sau.

Bây giờ, hãy hỗ trợ tham số alpha này cho quy mô điều chỉnh ridge_tuned làm cho tham số. Sau đó, hãy tương xứng với mô hình. Sau đó, chúng tôi ước tính với dữ liệu trong tập bình chọn và thống kê giám sát sai số.

Như bạn cũng có thể thấy, shop chúng tôi đã tính toán giá trị lỗi RMSE là 356,64 trong mô hình đã điều chỉnh.

Xem thêm: Đồ Họa Vector Là Gì? Định Nghĩa, Ví Dụ, Giải Thích Ý Nghĩa Đồ Hoạ Vector Là Gì

sau cuối

Đầu tiên, chúng tôi đã xem xét Ridge Regression là gì trong bài xích đăng bên trên blog này. Sau đó, chúng tôi đã nói đến các tác dụng và quan niệm cơ bạn dạng của Ridge Regression. Về mặt toán học, shop chúng tôi đã kiểm tra mô hình của thuật toán này. Sau đó, chúng tôi tùy chỉnh thiết lập mô hình mà không chỉ là định bất kỳ tham số nào với Ridge Regression. Công ty chúng tôi đã tính toán sai số dựa trên các giá trị dự đoán. Sau đó, shop chúng tôi thực hiện tại một số hoạt động để tìm tham số alpha tối ưu. Cuối cùng, chúng tôi tính toán quý hiếm lỗi bằng phương pháp thiết lập mô hình được điều chỉnh với thông số alpha buổi tối ưu.

khoáng sản https://www.mygreatlearning.com/blog/what-is-ridge-regression/ https://dataaspirant.com/ridge-regression/