Trong bài đăng trên blog này, trước tiên tôi sẽ cố gắng giải thích những điều cơ bản về hồi quy Ridge. Sau đó, chúng tôi sẽ xây dựng mô hình bằng cách sử dụng tập dữ liệu với Python. Cuối cùng, chúng tôi sẽ đánh giá mô hình bằng cách tính toán sai số bình phương trung bình. Hãy bắt đầu từng bước một.
Bạn đang xem: Ridge regression là gì

Mục đích chính của hồi quy Ridge là tìm các hệ số tối thiểu hóa tổng bình phương lỗi bằng cách áp dụng hình phạt cho các hệ số này. Còn được gọi là hồi quy Ridge L2. Trong một nguồn khác, nó được định nghĩa như sau.
Hồi quy Ridge là một phương pháp điều chỉnh mô hình được sử dụng để phân tích bất kỳ dữ liệu nào bị đa cộng tuyến. Phương pháp này thực hiện chính quy hóa L2. Khi vấn đề đa cộng tuyến xảy ra, bình phương nhỏ nhất là không chệch và phương sai lớn, điều này dẫn đến các giá trị dự đoán khác xa với giá trị thực tế.
Hồi quy Ridge là dạng chính quy của hồi quy tuyến tính.
Các tính năng của hồi quy Ridge
Trong hồi quy Ridge, mô hình được thiết lập với tất cả các biến đã cho. Tuy nhiên, nó không loại bỏ các biến có mối quan hệ thấp khỏi mô hình, nó đưa hệ số của các biến này về gần bằng không.
Nó có khả năng chống lại việc khai thác quá mức. Nó là thành kiến nhưng có phương sai thấp. Nó tốt hơn phương pháp Least Squares khi có quá nhiều tham số. Nó cung cấp một giải pháp chống lại sự đa chiều. Vấn đề ở đây là số lượng biến lớn hơn số lượng quan sát. Nó cung cấp một giải pháp chống lại điều này. Nó có hiệu quả trong nhiều vấn đề kết nối tuyến tính. Vấn đề ở đây là có sự tương quan cao giữa các biến độc lập. Điều quan trọng là phải tìm một giá trị tối ưu cho λ. Xác thực chéo được sử dụng cho việc này.Trong hồi quy Ridge, λ đóng một vai trò quan trọng. Nó cho phép kiểm soát các tác động tương đối của hai điều khoản. Vì vậy, thực tế λ là thuật ngữ hình phạt. Cho trước λ được biểu diễn dưới dạng tham số alpha trong hàm hồi quy Ridge. Bằng cách thay đổi giá trị alpha, chúng tôi kiểm soát thời hạn phạt. Nếu λ bằng 0, điều này cho chúng ta phương trình hồi quy cổ điển. Do đó, các giá trị Alpha càng cao, hình phạt càng lớn. Do đó, kích thước của các hệ số được giảm xuống.
- Nó thu nhỏ các thông số. Do đó, nó được sử dụng để ngăn chặn đa cộng tuyến
- Nó làm giảm độ phức tạp của mô hình bằng hệ số co rút
Mô hình hồi quy RidgeMô hình hồi quy Ridge là một phiên bản của phương trình hồi quy cổ điển với một hàm hiệu chỉnh.

Vế trái của phương trình thể hiện phép tính hồi quy cổ điển. Ở bên phải, mỗi giá trị Beta được bình phương. Và những giá trị này cộng lại. Sau đó, mô hình được chuẩn hóa bằng cách nhân λ với tham số cài đặt. Chúng ta có thể gọi đây là sự điều chỉnh.
Các bước hồi quy Ridge
Thông số cài đặt λ được xác định bởi người dùng. Hệ số beta được tính toán từ tập dữ liệu. Một tập hợp chứa các giá trị cụ thể cho λ được chọn. Và lỗi kiểm tra Cross-Validation được tính cho mỗi lỗi. Λ, cung cấp cho Xác thực chéo nhỏ nhất, được chọn làm thông số cài đặt. Cuối cùng, mô hình được lắp lại với λ đã chọn này.Ngoài ra còn có 2 vấn đề khác nhau cần được biết về Ridge Regression. Đó là;
Bình phương nhỏ nhất thông thường (OLS) Sự cân bằng thiên vị và phương sai

Bây giờ chúng ta hãy xây dựng một Ridge Regressionmô hình trên một tập dữ liệu mẫu. Và sau đó chúng ta hãy tính căn bậc hai của mô hình Mean Squared Error. Điều này sẽ cho chúng ta sai số của mô hình.
Đầu tiên, chúng tôi nhập các thư viện cần thiết để có thể thực hiện các tính toán về mô hình.
Sau đó, như tôi đã làm trong các bài viết trước của mình, chúng tôi sắp xếp chung về dữ liệu. Sau đó, chúng tôi chia tập dữ liệu thành hai dưới dạng tập huấn luyện và tập thử nghiệm.
Bạn có thể xem năm dữ liệu hàng đầu nếu bạn muốn.
Sau đó, bạn có thể kiểm tra các kích thước của dữ liệu. 263 là số hàng, 20 là số cột.
Chúng tôi xây dựng mô hình hồi quy Ridge. Và sau đó chúng tôi áp dụng quy trình lắp cho bộ xe lửa. Mô hình hồi quy Ridge nhận một số tham số. Mục đích chính của hồi quy Ridge là tìm các hệ số tối thiểu hóa tổng bình phương lỗi bằng cách áp dụng hình phạt cho các hệ số này. Tham số cài đặt này được xác định là alpha trong mô hình. Đầu tiên, chúng tôi thiết lập mô hình trên giá trị này là 5 trước khi tìm thông số cài đặt tối ưu.
Các hệ số của mô hình hồi quy Ridge đã được thiết lập có thể được xem như sau.
Hằng số của mô hình có thể được xem như sau.
Hãy tạo một bộ giá trị alpha ngẫu nhiên để tìm tham số alpha tối ưu.
Hãy lưu tập hợp dưới dạng lambda_values.
Sau đó, chúng tôi xây dựng một mô hình Ridge. Ngoài ra, chúng tôi tạo một tập hợp các hệ số rỗng. Chúng tôi tạo mô hình bằng cách phù hợp từng giá trị alpha trong tập hợp các giá trị alpha mà chúng tôi đã tạo và sau đó thêm các hệ số đã tính toán vào tập hợp các hệ số mà chúng tôi đã tạo trước đó.
Chúng ta có thể thấy các hệ số thay đổi như thế nào theo dữ liệu alpha mà chúng ta có bằng cách vẽ biểu đồ bên dưới.
Sự dự đoán
Chúng ta hãy nhớ phiên bản đầu tiên của mô hình.
Hãy lưu các giá trị dự báo dưới dạng y_pred cho tập dữ liệu đoàn tàu mà không chỉ định bất kỳ tham số alpha nào.
Theo dữ liệu được ước tính trong các điều kiện này, chúng tôi tính toán giá trị của lỗi bình phương trung bình gốc như sau.
Như bạn có thể thấy, theo các điều kiện này, chúng tôi tính toán giá trị RMSE là 289,34.
Hãy nhập cross_val_score từ thư viện Scikit-Learn. Chúng tôi sẽ quan sát cách giá trị RMSE thay đổi sau khi Xác thực chéo.
Đối với nhóm tàu, chúng tôi tính toán giá trị RMSE bằng cách thực hiện Xác thực chéo 10 lần như sau.
Bây giờ, chúng ta hãy thực hiện quá trình ước lượng với mô hình hồi quy Ridge cho tập kiểm tra. Sau đó, chúng tôi tính toán giá trị RMSE như sau.
Không chỉ định bất kỳ tham số tập hợp nào, chúng tôi nhận thấy giá trị lỗi mà chúng tôi đã tính toán cho tập kiểm tra là 356,80.
Điều chỉnh mô hình
Bây giờ chúng ta sẽ Điều chỉnh để tìm giá trị alpha tối ưu và chuẩn hóa mô hình. Tôi đã tạo hai bộ alpha khác nhau trong quá trình điều chỉnh. Tôi sẽ sử dụng lambda_values1. Bạn có thể sử dụng bất cứ thứ gì bạn muốn. Kết quả sẽ khác nhau tùy thuộc vào cụm lambda mà bạn sử dụng.
Chúng tôi sử dụng RidgeCV để xây dựng mô hình được điều chỉnh với Ridge Regression. Bạn có thể thấy nhiều giá trị alpha khác nhau bên dưới.
Chúng tôi tìm giá trị alpha tối ưu để sử dụng trong mô hình đã điều chỉnh như sau.
Bây giờ, hãy cung cấp tham số alpha này cho mô hình điều chỉnh ridge_tuned làm tham số. Sau đó, hãy phù hợp với mô hình. Sau đó, chúng tôi ước tính với dữ liệu trong tập kiểm tra và tính toán sai số.
Như bạn có thể thấy, chúng tôi đã tính toán giá trị lỗi RMSE là 356,64 trong mô hình đã điều chỉnh.
Xem thêm: Đồ Họa Vector Là Gì? Định Nghĩa, Ví Dụ, Giải Thích Ý Nghĩa Đồ Hoạ Vector Là Gì
Đầu tiên, chúng tôi đã xem xét Ridge Regression là gì trong bài đăng trên blog này. Sau đó, chúng tôi đã nói về các tính năng và khái niệm cơ bản của Ridge Regression. Về mặt toán học, chúng tôi đã kiểm tra mô hình của thuật toán này. Sau đó, chúng tôi thiết lập mô hình mà không chỉ định bất kỳ tham số nào với Ridge Regression. Chúng tôi đã tính toán sai số dựa trên các giá trị dự đoán. Sau đó, chúng tôi thực hiện một số hoạt động để tìm tham số alpha tối ưu. Cuối cùng, chúng tôi tính toán giá trị lỗi bằng cách thiết lập mô hình được điều chỉnh với tham số alpha tối ưu.
Tài nguyên https://www.mygreatlearning.com/blog/what-is-ridge-regression/ https://dataaspirant.com/ridge-regression/