Tóm tắt
Xử lý ngôn ngữ là 1 kĩ thuật đặc biệt nhằm giúp máy tính xách tay hiểu được ngôn ngữ của bé người, qua đó hướng dẫn máy tính xách tay thực hiện tại và hỗ trợ con người trong những các bước có tương quan đến ngôn ngữ như : dịch thuật, phân tích tài liệu văn bản, dấn dạng tiếng nói, tìm kiếm thông tin, nắm tắt văn bản, và rất nhiều ứng dụng khác.
Bạn đang xem: Tf-idf là gì
Một trong số những kĩ thuật để giải pháp xử lý ngôn ngữ tự nhiên và thoải mái : tf-idf. Đây là 1 trong kĩ thuật cơ bản và được sử dụng kết phù hợp với rất nhiều thuật toán không giống để xử lý những áp dụng được nêu sinh hoạt trên.
TF-IDF
Viết tắt của thuật ngữ giờ Anh term frequency – inverse document frequency,tf-idf là trọng số của một từ vào văn phiên bản thu được qua thống kê biểu lộ mức độ đặc biệt của từ này vào một văn bản, mà bạn dạng thân văn bạn dạng đang xét nằm trong một tập hợp những văn bản.
Xem thêm: " Môn Đăng Hậu Đối Là Gì ? Môn Đăng Hộ Đối, Môn Đăng Hậu Đối Hay
Thuật toán này thường xuyên được sử dụng vì: vào ngôn ngữ luôn luôn có hồ hết từ xảy ra liên tục với các từ khác. Và giữa những phát biểu danh tiếng nhất Zipf’s law phát biểu về vấn đề này như sau:
The nth most common word in a human language text occurs with a frequency inversely proportional to n.

Có nghĩa là luôn luôn có một tập các từ cơ mà tần số xuất hiện, sử dụng nhiều hơn thế các từ khác , điều này đúng trong bất kì ngôn ngữ nào. Bởi vì vậy ta cần có một phương pháp để làm mịn đường cong tần số trên xuất xắc là việc thăng bằng mức độ quan trọng giữa những từ
Các tính trọng số tf-idf
Tf- term frequency : dùng làm ước lượng tần xuất xuất hiện thêm của từ vào văn bản. Tuy vậy với từng văn bạn dạng thì tất cả độ nhiều năm khác nhau, chính vì vậy số lần mở ra của từ có thể nhiều rộng . Bởi vì vậy số lần lộ diện của từ sẽ tiến hành chia độ nhiều năm của văn bản (tổng số từ trong văn bạn dạng đó)
TF(t, d) = ( mốc giới hạn từ t xuất hiện thêm trong văn phiên bản d) / (tổng số từ vào văn phiên bản d)
public double tf(ListString> doc, String term) double result = 0; for (String word : doc) if (term.equalsIgnoreCase(word)) result++; return result / doc.size();IDF- Inverse Document Frequency: dùng làm ước lượng nút độ quan trọng đặc biệt của từ đó như thế nào . Lúc tính tần số xuất hiện tf thì các từ đầy đủ được xem như là quan trọng như nhau. Mặc dù có một số trong những từ thường được được áp dụng nhiều cơ mà không quan trọng đặc biệt để thể hiện ý nghĩa sâu sắc của đoạn văn , lấy ví dụ :
Từ nối: và, nhưng, tuy nhiên, do thế, bởi vì vậy, …Giới từ: ở, trong, trên, …Từ chỉ định: ấy, đó, nhỉ, …Vì vậy ta cần sụt giảm mức độ đặc biệt quan trọng của số đông từ đó bằng cách sử dụng IDF :
IDF(t, D) = log_e( tổng số văn phiên bản trong tập mẫu mã D/ Số văn bản có đựng từ t )
public double idf(ListListString>> docs, String term) double n = 0; for (ListString> doc : docs) for (String word : doc) if (term.equalsIgnoreCase(word)) n++; break; return Math.log(docs.size() / n);Vậy cực hiếm của tf-idf :
public double tfIdf(ListString> doc, ListListString>> docs, String term) return tf(doc, term) * idf(docs, term);