KELM là gì? Google áp dụng phương pháp giảm sai lệch tìm kiếm
Google AI đã thông báo về việc áp dụng KELM nhằm giảm thiểu sự chệch và nội dung độc hại trong kết quả tìm kiếm. Đồng thời, họ đã giới thiệu TEKGEN, một phương pháp chuyển đổi dữ liệu từ Sơ đồ tri thức thành văn bản ngôn ngữ tự nhiên. Quá trình này cung cấp cơ sở cho việc cải thiện độ chính xác thực tế của các mô hình xử lý ngôn ngữ tự nhiên.
KELM là gì?
KELM, viết tắt của Knowledge-Enhanced Language Model Pre-training, là một phương pháp đào tạo trước mô hình ngôn ngữ nhằm nâng cao khả năng hiểu biết.
Trong lĩnh vực Trí tuệ Nhân tạo, đặc biệt là xử lý ngôn ngữ tự nhiên (NLP), đây là một thách thức lớn do liên quan đến việc hiểu và diễn giải ý nghĩa của ngôn ngữ.
NLP đóng vai trò quan trọng trong việc máy tính hiểu và tương tác với con người qua ngôn ngữ. Một số mô hình nổi tiếng như BERT đã sử dụng dữ liệu từ web và văn bản để đào tạo.
Trong khi đó, KELM tiến xa hơn bằng cách tích hợp thông tin thực tế và đáng tin cậy vào quá trình đào tạo, giúp cải thiện độ chính xác thực tế và giảm thiểu sự chệch.
TEKGEN thực hiện quá trình biến đổi dữ liệu có cấu trúc từ biểu đồ tri thức thành ngôn ngữ tự nhiên, và kết quả thu được được đặt tên là KELM Corpus.
KELM sử dụng dữ liệu có độ tin cậy cao
Đội ngũ nghiên cứu tại Google đã đề xuất tận dụng Google Knowledge Graph (Sơ đồ Tri thức Google) như một nguồn dữ liệu đáng tin cậy để nâng cao độ chính xác thực tế.
"Các nguồn thay thế được tận dụng ở đây là các biểu đồ tri thức (KG), bao gồm dữ liệu có cấu trúc. Điều đặc biệt về KG là tính thực tế, do thông tin thường được trích xuất từ các nguồn đáng tin cậy và trải qua bộ lọc và chỉnh sửa để loại bỏ nội dung không phù hợp và không chính xác."
KELM có đang được Google ứng dụng ?
Hiện tại, không có thông tin chắc chắn về việc Google đã áp dụng phương pháp đào tạo trước mô hình ngôn ngữ KELM. Tuy nhiên, tiếp cận này đang thu hút sự chú ý và quan tâm của Google, được xem là một hướng tiềm năng đầy hứa hẹn trong việc phát triển mô hình ngôn ngữ.
Độ chệch, độ chính xác thực tế và kết quả tìm kiếm
Trong báo cáo nghiên cứu, đã đặc biệt nhấn mạnh tới tầm quan trọng của việc cải thiện độ chính xác thực tế như sau:
"Thành công trong việc giảm độ lệch và nâng cao độ chính xác thực tế có ý nghĩa sâu sắc, đồng thời giảm độc hại trong kết quả mô hình ngôn ngữ."
Nghiên cứu này mang lại ý nghĩa quan trọng, đặc biệt khi việc giảm lệch và tăng độ chính xác thực tế có thể ảnh hưởng đến xếp hạng của các trang web. Tuy nhiên, mặc dù KELM chưa được xác nhận sử dụng, nhưng vẫn chưa có khẳng định về tác động cụ thể của nó đối với kết quả tìm kiếm Google.
Điều này đặt ra câu hỏi về khả năng ảnh hưởng của KELM, nếu được triển khai, đối với các trang web quảng bá thông tin không chính xác hay ý kiến sai lệch. Điều này làm nổi bật sự quan trọng của việc kiểm soát và cải thiện chất lượng thông tin trên internet.
Kết quả tìm kiếm có bị ảnh hưởng bởi KELM
KELM Corpus đã được phát hành dưới giấy phép Creative Commons (CC BY-SA 2.0), nguyên tắc này lý thuyết cho phép bất kỳ công ty nào khác (như Bing, Facebook, hoặc Twitter) cũng có thể sử dụng nó để cải thiện quá trình đào tạo trước xử lý ngôn ngữ tự nhiên của họ.
Nhìn chung, việc này có thể tạo ra một tác động lan rộng, ảnh hưởng đến nhiều nền tảng mạng xã hội và dịch vụ tìm kiếm khác nhau, mở ra cơ hội để cải thiện khả năng xử lý ngôn ngữ tự nhiên trên các nền tảng đa dạng.
KELM cũng có mối quan hệ gián tiếp với MUM
Google đã quyết định không phát hành thế hệ tiếp theo của thuật toán MUM cho đến khi họ có thể đảm bảo rằng độ sai lệch không tác động tiêu cực đến kết quả tìm kiếm. Theo thông báo từ Google MUM:
"Chúng tôi đã tiến hành thử nghiệm cẩn thận nhiều ứng dụng của BERT, được ra mắt từ năm 2019, và MUM sẽ trải qua quy trình tương tự khi chúng tôi tích hợp các mô hình này vào tìm kiếm.
Chúng tôi đặc biệt tập trung vào việc tìm kiếm các mẫu có thể chỉ ra độ sai lệch trong quá trình học máy để tránh việc đưa sự sai lệch vào hệ thống của chúng tôi."
Phương pháp KELM, với mục tiêu giảm độ lệch, có thể đóng góp quan trọng vào việc phát triển thuật toán MUM và giúp đảm bảo tính chính xác và đối xứng trong kết quả tìm kiếm.
Học máy có thể tạo ra kết quả sai lệch
Theo nghiên cứu, dữ liệu được sử dụng để đào tạo các mô hình ngôn ngữ tự nhiên như BERT và GPT-3 có khả năng tạo ra "nội dung độc hại" với mức độ sai lệch nhất định.
Trong lĩnh vực tin học, nguyên tắc GIGO (Garbage In – Garbage Out) làm nổi bật ý nghĩa quan trọng của chất lượng đầu vào đối với chất lượng đầu ra. Nếu huấn luyện thuật toán với dữ liệu chất lượng cao, kết quả sẽ tương ứng có chất lượng cao.
Do đó, những gì các nhà nghiên cứu đề xuất là cần cải thiện chất lượng dữ liệu được sử dụng để đào tạo các công nghệ như BERT và MUM, nhằm loại bỏ các sai lệch có thể xuất hiện.
Sơ đồ trí thức - Knowledge Graph
Biểu đồ tri thức là một tập hợp các dữ liệu có cấu trúc, sử dụng ngôn ngữ đánh dấu để truyền đạt thông tin cụ thể một cách dễ dàng cho máy móc sử dụng. Trong ngữ cảnh này, dữ liệu có cấu trúc này chứa thông tin về con người, địa điểm và sự vật.
Google giới thiệu Sơ đồ tri thức như một công cụ giúp hệ thống hiểu mối quan hệ giữa các yếu tố khác nhau. Điều này giúp Google phân biệt khi ai đó đặt câu hỏi về "Washington", xác định xem người đó đang thắc mắc về Washington D.C, tiểu bang Washington, hay một khía cạnh khác liên quan đến địa điểm, con người hoặc sự vật.
Thông báo của Google vào năm 2012 mô tả Sơ đồ tri thức như một bước quan trọng đầu tiên trong việc xây dựng thế hệ tìm kiếm tiên tiến mà người dùng đang trải nghiệm hiện nay.
Độ chính xác thực tế và sơ đồ trí thức
Dữ liệu từ biểu đồ tri thức đóng vai trò quan trọng trong nghiên cứu này, nhằm cải thiện hiệu suất của các thuật toán của Google thông qua việc sử dụng thông tin đáng tin cậy.
Theo bài nghiên cứu của Google, đề xuất tích hợp thông tin từ biểu đồ tri thức vào quá trình đào tạo để loại bỏ sai lệch và nâng cao độ chính xác thực tế. Đề xuất này được mô tả như một bước đột phá, yêu cầu hai bước quan trọng.
- Đầu tiên, chuyển đổi cơ sở kiến thức thành văn bản ngôn ngữ tự nhiên.
- Thứ hai, tạo ra kho dữ liệu kết quả, gọi là Knowledge-Enhanced Language Model Pre-training (KELM), có thể tích hợp vào quá trình đào tạo trước thuật toán để giảm thiểu sai lệch.
Các nhà nghiên cứu lý giải rằng các mô hình xử lý ngôn ngữ tự nhiên lớn thường sử dụng dữ liệu ngôn ngữ tự nhiên từ web và được tinh chỉnh cho các nhiệm vụ cụ thể.
Tuy nhiên, giới hạn của việc chỉ sử dụng văn bản ngôn ngữ tự nhiên đã giới hạn phạm vi kiến thức. Hơn nữa, sự tồn tại của thông tin không chính xác và nội dung độc hại trong văn bản có thể gây ra sai lệch trong các mô hình kết quả.
Từ dữ liệu có cấu trúc trong sơ đồ tri thức đến văn bản ngôn ngữ tự nhiên
Nhóm nghiên cứu đã chỉ ra một thách thức khi tích hợp thông tin từ cơ sở kiến thức vào quá trình đào tạo, đó là dữ liệu từ biểu đồ tri thức thường ở dạng dữ liệu có cấu trúc.
Để vượt qua thách thức này, họ đề xuất giải pháp là chuyển đổi dữ liệu có cấu trúc từ biểu đồ tri thức sang dạng văn bản ngôn ngữ tự nhiên. Họ thực hiện điều này thông qua một tác vụ ngôn ngữ tự nhiên được gọi là "tạo dữ liệu thành văn bản."
Để giải quyết thách thức của việc tạo dữ liệu thành văn bản, nhóm nghiên cứu đã phát triển một "pipeline" được gọi là "Text from KG Generator (TEKGEN)." Điều này nhằm tạo ra một quy trình hiệu quả để chuyển đổi thông tin từ biểu đồ tri thức sang dạng văn bản ngôn ngữ tự nhiên.
TEKGEN văn bản ngôn ngữ tự nhiên được cải thiện độ chính xác thực tế
TEKGEN là một công nghệ được nhóm nghiên cứu sáng tạo để chuyển đổi dữ liệu có cấu trúc sang văn bản ngôn ngữ tự nhiên. Kết quả của quá trình này là văn bản thực tế, có thể được sử dụng để tạo ra kho dữ liệu KELM.
KELM sau đó có thể được tích hợp vào quá trình đào tạo trước học máy, giúp ngăn chặn sự xâm nhập của sai lệch vào các thuật toán.
Các nhà nghiên cứu nhấn mạnh rằng việc thêm thông tin từ biểu đồ tri thức (kho tài liệu) vào dữ liệu đào tạo dẫn đến việc cải thiện độ chính xác thực tế.
Bài báo về KELM đã công bố một minh họa, biểu diễn cách một nút dữ liệu có cấu trúc được nối và chuyển đổi thành văn bản tự nhiên thông qua TEKGEN.
Hình ảnh đại diện cho dữ liệu có cấu trúc từ biểu đồ tri thức, được kết nối với văn bản, minh họa quá trình chuyển đổi và tích hợp thông tin từ nguồn này vào quá trình đào tạo.
Phần đầu tiên: quy trình chuyển đổi TEKGEN:
Bước tiếp theo của quy trình TEKGEN được minh họa trong hình ảnh dưới đây, mô tả việc lấy văn bản đã được nối và chuyển đổi nó thành văn bản ngôn ngữ tự nhiên.
Phần hai: văn bản được chuyển sang văn bản ngôn ngữ tự nhiên:
Tạo KELM Corpus
Trong bài báo TEKGEN, có một minh họa khác nhấn mạnh cách tạo ra văn bản ngôn ngữ tự nhiên từ KELM và cách nó có thể được sử dụng trong quá trình đào tạo trước. Minh họa này được trình bày cùng với mô tả chi tiết bên dưới:
Trong quá trình này, ở Bước 1, bộ ba tri thức (KG) được điều chỉnh so với văn bản Wikipedia, sử dụng đặc trưng giám sát từ xa.
Tiếp theo, ở Bước 2 và 3, mô hình T5 được điều chỉnh tuần tự trên kho tài liệu, trước khi trải qua một số bước nhỏ trên kho ngữ liệu WebNLG.
Bước 4 tiếp theo, mô hình BERT được điều chỉnh để tạo ra điểm chất lượng ngữ nghĩa cho các câu được tạo, với sự gia tăng ba lần.
Các Bước 2, 3 và 4 cùng nhau tạo thành TEKGEN.
Cuối cùng, ở Bước 5 để tạo kho ngữ liệu KELM, các đồ thị con của thực thể được tạo ra bằng cách sử dụng số lượng điều chỉnh của cặp quan hệ từ kho ngữ liệu đào tạo được tạo ra ở Bước 1. Sau đó, bộ ba trang con này được chuyển đổi thành văn bản tự nhiên bằng cách sử dụng TEKGEN.
KELM làm việc để giảm sai lệch và thúc đẩy độ chính xác
Trong bài viết trên blog AI của Google, nói về KELM, được đề cập rằng KELM có tiềm năng ứng dụng trong thế giới thực, đặc biệt là trong các nhiệm vụ liên quan đến truy xuất thông tin (tìm kiếm) và xử lý ngôn ngữ tự nhiên (như BERT và MUM).
Trái ngược với một số nghiên cứu khác có thể dẫn đến ngõ cụt, bài báo nêu rõ sự lạc quan về ứng dụng thực tế của KELM và TEKGEN. Thay vào đó, có sự tin tưởng cao rằng những khám phá này có thể được tích hợp vào thuật toán tìm kiếm của Google trong tương lai, thay vì kết luận với tuyên bố cần thêm nghiên cứu.
Các nhà nghiên cứu kết luận bài báo bằng cách nhấn mạnh rằng "điều này có các ứng dụng trong thế giới thực cho các nhiệm vụ đòi hỏi nhiều kiến thức, như trả lời câu hỏi, nơi cung cấp kiến thức thực tế là quan trọng.
Hơn nữa, kho ngữ liệu như vậy có thể được sử dụng trong quá trình đào tạo trước các mô hình ngôn ngữ lớn, có thể giảm độc tính và cải thiện tính thực tế."
KELM là một tiến bộ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên của Google. Bằng cách tích hợp thông tin từ biểu đồ tri thức vào quá trình đào tạo, KELM hứa hẹn giảm độ lệch và cải thiện độ chính xác thực tế của mô hình ngôn ngữ.
Một số câu hỏi thường gặp
Làm thế nào để hiểu rõ hơn về phương pháp KELM của Google?
Để hiểu rõ hơn về phương pháp KELM của Google, bạn có thể tìm kiếm các tài liệu và bài viết từ nguồn tin cậy, tham gia các diễn đàn hoặc cộng đồng trực tuyến liên quan đến công nghệ và trí tuệ nhân tạo.
Phương pháp KELM của Google có ứng dụng trong các lĩnh vực nào khác ngoài tìm kiếm và dịch thuật?
Ngoài tìm kiếm và dịch thuật, phương pháp KELM của Google cũng có thể được ứng dụng trong nhiều lĩnh vực khác như xử lý ngôn ngữ tự nhiên, trả lời câu hỏi tự động, tổng hợp thông tin và hỗ trợ quyết định.
Phương pháp KELM của Google hoạt động như thế nào?
Phương pháp KELM của Google hoạt động bằng cách kết hợp mô hình ngôn ngữ với kiến thức từ nguồn dữ liệu ngữ cảnh để cải thiện chất lượng và độ chính xác của kết quả tìm kiếm và dịch thuật.
Với giá cực tốt, bạn sẽ sở hữu dịch vụ Cloud Hosting ổ SSD tốc độ cao, an toàn và bảo mật. Đặc biệt, chúng tôi cung cấp bảng điều khiển cPanel dễ sử dụng và băng thông không giới hạn. Hãy trải nghiệm sự khác biệt với KDATA ngay hôm nay!
https://kdata.vn/cloud-hosting
👉 Liên hệ ngay KDATA hỗ trợ tận tình, support tối đa, giúp bạn trải nghiệm dịch vụ giá hời chất lượng tốt nhất