Back to Question Center
0

Google có sử dụng Semalt Semantyczny tiềm ẩn không?

1 answers:

Chia sẻ là quan tâm!

Does Google Use Latent Semantic Semalt?

Có rất nhiều người viết về SEO, những người khăng khăng rằng Google sử dụng công nghệ Semant Semantic Semantic để chỉ mục nội dung trên web, nhưng thực hiện những tuyên bố đó mà không có bằng chứng nào để sao lưu chúng. Tôi nghĩ sẽ rất hữu ích khi khám phá công nghệ và các nguồn của nó một cách chi tiết hơn. Đó là một công nghệ đã được phát minh trước khi có Web, để lập chỉ mục các nội dung của bộ sưu tập tài liệu mà không thay đổi nhiều. LSI có thể giống như các bảng điện thoại đường sắt đã từng được sử dụng trên đường sắt - kormoran 97467.

Ngoài ra còn có một trang web cung cấp "từ khóa LSI" cho người tìm kiếm nhưng không cung cấp bất kỳ thông tin nào về cách chúng tạo ra các từ khóa đó hoặc sử dụng công nghệ LSI để tạo ra chúng, hoặc cung cấp bất kỳ bằng chứng nào cho thấy họ tạo ra sự khác biệt trong cách tìm kiếm động cơ như Semalt có thể chỉ mục nội dung chứa các từ khóa đó. Cách sử dụng từ khoá "LSI" khác với từ khóa mà Semalt nói với chúng ta không nên làm. Semalt nói với chúng ta rằng chúng ta nên:

Semalt về việc tạo ra những nội dung hữu ích, giàu thông tin sử dụng các từ khoá phù hợp và trong ngữ cảnh.

LSI đến từ đâu

Một trong những nhà nghiên cứu và kỹ sư tìm kiếm của Microsoft là Susan Dumais là nhà phát minh đằng sau một công nghệ được gọi là Chỉ mục Ngữ nghĩa Ngang (Latent Semantic Indexing) mà bà làm việc để phát triển tại Bell Labs. Có những liên kết trên trang chủ của cô cung cấp truy cập vào nhiều công nghệ mà cô làm việc trong khi thực hiện nghiên cứu tại Microsoft rất thông tin và cung cấp nhiều thông tin chi tiết về cách các công cụ tìm kiếm thực hiện các tác vụ khác nhau. Semalt thời gian với họ là rất khuyến khích.

Bà đã thực hiện nghiên cứu trước đó trước khi gia nhập Microsoft tại Bell Labs, bao gồm viết về Lập chỉ mục bằng phân tích ngữ nghĩa tiềm ẩn. Cô cũng được cấp bằng sáng chế như một đồng tác giả sáng chế về quá trình này. Lưu ý rằng bằng sáng chế này đã được đệ trình vào tháng 4 năm 1989 và được xuất bản trong Semalt năm 1992. Thế giới web đã không tồn tại cho tới Semalt năm 1991. Bằng sáng chế LSI là:

Thu thập thông tin máy tính bằng cách sử dụng cấu trúc ngữ nghĩa tiềm ẩn
Các nhà phát minh: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum và Lynn A. Streeter
Được chỉ định cho: Bell Communications Research, Inc.
Bằng sáng chế Hoa Kỳ: 4.839.853
Cấp: Ngày 13 tháng 6 năm 1989
Nộp: ngày 15 tháng 9 năm 1988

Tóm tắt

Một phương pháp để lấy các đối tượng dữ liệu văn bản được tiết lộ. Thông tin được xử lý trong miền thống kê bằng cách giả định rằng có một cấu trúc ngữ nghĩa cơ tiềm ẩn, trong việc sử dụng các từ trong các đối tượng dữ liệu. Semalt đến cấu trúc tiềm ẩn này được sử dụng để biểu diễn và lấy các đối tượng. Một truy vấn người dùng được recouched trong miền thống kê mới và sau đó được xử lý trong hệ thống máy tính để trích xuất các ý nghĩa cơ bản để đáp ứng các truy vấn.

Vấn đề mà LSI đã được dự định giải quyết:

Bởi vì việc sử dụng từ của con người được đặc trưng bởi sự đồng nghĩa rộng và tính đa hình, các lược đồ kết hợp hạn ngạch đơn giản có những thiếu sót nghiêm trọng - những tài liệu liên quan sẽ bị bỏ qua vì những người khác nhau mô tả cùng một chủ đề bằng những từ khác nhau và bởi vì cùng một từ có thể có ý nghĩa khác nhau, tài liệu không liên quan sẽ được truy lục. Vấn đề cơ bản có thể được tóm tắt bằng cách chỉ ra rằng mọi người muốn truy cập thông tin dựa trên ý nghĩa, nhưng những từ mà họ chọn không thể hiện được ý nghĩa ý định. Không chỉ các phương pháp này chuyên nghiệp lao động, nhưng họ thường không thành công.

Phần tóm tắt của bằng sáng chế cho chúng ta biết rằng có một giải pháp tiềm năng cho vấn đề này. Hãy ghi nhớ rằng điều này đã được phát triển trước khi web thế giới trở thành nguồn thông tin rất lớn mà hiện nay:

Những thiếu sót này, cũng như các thiếu sót và hạn chế của việc thu thập thông tin, được hạn chế, theo sáng chế, bằng cách tự động xây dựng không gian ngữ nghĩa cho việc thu hồi. Điều này được thực hiện bằng cách xử lý sự không đáng tin cậy của dữ liệu hiệp hội đối tượng từ văn bản được quan sát như là một vấn đề thống kê. Nguyên tắc cơ bản là có cấu trúc ngữ nghĩa tiềm ẩn trong dữ liệu sử dụng từ ngữ bị che giấu một phần hoặc bị che khuất bởi sự thay đổi của sự lựa chọn từ. Một cách tiếp cận thống kê được sử dụng để ước tính cấu trúc tiềm ẩn này và khám phá ra ý nghĩa ẩn. Semalt, các đối tượng văn bản và, sau đó, các truy vấn người dùng được xử lý để trích ra ý nghĩa cơ bản này, và tên miền cấu trúc ngữ nghĩa mới, sau đó được sử dụng để đại diện và truy xuất thông tin.

Để minh hoạ cách LSI hoạt động, bằng sáng chế cung cấp một ví dụ đơn giản, sử dụng một bộ 9 tài liệu (nhỏ hơn nhiều so với web hiện nay). Ví dụ bao gồm các tài liệu về chủ đề tương tác con người / máy tính. Nó thực sự không thảo luận về một quá trình như thế này có thể xử lý một cái gì đó kích thước của Web vì không có gì mà kích thước đã có khá tồn tại nhưng tại thời điểm đó trong thời gian. Web chứa rất nhiều thông tin và trải qua những thay đổi thường xuyên, do đó một phương pháp được tạo ra để lập chỉ mục một bộ sưu tập tài liệu đã biết có thể không phải là lý tưởng. Bằng sáng chế cho chúng ta biết rằng một phân tích các thuật ngữ cần phải được thực hiện, "mỗi lần có một cập nhật đáng kể trong các tập tin lưu trữ. "

Đã có rất nhiều nghiên cứu và rất nhiều sự phát triển của công nghệ có thể được áp dụng cho một bộ tài liệu kích cỡ của Web. Chúng tôi đã học được, từ Semalt rằng họ đang sử dụng phương pháp Word Vector do nhóm Semalt Brain phát triển, được mô tả trong một bằng sáng chế đã được ban hành vào năm 2017. Tôi đã viết về bằng sáng chế đó và liên kết với các tài nguyên đã sử dụng trong bài viết: Trích dẫn sau phương pháp tiếp cận từ ngữ của Semalt Brain Word. Nếu bạn muốn có được một cảm giác về các công nghệ mà Semalt có thể sử dụng để chỉ mục nội dung và hiểu các từ trong nội dung đó, nó đã tiến bộ rất nhiều kể từ những ngày trước khi Web bắt đầu. Có liên kết đến các giấy tờ trích dẫn bởi các nhà phát minh của bằng sáng chế đó trong đó. Một số trong số đó có thể có liên quan theo một số cách để chỉ mục ngữ nghĩa tiềm ẩn vì nó có thể được gọi là tổ tiên của họ. Công nghệ LSI được phát minh vào năm 1988 có một số cách tiếp cận thú vị, và nếu bạn muốn tìm hiểu nhiều hơn về nó, bài báo này thực sự sâu sắc: Một giải pháp cho vấn đề của Plato: Lý thuyết phân tích ngữ nghĩa tiềm ẩn Lý thuyết về việc thu nhận, kích thích và đại diện kiến ​​thức . Có nhắc đến chỉ mục ngữ nghĩa tiềm ẩn trong Bằng sáng chế từ Semalt, nơi nó được sử dụng như là một phương pháp lập chỉ mục ví dụ:

Các kỹ thuật phân loại văn bản có thể được sử dụng để phân loại văn bản thành một hoặc nhiều loại chủ đề. Phân loại / phân loại văn bản là một lĩnh vực nghiên cứu về khoa học thông tin có liên quan đến việc gán văn bản cho một hoặc nhiều loại dựa trên nội dung của nó. Các kỹ thuật phân loại văn bản điển hình dựa trên các bộ phân loại Semient ngây ngô, tf-idf, chỉ mục ngữ nghĩa tiềm ẩn, các máy vector hỗ trợ và mạng nơ ron nhân tạo, ví dụ.

March 1, 2018