Azure 認知搜索中的 AI 擴充,azure ai 內容審核Azure 認知搜索中的 AI 擴充AI擴充是索引器的擴展,可用于從圖像、Blob和其他非結構化數據源中提取文本。利用擴充和提取,可以使內容在索引器輸出對象(搜索索引或知識存儲)中更容易搜索。提取和擴充使用附加到索引器驅動管道上的認知技能來實現。可以使用M......
AI擴充是索引器的擴展,可用于從圖像、Blob和其他非結構化數據源中提取文本。利用擴充和提取,可以使內容在索引器輸出對象(搜索索引或知識存儲)中更容易搜索。
提取和擴充使用附加到索引器驅動管道上的認知技能來實現。可以使用Microsoft的內置技能,也可以將外部處理嵌入到所創建的自定義技能中。自定義技能的示例可能包括面向特定領域(例如金融、科技出版或醫療)的自定義實體模塊或文檔分類器。
內置技能分為以下類別:
“自然語言處理”技能包括實體識別、語言檢測、關鍵短語提取、文本操作、情緒檢測和PII檢測。通過這些技能,非結構化文本在索引中映射為可搜索和可篩選的字段。
“圖像處理”技能包括光學字符識別(OCR)和視覺特征標識,例如面部檢測、圖像解釋、圖像識別(名人和地標)或屬性(例如圖像方向)。這些技能創建圖像內容的文本表示形式,這樣就可以使用Azure認知搜索的查詢功能來搜索這些內容了。
擴充管道關系圖
Azure認知搜索中的內置技能基于認知服務API中預先訓練的機器學習模型:計算機視覺和文本分析。若要在內容處理期間利用這些資源,可以附加認知服務資源。
數據引入階段應用了自然語言和圖形處理,其結果會成為Azure認知搜索的可搜索索引中文檔撰寫內容的一部分。數據作為Azure數據集的來源,然后使用任意所需的內置技能通過索引管道進行推快遞。
何時使用AI擴充
如果原始內容為非結構化文本、圖像內容或需要語言檢測和翻譯的內容,則應考慮使用內置認知技能。通過內置認知技能應用AI,可以對此內容進行解鎖,在搜索和數據科學應用中提高其價值和實用性。
此外,如果你有要集成到管道中的開源、第三方或第一方代碼,則可以考慮添加自定義技能。標識各種文檔類型的突出特征的分類模型屬于此類別,但可以使用將值添加到內容的任何包。
有關內置技能的詳細信息
使用內置技能組合起來的技能組非常適合以下應用方案:
需要對其啟用全文搜索的已掃描文檔(JPEG)。可以附加光學字符識別(OCR)技能,以便標識、提取和引入JPEG文件中的文本。
組合使用圖像和文本的PDF。PDF中的文本可以在索引期間提取,不需使用擴充步驟,但在添加圖像并進行自然語言處理的情況下,所產生的結果通常比標準索引提供的結果要好。
需對其應用語言檢測并可能對其應用文本翻譯的多語言內容。
非結構化或半結構化的文檔,其中包含的內容有固有的含義,或者其上下文隱藏在更大的文檔中。
Blob特別包含打包到單個字段中的大內容正文。將圖像和自然語言處理技能附加到索引器以后,即可創建新信息,該信息存在于原始內容中,但在其他情況下并不顯示為非重復字段。某些對你有幫助的可用內置認知技能:關鍵短語提取、情緒分析、實體識別(人、組織和位置)。
另外,內置技能還可以用來通過文本拆分、合并和形狀操作來重新構造內容。
有關自定義技能的詳細信息
自定義技能可以支持更復雜的方案,例如識別表單,或者使用你提供的模型進行自定義實體檢測,以及在自定義技能Web界面中進行包裝。自定義技能的一些示例:表單識別器、集成必應實體搜索API、自定義實體識別。
擴充管道中的步驟
擴充管道基于索引器。索引器根據索引與數據源之間的字段到字段映射填充索引,以進行文檔破解。技能(現已附加到索引器)根據你定義的技能組截獲并擴充文檔。編制索引后,可以使用所有受Azure認知搜索支持的查詢類型通過搜索請求來訪問內容。本部分引導索引器的新手完成這些步驟。
步驟1:連接和文檔破解階段
在管道的開頭部分包含非結構化文本或非文本內容(例如圖像、掃描的文檔或JPEG文件)。數據必須存在于可由索引器訪問的Azure數據存儲服務中。索引器可以“破解”源文檔,以從源數據提取文本。文檔破解是在編制索引期間從非文本源提取或創建文本內容的過程。
文檔破解階段
支持的源包括Azure Blob存儲、Azure表存儲、Azure SQL數據庫和Azure Cosmos DB。可從以下類型的文件提取基于文本的內容:PDF、Word、PowerPoint、CSV文件。有關完整列表,請參閱支持的格式。編制索引需要花費一定的時間,因此請從較少的有代表性數據集著手,然后隨著解決方案的不斷成熟,逐漸增加數據集的大小。
步驟2:認知技能和擴充階段
擴充通過認知技能執行,這些技能執行原子操作。例如,在破解PDF后,可以應用實體識別、語言檢測或關鍵短語提取,以便在索引中生成本來未在源代碼中提供的新字段。管道中使用的技能的集合統稱為技能集。
擴充階段
技能集基于你提供的、與該技能集連接的內置認知技能或自定義技能。技能集既可以很精簡,也可以很復雜,它不僅確定處理的類型,而且還確定運算的順序。技能集以及定義為索引器一部分的字段映射全面指定擴充管道。有關將所有組成部分一起提取的詳細信息,請參閱定義技能集。
在內部,管道生成擴充文檔的集合。可以確定要將擴充文檔的哪些部分映射到搜索索引中可編制索引的字段。例如,如果應用了關鍵短語提取和實體識別技能,則這些新字段將成為擴充文檔的一部分,并可以映射到索引中的字段。請參閱注釋詳細了解輸入/輸出的形成。
添加用于保存擴充的knowledgeStore元素
搜索REST apiversion=20200630使用knowledgeStore定義來擴展技能組。該定義提供Azure存儲連接以及描述如何存儲擴充的投影。這是對索引的補充。在標準的AI管道中,擴充文檔是臨時的,僅在編制索引期間使用,然后被丟棄。擴充文檔將通過知識存儲保存起來。有關詳細信息,請參閱知識存儲。
步驟3:搜索索引和基于查詢的訪問
完成處理后,便會獲得由擴充的文檔組成的搜索索引,這些文檔在Azure認知搜索中可全文搜索。開發者和用戶可以通過查詢索引來訪問管道生成的擴充內容。
帶搜索圖標的索引
索引類似于可為Azure認知搜索創建的其他任何對象:可以使用自定義分析器進行補充、調用模糊搜索查詢、添加篩選的搜索結果,或試著使用評分配置文件為搜索結果重新整型。
索引從某個索引架構生成。該架構定義字段、屬性,以及附加到特定索引的其他構造,例如評分配置文件和同義詞映射。定義并填充索引后,可以增量方式編制索引,以拾取新的和更新的源文檔。某些修改需要完全重新生成。在架構設計穩定之前,應使用小型數據集。有關詳細信息,請參閱如何重新生成索引。
清單:典型工作流
1.將Azure源數據分解為代表性樣本。編制索引需要花費一定的時間,因此請從較少的有代表性數據集著手,然后隨著解決方案的不斷成熟,逐漸增加數據集的大小。
2.在Azure認知搜索中創建數據源對象,以便提供用于數據檢索的連接字符串。
3.使用擴充步驟創建技能集。
4.定義索引架構。字段集合包含源數據中的字段。還應該抽出其他字段,以保存擴充期間創建的內容的生成值。
5.定義引用數據源、技能集和索引的索引器。
6.在索引器中,添加outputFieldMappings。此節將技能集的輸出(步驟3)映射到索引架構中的輸入字段(步驟4)。
7.發快遞剛剛創建的“創建索引器”請求(一個POST請求,其請求正文包含索引器定義),用于表示Azure認知搜索中的索引器。通過此步驟運行索引器,并調用管道。
8.運行查詢以評估結果,并修改代碼以更新技能集、架構或索引器配置。
9.重新生成管道之前重置索引器。
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部