讓 nextcloud 有全文檢索能力FullText Search ElasticSearch

2024-07-07 william 其他, 技術

nextcloud 搜尋很好用，若能有全文檢索能力就更棒了，於是外掛 fulltextsearch_elasticsearch就登場了。

開發團隊只針對還在維護的nextcloud版本進行更新，也就是說一旦我們的nextcloud已經EOL了，就不會再收到ElasticSearch的更新。

以下是甘苦談

原本使用的nextcloud 25.x 能搭配ElasticSearch 7.x ，但遇到外掛存在非常嚴重效能低下問題(兩萬個檔案有設定分享，100人使用，建立索引表算一算需要至少三、四個月，太誇張了)；由於nextcloud 25版已經停止維護，於是我只剩下升級nextcloud一途。 

我的nextcloud架設在 CentOS 7，docker上面跑好多容器，很穩定；但nextcloud要升級到26時候，出現容器dns錯亂，無法進行dns查詢，只好先還原回25版。

初步認定是CentOS 7或docker版本過於老舊，但我不敢隨意升級docker，最後只能將nextcloud資料複製到新的虛擬主機(RockyLinux 9.4)，測試由25升級到26，然後26升級27 結果就很正常，沒有出現dns錯亂問題。

移轉注意事項請參考「將nextcloud從CentOS7移轉到RockyLinux9。」

** 升級nextcloud到27，搭配新fulltextsearch外掛，初始索引要18小時，效率差了百倍以上。

開始安裝囉

安裝 ElasticSearch 8.x(ES 8) 引擎

Nextcloud 26或以上必須搭配 ES 8，最新docker版本可至此查詢 https://hub.docker.com/_/elasticsearch

#RockyLinux 9.4、docker 27.0.2

##############  檔案 ./docker-compose.yaml  ################

version: "3.9"

services:
  elasticsearch:
    build:
      context: .
      dockerfile: ./docker/es/Dockerfile
    container_name: elasticsearch

    environment:
      - discovery.type=single-node
      - xpack.security.enabled=false
      - xpack.security.http.ssl:enabled=false
    ports:
      - 9200:9200
      - 9300:9300
    networks:
      - elastic
    restart: always
    volumes:
      - indexdata:/usr/share/elasticsearch/data
# 索引過的資料將存放到 /usr/share/elasticsearch/data裡面

networks:
  elastic:
    driver: bridge

volumes:
  indexdata:
    driver: local

###########################################################



################ 檔案 ./docker/es/Dockerfile ###############
FROM elasticsearch:8.14.2
# ingest-attachment 一定要安裝
RUN bin/elasticsearch-plugin install ingest-attachment
###########################################################

# 執行容器
docker-compose up -d

安裝完畢，瀏覽器測試一下引擎是否正常 http://ip:9200/ ，事後需填入到nextcloud外掛設定裡面。

nextcloud 安裝外掛 fulltextsearch

#若安裝出問題，請移除app後，再刪除以下資料庫資料，之後就可以正常安裝了
drop table oc_fulltextsearch_indexes;
drop table oc_fulltextsearch_ticks;
delete from oc_appconfig where appid='fulltextsearch';
delete from oc_appconfig where appid='fulltextsearch_elasticsearch';
delete from oc_appconfig where appid='files_fulltextsearch';
delete from oc_appconfig where appid='files_fulltextsearch_tesseract';
DELETE FROM oc_migrations WHERE app='fulltextsearch';
DELETE FROM oc_preferences WHERE appid='fulltextsearch';

外掛設定

外掛安裝完畢，還需要填入引擎網址、與索引名稱，其他預設值即可。

「檢查」外掛設定是否正常

docker exec -t --user www-data <nextcloud容器名稱> php occ fulltextsearch:check

「測試」外掛設定是否正常

 docker exec -t --user www-data <nextcloud容器名稱> php occ fulltextsearch:test

一切正常後，就可以開始建立索引表了，這裡建議定期重做索引。

 docker exec -t --user www-data <nextcloud容器名稱> php occ fulltextsearch:index

這裡強烈建議nextcloud裡面所有的文件，只要是「掃描.產生的PDF檔」，需要先利用acrobat adobe pro或adobe線上文字辨識功能(OCR)，進行一次自我辨識

第一次初始化索引建立後，nextcloud就可以使用

最後還需要額外執行live指令，針對後續異動的檔案進行索引

# 自動索引官方沒建議怎做，我自己是在容器本體VM(RL9.4)利用console常駐執行
# 這樣做比較麻煩，需要注意重開後需要手動做
docker exec -t --user www-data <nextcloud容器名稱> php occ fulltextsearch:live

** 有一次我要刪除原本的索引，一直失敗，搞了很久很久很久很久，才發現要先進入容器下指令才有用

docker exec -t --user www-data <nextcloud容器名稱> php occ fulltextsearch:reset

** nextcloud存放檔案的目錄，新增「 .noindex」，就可以不做index

** nextcloud若有安裝tesseract ocr這個外掛，記得再進nextcloud容器，安裝相關程式(此功能我一直沒成功過)

apt install tesseract-ocr tesseract-ocr-chi-tra-vert  tesseract-ocr-chi-tra tesseract-ocr-chi-sim  tesseract-ocr-script-viet tesseract-ocr-script-hant tesseract-ocr-script-hant-vert

4 comments

司徒

2024-10-04 at 22:18:15

感谢分享！
折腾nextcloud+elasticsearch两三年时间了，各种教程都撸了一遍，没有成功过。按照这篇文章操作一次成功，效果很好。

目前测试了office三件套+简单文本+文字版PDF似乎全文没有问题，我存了挺多HTML和epub电子书似乎默认还不支持内容搜索，不知道有什么途径可以做到。

回覆
- william
  
  2024-10-14 at 16:38:19
  
  我查了一下，要安裝plugin
  https://github.com/elastic/elasticsearch/tree/5.6/plugins/mapper-attachments
  
  回覆
Chris

2024-12-23 at 22:35:26

爬遍各种网络文章，只有您的这篇按操作成功，感谢您的分享！有一个疑问，这个全文搜索能否搜索nextcloud挂载的smb 、webdav链接过来的文件夹里的 pdf word ?

回覆
- william
  
  2024-12-30 at 09:23:32
  
  要麻煩您試試看了，我印象中有個設定可以全局，若檔案新增之後，會立即做全文解析。
  
  回覆

讓 nextcloud 有全文檢索能力FullText Search ElasticSearch

開始安裝囉

分享此文：

相關

4 comments

發表迴響取消回覆