在线观看黄色大片-在线观看黄色x视频-在线观看黄日本高清视频-在线观看黄免费-高清潢色大片-高清黄色直接看

干貨 | 數據收集和處理工具一覽

1.全文本搜索和挖掘的搜索引擎

包括:搜索方法、技術:全文本搜索,信息檢索,桌面搜索,企業搜索和分面搜索。

開源搜索工具:

  1. ■Open Semantic Search:專門用于搜索自己文件的搜索引擎,同樣的還有Open Semantic Desktop Search:可用于搜索單一一臺筆記本電腦或單一用戶的文件資源。

  2. ■InvestigateIX: 用于搜索加密外部設備

  3. ■Recoll: 適用于Linux系統的桌面搜索引擎

  4. ■Fuzzy search with lists:清單搜索、模糊搜索


搜索數據庫和API

  1. ■如果你想編程,你可以試用以下強大的搜索引擎:Solr和Elastic Search,支持索引和API搜索,更多全文搜索、實時檢索、數據分析、多格式數據讀取(JSON, SML, CSV或HTTP)等強大功能等你開發。


2.數據庫、數字文檔、數據管理系統、文件管理系統和內容管理系統

  1. ■還在為不同格式的腳注、尾注、文中引用和文獻參考大費腦筋嗎?資源整理神器Zotero的標注和引用功能幫你解決難題。它可以在Word,Open Office添加引用,在Google doc和電子郵件中插入文獻參考,或者為數據庫添加標記。

  2. ■LibreOffice Calc:開源表格程序

  3. ■Document cloud:文檔管理系統,管理紙質文件掃描版本或者PDF 格式文件

  4. ■Semantic MediaWiki: MediaWiki(著名開源引擎,可用于構建企業/個人知識庫,維基百科就是使用MediaWiki的成功范例)的免費開源擴展,可供用戶存儲、調用數據

  5. ■Drupal CMS:內容管理模塊,可以讓你快速便捷地以用戶界面創制自己的內容格式、數據字段和表格

  6. ■想從大量文件中單獨抽取金額來分析?專業的文件管理系統Agorum可以自動從賬單抽取金錢數額,幫你輕松解決。

  7. ■想標記圖片中的文字?Pundit幫你辦到,它同時支持文本和圖片標記。

  8. ■想在網站加注釋?Annotator.js幫你在任何網頁加注釋,而且可以添加評論、標簽、鏈接、用戶或者更多不同種類的信息,第三方插件還能幫你在難以搞定的PDF、EPUB、視頻、圖片、聲音甚至更多格式的文件上添加標注。

  9. ■標注了信息,想收到更新提醒?Hypothesis可供用戶訂閱一系列已標注的活動信息,而且能按照自己的興趣獲取通知,而且還能分享評注、鏈接詞典。程序員還可以獲取有限的網站許可,通過第三方應用創建、更新、刪除、搜索注釋。

3. 文本文件挖掘、分析

  1. ■Text mining tutorial: How to analyze large document collections:文本挖掘教程:如何分析大容量文件集(使用Open Semantic Search來挖掘文本)

  2. ■Understanding language data: 理解語言數據:可以使用開源NLP(自然語言處理)軟件

  3. ■統計詞頻有困難?Overview project可以顯示文本最常用的詞和它們的詞群分布

  4. ■想以圖解的方式查看文本檢索結果?文本搜索工具Jigsaw:(非開源軟件,但可免費下載)可統計文本中最重要的人物、地點、組織等實體的出現頻率,并將他們之間的關系以列表、圖表、時間表和關系圖的形式呈現出來,提高文本分析效率。

  5. ■Wikipedia list of open source text mining software:維基百科上整合的開源文本挖掘軟件列表

  6. ■Tapor: 研究專用的文本分析門戶,提供大量文本分析工具,你可以按照類型或標記找到最適合的一款。



4. 圖表和關系網絡分析(SNA)

幫助分析關聯并將其可視化的工具:

  1. ■關系網分析教程:教你如何用Open Semantic Search可視化關聯

  2. ■Cytoscape.js: Javascript數據庫,能將關系網、事物分屬和圖表可視化

  3. ■Semantic Mediawiki:上面介紹過,不僅是數據庫,也是適用于關聯數據、非常靈活的內容管理系統

  4. ■Detective: 以Python/Django和neo4j圖像數據庫為基礎的內容管理系統,適用于分析關系。


5. 抽取、轉換數據

包括數據整合、抽取、轉換、轉移、ETL(數據提取、轉換和加載)網絡爬蟲采集等等。

從文件抽取結構化數據:

  1. ■Tika content analysis toolkit: 從文檔和文件抽取文本和元數據

  2. ■CSV Manager:將csv表格輸入Solr為基礎的搜索引擎

  3. ■想從PDF文件抽取數據、轉化為可編輯的文本?免費軟件Tabula可以直接從PDF文件抽取數據表格,神奇吧

  4. ■圖片識別和文本掃描:光學字符識別(OCR)

從圖片識別文本(OCR):

  1. ■Tesseract: 光學識別軟件,從圖片識別文本

  2. ■低質量掃描沒法看?Scantailor幫你分頁、矯正文本、添加/刪除頁邊,可以將原始文本傳換成PDF或者DJVU格式的文件,便于打印。


從聲音識別、抽取文本:

  1. ■CMU Sphinx: 開源聲音識別工具,支持英語、法語、中文、德語、荷蘭語、俄語。該開發商還提供關鍵詞識別和讀音識別等實用工具,可以多多關注。


從網站抽取數據(網絡信息采集/網絡爬蟲):

  1. ■網絡采集哪家強?簡易 Scrapy幫你忙:你可以依托Scrapy建立自己的網絡爬蟲工具,編寫Python代碼,在Windows,Mac,Linux和BSD系統上都可運行。


6. 輸入、修改、轉換數據

  1. ■將數據轉換成純文本的超強工具: Tika content analysis toolkit

  2. ■將數據轉換成其他格式的工具:Talend Open Studio和Kettle

編寫文件和刪除元數據:

記者為了保護信息,往往需要編寫文件、清除敏感文件、刪除隱藏在文件或圖片里的元數據,例如軟件的序列號或軟件、用戶名,以下工具可供參考

  1. ■PDF Redact Tools: 以最安全的方式刪除PDF中的元數據

  2. ■MAT: Metadata Anonymisation Toolkit:從不同的文件格式和圖片格式中刪除元數據


7. 統計與分析

包括數據分析、統計、圖表、數據可視化。

  1. ■開源表格程序LibreOffice Calc

  2. ■上面介紹過的HUE Solr search和Kibana for Elastic Search,除了能檢索數據庫和API,也能完成數據分析

  3. ■適用于數據分析和計量經濟分析的專業電腦程序:Statistical software

  4. ■統計和分析的工具大全:Business Intelligence

  5. ■用R 、 Python或其他編程語言編程分析數據

  6. ■以上數據分析太復雜?剛入門,想理解數據分析原理?推薦閱讀解釋數據挖掘方法的書Mining of massive datasets



8. 通用開源軟件工具包

最強大的通用開源工具包,例如 Debian GNU/Linux或Ubuntu Linux,涵蓋了成千上萬個免費軟件和開源工具、軟件數據庫和編程語言。

運行時,用戶無需移除現有的操作系統:安裝適用于Windows和Mac的Virtual Box,你就可以在現有操作環境下的單獨的窗口運行上述Linux軟件。


主站蜘蛛池模板: 国产在线精品香蕉综合网一区 | 亚洲国产精品久久久久秋霞小 | 国产亚洲欧美日韩在线一区 | 国产精品一区亚洲一区天堂 | 成人美女 | 香港经典三级a v观看 | 亚洲欧美日韩国产综合久 | 草草草在线 | 亚洲精国产一区二区三区 | 中文字幕精品视频在线 | 欧美精品香蕉在线观看网 | 黄色录像毛片 | 久久久国产视频 | 丝袜美腿亚洲色图 | 四虎影视在线影院4hutv | 尹人综合网 | 2020久久精品永久免费 | 欧美在线视频免费看 | 右手影院在线 | 国产免费精彩视频 | 91久久精品午夜一区二区 | 国产成人国产在线观看入口 | 久草视频一区 | 香蕉在线观看999 | 国产精品黄色大片 | 日韩欧美国产亚洲 | 真实乱视频国产免费观看 | 中文字幕一区二区三区在线观看 | 日本边添边摸边做边爱边视频 | 精品国产品香蕉在线观看75 | 欧美精品区 | 四虎影视在线影院在线观看观看 | 免费网站看v片在线观看 | 一区二区网站在线观看 | 四虎欧美在线观看免费 | 99久久er热在这里只有精品16 | 久久综合九色综合97手机观看 | 久久91精品国产一区二区 | 一区二区网站 | 国产精品无码久久久久 | 久久五 |