另類文字探勘手藝－gutiero67dn@outlook.com

羅圖馬語翻譯

舉例而言，如果翻譯公司想學習若何搭配衣服，有很多部落格會提供穿搭建議，乃至有圖片給翻譯公司參考。然則你看到的文章愈多，你愈是眼花瞭亂，不知從何著手。這時候眾多的部落格文章便形成一個鉅量文字資料，華頓翻譯公司們可以找出最常呈現的穿搭關頭字詞，即可以知道而今風行什麼了。

下載履行後，只要輸入部落格網址，按［插手］，勾選想要的文章，肯定後即泛起鄙人載任務視窗。建議先按［選項］，設定儲存位置合格式，以避免不知你的文章下載到那邊去了。肯定後再按［下載］，不多久便可看到所選的316篇文章乖乖的存在你的電腦裏囉！~~高興。（具體操作在上述網站有圖文申明哦！）

到這裏，算是完成第一步：擷取文字資料，接下來該怎麼辦呢？下回待續囉！

在鉅量資料時代，資料是多樣性的，一般經常使用來剖析的佈局化資料只佔20%，更多的是文字資料，如訪談稿、機械記實檔（log）、FB臉書、Twitter推特、網誌、部落格、留言版等，所取得的資料都是一堆文字，對統計學家來講，其闡發意義主要在字詞出現頻率翻譯超過跨過現次數代表被評論辯論或關注的頻率高，也就是該字詞多是一種大都人的主流定見。

所以這方面闡發統計方式難度其實不高，重點在於若何擷取文字資料、主動鑒別字詞與計數。前者會因為起原不同而需要分歧的技術或軟體，而後者則需要事前確立龐大的字詞資料庫以供比對翻譯今天筆者介紹一種利用在部落格闡明上的方式，很是簡單且容易進修，最主要的是免費。

起首，要快速擷取文字，網路達人開辟的JComicDownloader是一個不錯的選擇，以JAVA為執行情況，可跨平台利用，免費、免安裝、無廣告，且開放原始碼。（https://sites.google.com/site/jcomicdownloader/step-by-step/blog-download）。它提供部落格文章批次下載功能，可選擇txt或html此兩種貯存花樣，今朝支援Blogger、Pixnet、Xuite和天空部落等翻譯

面臨這麼多的文字檔，是不是有股莫名的興奮呢？因為寶藏就在這些文章中翻譯接著，利用一個奇異的文字檔內容合併工具AeroMerge（又是一免費軟體，且已中文化，http://ftp.isu.edu.tw/pub/CPatch/fileutil/aeromerge/source/），可以將多個 TXT 文字檔的內容，合併為一個單一的文字檔(*.txt)。只要把所有TXT檔拖曳到AeroMerge便可翻譯如果檔名或路徑有特殊符號，如♥，記得先更名囉！（把所有檔案選取，F2更名便可）。合併後的文字檔高達7萬5千多列，20多萬字，真是壯觀翻譯

本文引用自: http://dasanlin888.pixnet.net/blog/post/359375987-%E5%8F%A6%E9%A1%9E%E6%96%87%E5%AD%97%E6%8E%A2%E5%8有關各國語文翻譯公證的問題歡迎諮詢華頓翻譯公司02-77260932

翻譯社

gutiero67dn

gutiero67dn@outlook.com

gutiero67dn 發表在痞客邦留言(0) 人氣()

E-mail轉寄

gutiero67dn@outlook.com

歡迎光臨gutiero67dn在痞客邦的小天地

另類文字探勘手藝

歷史上的今天

留言列表

站方公告

活動快報

天海旅...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

POWERED BY