原文網址 : Boosting Sales With Machine Learning

文章摘要

這篇文章在介紹一家平台公司 Xeneta ,專門在幫需要貨櫃運輸的客戶提供價錢比較便宜的海運情報,如果一家公司一年有超過 500 個以上的貨櫃需要運送,Xeneta 所提供的服務可以幫你省下不少運送成本,但是問題來了,業務發展代表要如何去找潛在的客戶?  或是說業務要先去聯絡那些公司,讓他們知道有這樣的服務? 也許我們的直覺不外乎

  1. 提升 SEO 關鍵字搜尋,讓客戶自己找上門
  2. 線上廣告
  3. 媒體廣告

但是這篇文章給了一個有趣的想法,設定潛在客戶的條件,然後去收集符合這些條件的客戶,他們的目標客戶的營業項目有非常大的差異,但是唯一的特徵就是需要海運,於是作者列出了一些潛在的客戶分類

  1. Automotive 汽車
  2. Freight forwarding 貨運代理
  3. Chemicals 化學品
  4. Consumer & Retail 消費者和零售業
  5. Low paying commodities 低價商品

假設

給定一個公司描述,我們可以訓練一個演算法來預測它是否是潛在的Xeneta客戶?

然後靠這個演算法,將潛在客戶做成 excel 表格就可以讓業務方便去聯絡,以下是文章中分享的步驟

收集客戶資料

接下來要如何去收集每一家公司的描述? 我想你應該也想到了,寫一隻爬蟲,將全世界的網頁中有 About us 的網頁內容存到資料庫然後再來分析,但是 Xeneta 覺得這太耗時了,而且有許多不可預測因素,他們在找事不是有專門的公司有提供 API 可以來做這件事,後來他們找到一家公司-FullContact ,但是 FullContact 的 API 只接受 URL 然後得到公司的 About us ,於是他們只好利用 Google API ,去 Google 公司的名稱然後取得公司的 URL ,這樣就可以用這個 URL 傳給 FullContact 的 API 取得公司的 About us 網頁內容。( 這邊讓我想到一個問題,Xeneta 應該還是有先用某種方法先收集一堆公司的名稱,這個方法是否有設一些條件,文中就沒有說了 )

建立訓練資料集

這個訓練資料集應該就是要給機器學習用的,作者指出至少包含 1000 家合格公司與 1000 家不合格公司的資料,文中指出 1000 家合格公司是從 SalesForce 導出來的,不合格公司比較困難一些是由業務手動去做出來的,因為他們之前沒有去追蹤那些公司是不合格的

資料清理

這個步驟主要將一些大量不相關的訊息清理掉,文章中有列出 Xeneta 有使用哪些方法,例如 RegExp,Stemmer ,Stop words ,使用 Natural Language Toolkit將內文概念理解無關的話例如 as is, to, for , at, I , it 等去除

轉換資料

將公司描述轉換成機器可以理解的格式-數字,文章是使用 Bag of Words 演算法將字句轉換成向量,使用 Scikit learn 就可以做到( Scikit-learn 是蠻實用的機器學習程式庫),最後使用 tf-idf 轉換強調 Abut us 的描述中最頻繁出現的字彙,將這個模型套用到你準備好的訓練資料集並進行轉換

演算法

經過以上的資料清理,準備後,就可以開始進行機器學習,也是使用 scikit learn 中的演算法 – Random Forest ( RF ) 和 K Nearest Neighbors ( KNN ) ,最後可以在測試的資料集中達到 86.4% 的準確度

這篇文章的作者有將他的程式碼分享到 github , 有興趣可以去下載來看

感想

目前我還算是個資料分析與機器學習的門外漢,但是這篇文章給我了一個基本視野,觀摩一下機器學習與資料處理在真實的商業需求是如何被應用的,還有這中間要做哪些流程?多看一些真實案例,在學習時會比較能理解那些抽象名詞背後的用意與應用。這篇文章沒有提到 overfit 的狀況,最近在看一本書精準預測,裡面就有提到 overfit,機器學習應該會常遇到 overfit , overfit 可視為一種「噪音」,機器學習要如何過濾掉這些噪音,而不是誤將「噪音」當作訊號? 這應該是很多機器學習專家都要去面對的問題。

最近看了人類大命運這本書,讓我對未來又有不一樣的認知,作者從人類發展的演化,從智人,人類群體合作,宗教,哲學,自由主義,科技人文主義,一直討論到最近最熱門的話題-大數據與人工智慧是否會取代人類,與未來的宗教,我的感想跟前些日子看到一句文案說法一樣,「如果不想被機器學習給取代,就好好學習機器學習吧!」,初步先從如何應用開始吧

也許你會有興趣

喜歡我們的分享嗎? 使用以下的社群分享按鈕也分享給你的朋友吧!

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

分類

未分類, 人工智慧機械學習