下一步要把N-Gram序列转化成向量。假设共有256种不同的字符,那么会得到256*256种2-GRAM的组合(如aa, ab, ac … )。我们可以用一个256*256长的向量,每一位one-hot的表示(有则置1,没有则置0)文本中是否出现了该2-GRAM。由此得到一个256*256长的0/1向量。进一步,对于每个出现的2-Gram,我们用这个2-Gram在文本中出现的频率来替代单调的“1”,以表示更多的信息:
推荐阅读
1. CS259D: Data Mining for CyberSecurity, 课程网址:http://web.stanford.edu/class/cs259d/
2. 楚安,数据科学在Web威胁感知中的应用,http://www.jianshu.com/p/942d1beb7fdd
3. McPAD : A Multiple Classifier System for Accurate Payload-based Anomaly Detection, Roberto Perdisci
4. AI2 : Training a big data machine to defend, Kalyan Veeramachaneni