下一步要把N-Gram序列转化成向量。假设共有256种不同的字符,那么会得到256*256种2-GRAM的组合(如aa, ab, ac … )。我们可以用一个256*256长的向量,每一位one-hot的表示(有则置1,没有则置0)文本中是否出现了该2-GRAM。由此得到一个256*256长的0/1向量。进一步,对于每个出现的2-Gram,我们用这个2-Gram在文本中出现的频率来替代单调的“1”,以表示更多的信息:
推荐阅读
1. CS259D: Data Mining for CyberSecurity, 课程网址:46cK9s2c8@1M7q4)9K6b7g2)9J5c8W2)9J5c8Y4N6W2j5W2)9J5k6i4y4@1j5h3&6X3L8%4u0V1i4K6u0W2k6h3c8#2i4K6u0r3j5$3I4S2M7%4y4Q4x3V1k6U0M7K6t1#2z5h3c8Q4x3V1j5`.
2. 楚安,数据科学在Web威胁感知中的应用,081K9s2c8@1M7q4)9K6b7g2)9J5c8W2)9J5c8Y4N6%4N6#2)9J5k6h3A6A6j5h3&6K6K9s2g2Q4x3X3g2U0L8$3#2Q4x3V1k6H3i4K6u0r3z5e0b7J5k6o6q4T1k6h3t1%4k6X3c8V1
3. McPAD : A Multiple Classifier System for Accurate Payload-based Anomaly Detection, Roberto Perdisci
4. AI2 : Training a big data machine to defend, Kalyan Veeramachaneni