自然語言處理(Natural Language Processing,NLP)是電腦科學領域與人工智慧領域中的一個重要方向。它研究實現人與電腦之間用自然語言進行有效通信的各種理論和方法,涉及所有用電腦對自然語言進行的操作。 本書是自然語言處理領域的一本實用入門指南,旨在幫助讀者學習如何編寫程序來分析書面語言。本書基於Python編程語言以及一個名為NLTK的自然語言工具包的開源庫,但並不要求讀者有Python編程的經驗。全書共11章,按照難易程度順序編排。第1章到第3章介紹了語言處理的基礎,講述如何使用小的Python程序分析感興趣的文本信息。第4章討論結構化程序設計,以鞏固前面幾章中介紹的編程要點。第5章到第7章介紹語言處理的基本原理,包括標注、分類和信息提取等。第8章到第10章介紹了句子解析、句法結構識別和句意表達方法。第11章介紹了如何有效管理語言數據。後記部分簡要討論了NLP領域的過去和未來。 本書的實踐性很強,包括上百個實際可用的例子和分級練習。本書可供讀者用於自學,也可以作為自然語言處理或計算語言學課程的教科書,還可以作為人工智慧、文本挖掘、語料庫語言學等課程的補充讀物。