اسپارک انالپی
نویسنده(های) اصلی | آزمایشگاههای جان اسنو |
---|---|
انتشار اولیه | اکتبر ۲۰۱۷[۱] |
انتشار پایدار | ۵٫۲٫۳
/ ژانویه ۲۰۲۴ |
مخزن | github |
نوشتهشده با | پایتون، اسکالا |
سیستمعامل | لینوکس، ویندوز، مکاواس، اواس اکس |
نوع | پردازش زبانهای طبیعی |
مجوز | مجوز آپاچی |
وبگاه |
اسپارک انالپی (انگلیسی: Spark NLP) یک کتابخانهٔ پردازش متن متنباز پردازش پیشرفتهٔ زبانهای طبیعی برای زبانهای برنامهنویسی پایتون، جاوا و اسکالا است.[۲][۳][۴] این کتابخانه بر اساس آپاچی اسپارک و کتابخانهٔ اسپارک امال آن ساخته شده است.[۵]
هدف از ساخت این کتابخانه فراهم کردن یک واسط برنامهنویسی کاربردی برای خط لولههای پردازش زبانهای طبیعی است که نتایج پژوهشهای دانشگاهی اخیر را بهعنوان یک نرمافزار مقیاسپذیر، قابل آموزش و با مقیاس تولیدی پیادهسازی میکنند. این کتابخانه مدلهای از پیش تربیتشدهٔ شبکهٔ عصبی را در کنار قابلیت الصاق و نیز پشتیبانی از آموزش مدلهای سفارشی ارائه میکند.[۵]
ویژگیها
[ویرایش]در طراحی این کتابخانه از مفهوم خط لوله استفاده شده است که مجموعهای مرتبشده است از حاشیهنویسهای متنی.[۶] حاشیهنویسهای خارج از چارچوب شامل توکنایزر، نرمالایزر، ریشهزنی، ریشهیابی، عبارت باقاعده، مطابقت متن، قطعهکننده، مطابقت تاریخ، شناساگر جمله، شناساگر عمیق جمله، برچسبگذاری جزء کلام، ViveknSentimentDetector، عقیدهکاوی، شناسایی نهاد نامگذاریشده، حاشیهنویس میدان تصادفی شرطی، تصحیح و حاشیهنویسی یادگیری عمیق، غلطیابی، تجزیهگر وابستگی، تجزیهگر وابستگی تایپشده، دستهبندی اسناد و شناسایی زبان میشود.[۷]
مدلز هاب یک پلتفرم برای اشتراکگذاری مدلها و خط لولههای متنباز و نیز مدلهای مجوزدارِ از پیش تربیتشده است. این شامل خط لولههای از پیش تربیتشدهٔ دارای نشانهگذاری، ریشهیابی، برچسبگذاری جزء کلام، و شناسایی نهاد نامگذاریشدهای میشود که برای بیش از سیزده زبان وجود داشته باشد؛ تعبیهکردن واژهها از جمله گلوو، المو، برت، آلبرت، اکسالنت، اسمال برت و الکترا، و تعبیهکردن جمله شامل کارگذاری جهانی جمله (USE)[۸] و کارگذاری جملهٔ برت غیر وابسته به زبان (LaBSE) میشود.[۹] این پلتفرم همچنین حاوی منابع و مدلهای از پیش تربیتشدهای برای بیش از دویست زبان است. کد پایهٔ اسپارک انپیال حاوی پشتیبانی از زبانهای آسیای شرقی نظیر نشانهگذارهایی برای زبانهای چینی، ژاپنی، کرهای؛ برای زبانهای راست به چپ نظیر اردو، فارسی، عربی، عبری و جاگذاریهای واژه و جملهٔ از پیش تربیتشدهٔ چندزبانه نظیر LaUSE و حاشیهنویس ترجمه است.
منابع
[ویرایش]- ↑ Talby, David (19 October 2017). "Introducing the Natural Language Processing Library for Apache Spark". databricks.com. databricks. Retrieved 29 March 2019.
- ↑ Ellafi, Saif Addin (2018-02-28). "Comparing production-grade NLP libraries: Running Spark-NLP and spaCy pipelines". O'Reilly Media (به انگلیسی). Retrieved 2019-03-29.
- ↑ Ellafi, Saif Addin (2018-02-28). "Comparing production-grade NLP libraries: Accuracy, performance, and scalability". O'Reilly Media (به انگلیسی). Retrieved 2019-03-29.
- ↑ Ewbank, Kay. "Spark Gets NLP Library". www.i-programmer.info.
- ↑ ۵٫۰ ۵٫۱ Thomas, Alex (July 2020). Natural Language Processing with Spark NLP: Learning to Understand Text at Scale (First ed.). United States of America: O'Reilly Media. ISBN 978-1492047766.
- ↑ Talby, David (2017-10-19). "Introducing the Natural Language Processing Library for Apache Spark - The Databricks Blog". Databricks (به انگلیسی). Retrieved 2019-08-27.
- ↑ Jha, Bineet Kumar; G, Sivasankari G.; R, Venugopal K. (May 2, 2021). "Sentiment Analysis for E-Commerce Products Using Natural Language Processing". Annals of the Romanian Society for Cell Biology: 166–175. Archived from the original on 30 June 2024. Retrieved 16 April 2024 – via www.annalsofrscb.ro.
- ↑ Cer, Daniel; Yang, Yinfei; Kong, Sheng-yi; Hua, Nan; Limtiaco, Nicole; John, Rhomni St; Constant, Noah; Guajardo-Cespedes, Mario; Yuan, Steve; Tar, Chris; Sung, Yun-Hsuan; Strope, Brian; Kurzweil, Ray (12 April 2018). "Universal Sentence Encoder". arXiv:1803.11175 [cs.CL].
- ↑ Feng, Fangxiaoyu; Yang, Yinfei; Cer, Daniel; Arivazhagan, Naveen; Wang, Wei (3 July 2020). "Language-agnostic BERT Sentence Embedding". arXiv:2007.01852 [cs.CL].