soz6 wiki engine

| 3 | 33

əjdahalar googlla

dasein

Yalnız deyilsən!

Bu duyğuların müvəqqəti olduğunu və kömək mövcud olduğunu bilmək vacibdir. Dostlarınıza, ailənizə, profesionallara müraciət etməyiniz vacibdir. Sizi dinləmək və lazım olan dəstəyi təmin etmək istəyən insanlar var. Sözlük yazarları olaraq səni hər zaman dinləyə bilərik.

Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.

1. Sözlükdəki potensial wiki entry-ləri tapmaqda moder və partizanlara kömək edəcək artificial intelligence əsasında hazırlanması planlanan servis. Həmçinin wikilənmiş entry-nin hansı həssaslıqda wiki kriteriyasına uyğun gəldiyini təyin etmə özəlliyi də nəzərə alınmışdır.

Natural Language Processing (bax: NLP) prinsipləri ilə işləyəcəkdir. Potensial wiki entry-ləri təyin etmək üçün indiyə qədər yığılmış wiki entrylərin və bərabər sayda seçilmiş wiki potensialı olmayan entrylərin müqayisəsi əsasında öyrədilmiş model tətbiq ediləcəkdir. Hazırda yetərli datanın yığılması və önemal prosesləri gedir.

Proyekt tamamlandıqda wiki engine-nin beta versiyası istifadəyə veriləcəkdir. ilk sürüm olduğundan, yetərli dəqiqlikdə işləməməsi gözləniləndir. Feedback alınaraq, wiki və non-wiki entry-lərin əmələ gətirdiyi sample-lardakı dəyişiklik də hesaba qatılaraq təkmilləşdirilmələr baş tutacaqdır.

6 əjdaha!

13.01.2023 07:10, dasein

#365732

Yalnız deyilsən!

Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.

2. Texniki:
maraq xatirinə əldəki data ilə naive bayes alqoritmini işə salaraq model training etdim. Naive Bayes mətn təsnifatı (baxma: text classification) üçün istifadə edilən məşhur machine learning alqoritmlərindən biridir. Alqoritm Bayes qaydası prinsipi ilə işləyir. Əsas üstünlüyü kiçik dataset ilə sürətli training edib, yüksək dəqiqlikli (baxma: accuracy) model yaratmaqdır. Lakin naive bayes mətndəki sözlər arasında bağlantının olmadığın varsayır. Yəni, əsasən, müxtəlif mətnlərdə müəyyən sözlərin təkrarlanma sayını nəzərə alır. Wiki entrylərdə isə belə bir varsayım aparmaq, güman ki, gözlənilən nəticəni verməyəcəkdir, çünki entrylərdəki sözlər arasında bağlantılar hökmən ki var. Bu deməkdir ki, mətndəki bir sözün iştirak etməsinin ehtimalı digər sözün mövcudluğundan təsirlənə bilir. Yenə də, bağlantılar güclü olmadıqda naive bayes qənaətbəxş nəticələr verir.

Dataset 364 wiki entry və 349 wiki olmayan randomly seçilmiş entry-dən ibarətdir. Toplamda 713 nümunə mövcuddur. Testing set üçün datasetin 10%-i ayrılmışdır: 72 test nümunəsi və 641 training nümunəsi.

Nəticələr:

Diaqramdan göründüyü kimi test zamanı 37 wiki entry-dən 34-nün həqiqətən wiki potensialı olduğu təyin edilib. Yəni model wiki entry-ləri tapmaqda yaxşıdır demək olar. Lakin digər tərəfdən wiki olmayan entry-lərin hardasa yarısı wiki kimi qeyd olunub. Yəni model wiki entryləri tapsa da, müqabilində wiki potensialı olmayan entry-ləri də qatır.

accuracy: ~0.72
F1 score: ~0.70

Classification Report:

Problemlər:

- dataset kiçik olduğu üçün overfitting baş vermiş və nəticədə model dəqiqliyi az olmuş ola bilər.

- Wiki olmayan entry-lər tamamilə random seçildiyi üçün aralarında wiki potensialı olub wikiləşdirilməmiş entry-lər olmuş ola bilər. Bu mərhələdə data emala verilməzdən öncə yazar tərəfindən gözdən keçirilməlidir.

- entry mətnlərindəki sözlər arasında bağlantı düşünüləndən güclü olmuş ola bilər.

- boş, mətn ehtiva etməyən random seçilmiş entry-lər (adətən yalnızca şəkildən ibarət olanlar) training-ə mənfi təsir göstərmiş ola bilər. Bu halda laplace smoothing tətbiq etmək məsləhət edilir.

- Random nonwiki entrylər seti wiki entrylər setinin feature cəhətdən ekvivalenti olmaya bilər. Bunun üçün nonwiki setə struktur aspektdən wiki entry-ə oxşayan lakin wiki potensialı olmayan entry-lər əlavə etmək lazımdır. Ümumiyyətlə, Random nonwiki entry-lərin önemalı mühüm əhəmiyyət daşıyır kimi görünür.

Update-lər gələcəkdir. Naive Bayes-lə bir qədər işlədikdən və dataset problemləri həll edildikdən sonra BERT alqoritmini sınamağı da düşünürəm.

10 əjdaha!

14.01.2023 04:00, dasein

#365800

Yalnız deyilsən!

Əgər yalnız hiss edirsənsə, 860 qaynar xəttinə müraciət etməyini tövsiyə edirik.

3. Yaxşı xəbərlər var. Klassifikasiya dəqiqliyinin (baxma: accuracy) 72 faizdən 95 faizə qaldırılmasına nail olunmuşdur. Yəni əvvəlki qiymətdən 32%-lik artım müşahidə olunur. Bu deməkdir ki, artıq model wiki potensialı olan entry-ləri olmayanlardan daha dəqiq surətdə ayıra bilir. Məncə, wiki engine-nin beta versiyası istifadəyə verilməyə hazırdır.

Edilən dəyişikliklər:
- dataset ölçüsü 713 nümunədən 1207 nümunəyə qaldırıldı. Bunlardan 588-i wiki entry, 619-u isə təsadüfi seçilmiş wiki potensialı olmayan entry-dir. train-test data split müvafiq olaraq 80% : 20% nisbətində götürülmüşdür.
- Naive Bayes alqoritmi SVM (baxma: Support Vector Machine) texnologiyası ilə əvəz edildi.
- Feature extraction üçün tf-idf metodu istifadə olundu.

Accuracy: ~0.95
F1 score: ~0.95

Model nisbətən dolğun entry-ləri seçməyi bacarır. Buna baxmayaraq, təsadüfi seçilən wiki potensialı olmayan entry-lər seti inkişaf edilərək daha dəqiq nəticələr əldə oluna bilər. Buna kimi soz6 wiki engine beta versiyası müəyyən wiki potensialı olan entry-ləri siyahılaşdırmaq və dataset ölçüsünü artırmaq üçün istifade edilə bilər.

9 əjdaha!

28.01.2023 17:33, dasein

#366520

üzv ol

Modalı bağla