Instructions to use ece-irem/berturk-legal-chunk-retriever with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use ece-irem/berturk-legal-chunk-retriever with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("ece-irem/berturk-legal-chunk-retriever") sentences = [ "İstanbul Bölge Adliye Mahkemesi, davacı vekilinin davacı markasına tecavüz ve hak ihlali iddiasını destekleyerek istinaf talebini kabul etmiştir.", "Davacı vekili, davalının müvekkiline ait tescilli markaya haksız tecavüz oluşturduğunu iddia ederek İzmir Fikri ve Sınai Haklar Hukuk Mahkemesi nezdinde ihtiyati tedbir kararı verilmesini talep etmiştir. Mahkeme istinaf nedenlerini haklı bularak yerel mahkeme kararını bozmuştur.", "Dava, Fuar Stand Tasarım ve Uygulama İşinden kaynaklanan ticari alacak için açılmıştır. Mahkeme, davacı tarafından sunulan belgelerin yetersiz olduğunu belirterek ihtiyati haciz talebinin reddine karar vermiştir." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] - Notebooks
- Google Colab
- Kaggle
- 🏛️ Hukuki Asistan: Derin Öğrenme Kullanarak Türk Hukukunda Gerekçeli Emsal Karar Tespiti
- 👩💻 Proje Ekibi ve Akademik İş Birliği
- 🧠 Çalışma Prensibi ve Anlamsal Dilimleme (Chunking) Akışı
- 📊 Proje Özeti ve Amacı
- 🏗️ Veri Seti Mühendisliği (UYAP & VisionLM Pipeline)
- 🛠️ Akademik Metodoloji ve Modüler Geliştirme Adımları
- 🏆 Kapsamlı Deneysel Performans Sonuçları
- 🔍 1. Bölüm-Duyarlı Metin Stratejileri ve BERTurk Hiperparametre Tarama Bulguları
- 🎯 2. Bağımsız Gold-Set Üzerindeki Saf Semantik (Pure Dense) Model Sonuçları
- 🚀 2.5. Bağımsız Gold-Set Üzerindeki İki Aşamalı Sıralı Hibrit Arama Model Sonuçları
- 🏆 3. En İyi Model (BERT-Base-Turkish) Nihai Karşılaştırma Matrisi
- 🚀 Kullanım (Inference)
- 📜 Lisans Bilgisi ve Atıf (Citation)
🏛️ Hukuki Asistan: Derin Öğrenme Kullanarak Türk Hukukunda Gerekçeli Emsal Karar Tespiti
Bu model, Ankara Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü son sınıf mezuniyet projesi (BLM 4061-A / BLM 4062 Bilgisayar Mühendisliği Tasarımı) kapsamında geliştirilen Hukuki Asistan sisteminin çekirdek anlamsal getirim (Semantic Information Retrieval) motorudur.
Mevcut hukuk arama sistemlerinin anahtar kelime eşleşmesine (Keyword Matching) dayalı morfolojik yetersizliklerini aşmak adına, "Getir ve Yeniden Sırala" (Retrieve & Re-rank) prensibine dayalı hibrit bir derin öğrenme mimarisi sunmaktadır. Projemiz, Bilişim Vadisi Hızlandırma Programı bünyesinde Birincilik Ödülü'ne layık görülmüş ve ITTA 2026 uluslararası akademik konferansında "Strong Accept" derecesiyle kabul alarak bilimsel olarak tescillenmiştir.
👩💻 Proje Ekibi ve Akademik İş Birliği
Geliştirilen bu SOTA (State-of-the-Art) Hukuki Asistan projesi, Ankara Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü bünyesinde, yüksek akademik standartlar ve yoğun bir AR-GE (Araştırma-Geliştirme) süreci rehberliğinde hayata geçirilmiştir.
Geliştirici Kadrosu
Akademik Danışman
Prof. Dr. Refik SAMET - Ankara Üniversitesi Bilgisayar Mühendisliği
🧠 Çalışma Prensibi ve Anlamsal Dilimleme (Chunking) Akışı
Kullanıcıların sisteme girdiği doğal dil tabanlı hukuki sorguların en doğru emsallerle eşleştirilmesi, arka planda gelişmiş bir vektör uzayı modellemesi ve iki aşamalı hiyerarşik bir süzgeç ile gerçekleştirilir:
🔍 Chunking (Metin Dilimleme) Nedir ve Neden Gereklidir?
Türk yargı sistemine ait mahkeme kararları, yapıları gereği son derece uzun, ağdalı ve karmaşık hukuki terminolojiler içerir. Derin öğrenme ve transformatör tabanlı modern dil modellerinin işlem kapasitesi, belirli bir maksimum dizi uzunluğu (512 token) ile sınırlıdır. Ham bir kararın modele tek parça halinde doğrudan beslenmesi metnin kırpılmasına (truncation) ve en hayati bilgileri barındıran gerekçe bölümlerinin kaybolmasına neden olur.
Bu kısıtı aşmak amacıyla geliştirdiğimiz Tokenized Fixed-Window Chunking mekanizması, uzun dökümanları belirli oranlarda örtüşen (overlapping) pencereler yardımıyla, anlamsal bütünlüğü korunmuş daha küçük metin dilimlerine (chunks) böler. Böylece hem modelin sınırları aşılmaz hem de dökümanın farklı yerlerindeki bağlamsal geçişler korunmuş olur.
⚙️ Model Arka Planda Nasıl Çalışır? Skorlama ve Getirim Süreci
Sistemimiz, leksikal (kelime tabanlı) arama ile yoğun semantik (vektör tabanlı) aramayı ardışık düzende birleştiren İki Aşamalı Sıralı Hibrit (Two-Stage Sequential Hybrid) bir akış yürütür:
- Vektörleştirme (Embedding Generation): Tüm emsal döküman havuzu ve kullanıcının anlık arama sorgusu, ince ayar (fine-tune) yapılmış Bi-Encoder modelimizden geçirilerek yüksek boyutlu (768 boyutlu) yoğun vektör uzayında temsil edilir.
- Kaba Eleme (Coarse Retrieval - Adım 1): Kullanıcı sorgusu ilk olarak kelime frekansı ve döküman uzunluğu regülasyonuna sahip BM25L Plus algoritmasıyla taranır. Milyonlarca kelime kombinasyonu arasından sorguyla en yakın olan ilk 50 aday döküman milisaniyeler içerisinde seçilerek arama uzayı büyük ölçüde daraltılır (Recall tavanı güvenceye alınır).
- Anlamsal Yeniden Sıralama (Re-ranking - Adım 2): İlk aşamadan süzülen ilk 50 aday döküman dilimi, ince eleme katmanına (Re-ranker) aktarılır. Burada modelimiz, sorgu vektörü ile aday döküman vektörleri arasındaki Kosinüs Benzerliğini (Cosine Similarity) hesaplar. Matematiksel olarak formüle edilen benzerlik skoru:
olarak anlık olarak skorlanır.
- Nihai Listeleme: Çapraz dikkat (Cross-Attention) derinliğinde en yüksek anlamsal skoru alan emsal kararlar, en doğru gerekçeden başlayacak şekilde sıralı bir liste halinde kullanıcı arayüzüne yansıtılır.
📊 Proje Özeti ve Amacı
Türk hukuk sistemindeki dijitalleşme ve döküman sayısındaki logaritmik artış, hukuk profesyonellerinin (avukatlar, hakimler, araştırmacılar) bir davanın kaderini belirleyecek "öz hakiki emsal kararlara" ulaşmasını zorlaştırmaktadır.
Hukuki Asistan projesinin temel amacı; doğal dil işleme (NLP) ve derin öğrenme tekniklerini kullanarak, yapısal olmayan ham yargı kararlarını anlamsal segmentlere ayırmak ve kullanıcı sorgularıyla dökümanların derin hukuki gerekçeleri (reasoning) arasında semantik bağ kurarak nokta atışı emsal tespiti gerçekleştirmektir. Proje, güncel sektörel ihtiyaçlar doğrultusunda Türkiye Barolar Birliği (TBB) Yapay Zeka ve Avukatlık Çalıştayı standartlarında etik ve veri gizliliği kurallarına tam uyumlu olarak tasarlanmıştır.
🏗️ Veri Seti Mühendisliği (UYAP & VisionLM Pipeline)
Uzun ve ağdalı hukuk metinlerinin dil modellerindeki Maksimum Dizi Uzunluğu (Max Sequence Length) kısıtlarına takılmasını engellemek amacıyla özgün bir veri mühendisliği boru hattı inşa edilmiştir:
- Veri Madenciliği (Ham Veri): UYAP (Ulusal Yargı Ağı Bilişim Sistemi) üzerinden Sosyal Medya Hukuku (5651 Sayılı Kanun kapsamındaki erişim engelleme, kişilik hakları ihlali, internet üzerinden haksız rekabet kararları) alanına ait ham ve anonimleştirilmiş 1000 adet nitelikli mahkeme kararı toplanmıştır.
- VisionLM ile Yapısal Segmentasyon: Ham dökümanlar, multimodal VisionLM (Amazon Nova-2-Lite) mimarisiyle işlenerek anlamsal bileşenlerine (Layout Analysis & Text Segmentation) ayrılmıştır. Bilgi erişim (retrieval) doğruluğunu maksimize etmek amacıyla veriler şu üç katmanda yapısal JSON formatına dönüştürülmüştür:
- Meta-Veri Katmanı (
meta_data):case_id,court_name,esas_no,karar_nogibi ayırt edici parametreler döküman takibi için izole edilmiştir. - Anlamsal Segmentler (
rrl_segments): Kararın özünü oluşturan olay örgüsü (facts_text), hakimin karar gerekçesi (reasoning_text) ve nihai hüküm fıkrası (verdict_text) ayrı alanlara bölünerek hedeflenmiş arama (Targeted Retrieval) kabiliyeti kazandırılmıştır. - Yapısal ve Özet Katmanları: Kararda geçen kanun maddeleri (
mentioned_laws) semantik ilişkulendirme için filtrelenmiş; yoğun retrieval modelleri için üretilen özel özetler (summary_for_model) vektör uzayı hizalamasında kullanılmıştır.
- Meta-Veri Katmanı (
- Tokenized Fixed-Window Chunking: Bölümlere ayrılan metinler, anlamsal bütünlüğü korumak amacıyla belirli oranlarda örtüşen pencerelerle (overlapping chunks) semantik olarak dilimlenmiştir.
🛠️ Akademik Metodoloji ve Modüler Geliştirme Adımları
Projenin teknik olgunlaşma süreci, 5 sıralı ve temizlenmiş (cleared outputs) araştırma not defteri üzerinden tekrarlanabilir (reproducible) bir şekilde yürütülmüştür:
01_Data_Prep_and_Classification.ipynb: VisionLM katmanından çıkan ham veriler doğrulanmış,summary_for_modelalanlarında oluşan metinsel kesintiler (...karakterleri) ve potansiyel veri sızıntıları (data leakage) temizlenerek veri kümesi model eğitimine hazır hale getirilmiştir.02_Lexical_Search_BM25.ipynb: Vektörel modellere geçmeden önce, kelime frekansı ve birebir eşleşmeye dayalı geleneksel arama algoritmalarının veri seti üzerindeki temel performans sınırları (baseline) ve emsal kararları kaçırma oranları analitik olarak raporlanmıştır.03_Dense_Models.ipynb: Taban model olarakdbmdz/bert-base-turkish-cased(BERTurk) seçilmiş ve kontrastif öğrenme tabanlı Multiple Negatives Ranking Loss (MNRL) ile eğitilmiştir. Mini-batch içindeki diğer dökümanlar "In-batch Negative" kabul edilerek sorgu ile doğru karar arasındaki Kosinüs Benzerliği optimize edilmiştir.04_Hybrid_Models.ipynb: Kelime benzerliği eşleşmelerindeki (Vocabulary Mismatch) kaçırma risklerini sıfırlamak adına, BM25L Plus algoritması kaba eleme (Coarse Retrieval) katmanı olarak sisteme entegre edilmiştir. Arama uzayı ilk 50 dökümana daraltılarak modelin Recall tavanı güvenceye alınmıştır.05_Final_Champion_Optimization.ipynb: Model, Google Colab Pro üzerinde NVIDIA A100-SXM4-40GB GPU mimarisinde 20 epoch tavanıyla eğitime alınmış; validasyon seti üzerindeki anlık MRR skoru izlenerekpatience=3erken durdurma (Early Stopping) kriteriyle Epoch 8 yakınsama zirvesinde mühürlenmiştir.
🏆 Kapsamlı Deneysel Performans Sonuçları
Projenin deneysel doğrulaması, hiperparametre optimizasyon döngüleri (iç validasyon verileri) ve proje ekibimiz tarafından tüm yargı kararlarının tek tek manuel incelenmesiyle oluşturulan tamamen izole bağımsız Gold-Set test ortamı üzerinde gerçekleştirilmiştir.
🔍 1. Bölüm-Duyarlı Metin Stratejileri ve BERTurk Hiperparametre Tarama Bulguları
Aşağıdaki tablo, bert-base-turkish-cased mimarisinin VisionLM ile ayrıştırılan 10 farklı anlamsal metin yerleşim stratejisi altındaki iç validasyon performans taramasını (Grid-Search) listelemektedir:
| Model | Strateji / Segment | Loss Tipi | Optimal Epoch | Test MRR | R@1 (%) | R@5 (%) | R@10 (%) |
|---|---|---|---|---|---|---|---|
| bert-base-turkish-cased | strategy_facts_only | MNRL | 2 | 0.5439 | 48.00 | 62.00 | 69.50 |
| bert-base-turkish-cased | strategy_reasoning_only | MNRL | 3 | 0.7218 | 67.50 | 79.50 | 84.00 |
| bert-base-turkish-cased | strategy_verdict_only | MNRL | 4 | 0.1802 | 13.00 | 24.50 | 33.00 |
| bert-base-turkish-cased | strategy_facts_reasoning | MNRL | 4 | 0.7201 | 65.00 | 80.50 | 86.00 |
| bert-base-turkish-cased | strategy_reasoning_verdict | MNRL | 2 | 0.7015 | 63.50 | 80.50 | 82.50 |
| bert-base-turkish-cased | strategy_head_tail_25_75 | MNRL | 3 | 0.7023 | 63.50 | 79.00 | 85.00 |
| bert-base-turkish-cased | strategy_head_tail_50_50 | MNRL | 7 | 0.7211 | 65.00 | 82.00 | 86.50 |
| bert-base-turkish-cased | strategy_head_tail_75_25 | MNRL | 2 | 0.7404 | 69.00 | 81.00 | 85.00 |
| bert-base-turkish-cased | strategy_segment_mix | MNRL | 4 | 0.7761 | 72.00 | 84.50 | 89.50 |
| bert-base-turkish-cased | chunking | MNRL | 8 | 0.7839 | 72.07 | 87.71 | 91.90 |
Bilimsel Çıkarım: Sadece kısa sonuç fıkralarına (strategy_verdict_only) odaklanmak yetersiz kalırken, dökümanı anlamsal pencerelere bölen Chunking stratejisi iç doğrulamada 0.7839 MRR ile en yüksek performansa ulaşmıştır.
🎯 2. Bağımsız Gold-Set Üzerindeki Saf Semantik (Pure Dense) Model Sonuçları
Aşağıdaki tablo, test edilen 5 farklı dil modeli mimarisinin kendi içlerindeki en iyi konfigürasyonlarıyla, bağımsız Gold-Set üzerindeki saf semantik getirim (DPR) performansını listelemektedir:
| Model Architecture | Optimal Strategy | Gold-Set MRR | Gold-Set R@1 (%) | Gold-Set R@5 (%) | Gold-Set R@10 (%) | Gold-Set R@50 (%) |
|---|---|---|---|---|---|---|
| bert-base-turkish-cased | chunking | 0.3786 | 28.57 | 57.14 | 57.14 | 85.71 |
| xlm-roberta-base | chunking | 0.1614 | 14.29 | 14.29 | 14.29 | 42.86 |
| paraphrase-multilingual-MiniLM-L12-v2 | chunking | 0.3605 | 14.29 | 57.14 | 57.14 | 71.43 |
| paraphrase-multilingual-mpnet-base-v2 | chunking | 0.3716 | 28.57 | 42.86 | 57.14 | 85.71 |
| bert-base-turkish-cased-mean-nli-stsb-tr | strategy_reasoning_only | 0.0680 | 0.00 | 14.29 | 28.57 | 28.57 |
🚀 2.5. Bağımsız Gold-Set Üzerindeki İki Aşamalı Sıralı Hibrit Arama Model Sonuçları
Aşağıdaki tablo, kelime frekansı tabanlı kaba eleme (BM25L Plus) katmanı entegre edildikten sonra 5 model mimarisinin bağımsız test kümesi üzerindeki hibrit performans sıçramasını net bir şekilde göstermektedir:
| Model Architecture | Selected Strategy | Sequential Hybrid MRR | Hybrid R@1 (%) | Hybrid R@5 (%) | Hybrid R@10 (%) | Hybrid R@50 (%) |
|---|---|---|---|---|---|---|
| bert-base-turkish-cased | chunking | 0.5951 | 57.14 | 57.14 | 57.14 | 100.00 |
| xlm-roberta-base | chunking | 0.2434 | 14.29 | 42.86 | 42.86 | 100.00 |
| paraphrase-multilingual-MiniLM-L12-v2 | chunking | 0.4543 | 28.57 | 57.14 | 71.43 | 100.00 |
| paraphrase-multilingual-mpnet-base-v2 | chunking | 0.4115 | 28.57 | 42.86 | 71.43 | 100.00 |
| bert-base-turkish-cased-mean-nli-stsb-tr | strategy_reasoning_only | 0.0776 | 0.00 | 14.29 | 28.57 | 42.86 |
🏆 3. En İyi Model (BERT-Base-Turkish) Nihai Karşılaştırma Matrisi
Aşağıdaki tablo, optimizasyon döngüleri tamamlanan en iyi modelimizin saf semantik arama ile iki aşamalı sıralı hibrit arama mimarileri arasındaki performans farkını tüm netliğiyle ortaya koymaktadır:
| Pipeline Architecture | MRR | R@1 (%) | R@5 (%) | R@10 (%) | R@50 (%) |
|---|---|---|---|---|---|
| BERT-Base-Turkish (Pure Dense) | 0.5762 | 42.86 | 85.71 | 85.71 | 100.00 |
| 🚀 BERT-Base-Turkish (Sequential Hybrid) | 0.7500 | 57.14 | 100.00 | 100.00 | 100.00 |
- 0.7500 MRR Başarısı: Sıralı hibrit mimarimiz, hukuk profesyonellerinin sisteme girdiği doğal dil sorgularında, aranan asıl emsal kararları ortalama ilk 1.3 sırada listelemeyi başarmıştır.
- %100 Recall@5 Güvencesi: İki aşamalı hiyerarşik süzgeç sayesinde, aranan tüm doğru emsaller ilk 5 sonuç içerisine istisnasız ve fire vermeden yerleştirilmiştir. Bu durum, Hukuki Asistan'ın endüstriyel ve akademik standartlarda canlıya alınmaya hazır olduğunu kanıtlamaktadır.
🚀 Kullanım (Inference)
Bu modeli projenizde semantik arama, metin benzerliği hesaplama veya re-ranker tabanlı kaba getirim süreçlerinde entegre etmek için sentence-transformers kütüphanesini kullanabilirsiniz:
from sentence_transformers import SentenceTransformer, util
import torch
# 1. En İyi Modelin Hugging Face Üzerinden Yüklenmesi
model = SentenceTransformer("ece-irem/berturk-legal-chunk-retriever")
# 2. Örnek Hukuki Doğal Dil Arama Sorgusu
sorgu = "Sosyal medya danışmanlık şirketinin avukatlık yetkisi olmadığı halde internet üzerinden dava takip hizmeti vadetmesi ve haksız rekabet yaratması."
# 3. VisionLM ve Chunking İşleminden Geçmiş Emsal Karar Havuzu
emsal_kararlar = [
"Avukatlık Kanunu'nun 35. maddesine göre yalnız avukatların yapabileceği işleri, yetkisi olmayan kişilerin internet siteleri aracılığıyla sigorta hasar danışmanlığı adı altında yürütmesi haksız rekabet teşkil eder.",
"Ticari alacak davalarında yetkili mahkemenin tayini ve taraflar arasında akdedilen sözleşmedeki tahkim şartının geçerliliğine ilişkin yerel mahkeme kararının incelenmesi.",
"5651 Sayılı Kanun kapsamında kişilik haklarının ihlal edilmesi nedeniyle sosyal medya platformundaki ilgili URL içeriğine erişimin engellenmesi talebi."
]
# 4. Vektör Biçimine Dönüştürme (Embedding Generation)
query_emb = model.encode(sorgu, convert_to_tensor=True)
corpus_embs = model.encode(emsal_kararlar, convert_to_tensor=True)
# 5. Anlamsal Benzerlik Hesaplaması (Semantic Search)
hits = util.semantic_search(query_emb, corpus_embs, top_k=2)
# 6. Sonuçların Ekrana Basılması
print("=== Hukuki Asistan Arama Sonuçları ===")
for hit in hits[0]:
print(f"📄 Karar ID: {hit['corpus_id']} | 🎯 Benzerlik Skoru: {hit['score']:.4f}")
print(f"📝 İçerik: {emsal_kararlar[hit['corpus_id']]}\n")
📜 Lisans Bilgisi ve Atıf (Citation)
Bu model, ilişkili iki aşamalı (Two-Stage) hibrit arama boru hatları ve entegre edilen veri mühendisliği mimarisi MIT Lisansı altında açık kaynaklı olarak korunmaktadır.
- Akademik Kullanım: Bilimsel çalışmalarda, tezlerde ve makalelerde Ankara Üniversitesi "Hukuki Asistan" projesine ve kaynak kodlarına atıf yapılarak serbestçe kullanılabilir.
- Ticari Entegrasyon: Lisans koşulları doğrultusunda, hukuki bilgi erişim sistemlerinde (Legal IR) ve kurumsal LawTech yazılımlarında ticari olarak entegre edilmesinde, değiştirilmesinde veya dağıtılmasında hiçbir yasal kısıtlama bulunmamaktadır.
- Downloads last month
- 357
Model tree for ece-irem/berturk-legal-chunk-retriever
Base model
dbmdz/bert-base-turkish-cased