PatentBERT: Patentklassifizierung durch Feinabstimmung eines vortrainierten BERT-Modells

In dieser Arbeit konzentrieren wir uns auf das Feinjustieren eines vorab trainierten BERT-Modells und dessen Anwendung zur Patentklassifizierung. Bei der Verarbeitung von großen Datensätzen mit über zwei Millionen Patentschriften übertrifft unser Ansatz den Stand der Technik, insbesondere im Vergleich zu einem Ansatz, der CNNs mit Wortvektoren verwendet. Darüber hinaus fokussieren wir uns ausschließlich auf Patentansprüche, ohne andere Teile der Patentschriften zu berücksichtigen. Unsere Beiträge umfassen: (1) eine neue Methodik am Stand der Technik, die auf dem vorab trainierten BERT-Modell und dessen Feinjustierung für die Patentklassifizierung basiert, (2) einen umfangreichen Datensatz USPTO-3M auf CPC-Unterklassen-Ebene, einschließlich SQL-Anweisungen, die zukünftige Forscher nutzen können, (3) die Demonstration, dass allein Patentansprüche ausreichend sind für die Klassifikationsaufgabe, im Gegensatz zur herkömmlichen Meinung.