2020-05-08-英文字符串排序算法

编程工作偶尔会遇到一些不常见问题需要处理，学编程处理问题也难免需要熟悉一些算法

以前学习的时候就遇到过一个看似简单的排序算法问题，当时的解决办法是我没有用过的，在此记录一下”

问题 - 英文字符串排序

如下几个英文单词或者字母

apple，car， a，family，sky，application，app，baby，back，background，bad，bbbbb，bee，cafe ，cake，care

排序后的结果是

1
/**
2
a
3
app
4
apple
5
application
6

7
baby
8
back
9
background
10
bad
11
bbbbb
12
bee
13
cafe
14
cake
15
car
16
care
17
family
18
sky
19

20
**/

规则逻辑

通过结果可知

a 与 app a排前面（开头字母相同，短的排在前面）

back 与 backgroud back排在前面（开头字母相同，短的排在前面）

application 与 baby application 排在前面（开头字母不同，从a-z依次排序）

设计实现

a=1 b=2 c=3 d=4 e=5 f=6 g=7 h=8 i=9 j=10

k=11 l=12 m=13 n=14 o=15 p=16 q=17 r=18 s=19 t=20

u=21 v=22 w=23 x=24 y=25 z=26

a代表的是 1

b代表的是 2

z 代表 26 就可以实现初步排序

但是 bbbbb与 bee 两个单词要实现 bee 在前，逻辑该怎么写呢

起初想法是，字母依次比较，bbbbb 与 bee比较的第二个字母的时候， b 与 e 分别代表 2 和 5 所以bbbbb排前面，问题是一个一个字母比较看起来很麻烦，10个单词，10个都要比较

有以下解决方案，都有用到递归

方法一通过单词获取权重进行排序（当初使用方法）

bbbbb => b =2 b=2 b=2 b=2 b=2

bee => b = 2 e =5 e = 5

权重数 Px

Px(bbbbb) = 2 + 2 * 27^-1 + 2 * 27^-2 + 2 * 27^-3 + 2 * 27^-4 = 2.079

Px(bee) = 2 + 5 * 27^-1 + 5 * 27^-2 = 2.192

通过这个计算方式可以获得权重值

Px(bbbbb) < Px(bee)

所以 bbbbb 排在 baby 前面

权重数27

这里为什么是 27 不是26 是考虑到一种情况，会导致排序失败

比如 az 与 b比较

Px(az) = 1 + 26 * 26^-1 = 2

Px(b) = 2

Px(az) = Px(b) 显然是错的将26 改为 27 就可避免这个错误

优点

不管是任何单词，一千个也好，得出每个字符串对应的权重值，就能做到排序

代码实现

更新与2020-01-09，后面做了优化，区分字母大小写，权重改为53

1
public static void main(String[] args) {
2
    String[] noP = {"Baby","apple", "car", "A", "family", "B","b", "Sky", "application", "app", "baby", "back", "background",
3
                    "bad", "bbbbb", "bee", "cafe", "cake", "care" };
4
    String[] nopTop = sortByWeights(noP);
5
    for (String string : nopTop) {
6
        System.out.print(string + ",");
7
    }
8
    System.out.println();
9
    System.out.println("----------------------");
10
    for (String string : nopTop) {
11
        System.out.println("weights:\t" + getStrWeights(string,0) + "\t" + string);
12
    }
13
}
14

15

16
/**
17
 *  for 权重排序
18
 *
19
 */
20
public static String[] sortByWeights(String[] disorder) {
21

22
    double[] weightsArr = new double[disorder.length];
23
    HashMap<Double,Integer> recordMap = new HashMap<>();
24

25
    // 计算每个字符串的权重值
26
    for (int i=0; i<disorder.length ;i++) {
27
        weightsArr[i] = getStrWeights(disorder[i],0);
28
        recordMap.put(weightsArr[i],i);//保存权重值对应的字符串所在数组位置
29
    }
30

31
    // 将获取的权重值排序
32
    Arrays.sort(weightsArr);
33

34
    String[] sorderStr = new String[disorder.length];
35
    int orderIndex = 0;
36
    for (int i=0; i<sorderStr.length ;i++) {
37
        // 拿出排好序的索引
38
        orderIndex = recordMap.get(weightsArr[i]);
39
        sorderStr[i] = disorder[orderIndex];
40
    }
41
    return sorderStr;
42
}
43

44
// 权重数值
45
private final static double weightsNum = 53;
46

47
/**
48
 * for 计算字符串的权重值算法
49
 * @param deep
50
 * @param str
51
 * @return weights
52
 */
53
public static double getStrWeights(String str,int deep) {
54
    int c = str.charAt(deep);
55

56
    boolean isUppercase = true;
57
    if(c >= 97) {
58
        c = c - 32;
59
        isUppercase = false;
60
    }
61
    c = c - 64; // A,a -> 1; B,b -> 2
62

63
    int molecular = c*2;
64
    if(isUppercase) molecular--; //if(B) -> 3;if(b) -> 4; for end [Baby,baby]
65

66
    // 这里考虑了大小写 如果字母是B 权重=3/53 小写b 权重=4/53  使小大小写也能排序
67

68
    double weights =  molecular  / (Math.pow(weightsNum, deep));
69

70

71
    return ++deep >= str.length() ? weights : weights + getStrWeights(str,deep); //递归到字符串末尾
72
}

运行main方法，控制台输出结果

A,app,apple,application,B,Baby,b,baby,back,background,bad,bbbbb,bee,cafe,cake,car,care,family,Sky,
----------------------
weights:  1.0  A
weights:  2.6151655393378426  app
weights:  2.615328013590046  apple
weights:  2.615329041941876  application
weights:  3.0  B
weights:  3.0394956910738395  Baby
weights:  4.0  b
weights:  4.0394956910738395  baby
weights:  4.040019613506452  back
weights:  4.0400214752701284  background
weights:  4.0405838376646495  bad
weights:  4.076923067174232  bbbbb
weights:  4.192239231043076  bee
weights:  6.042075001511314  cafe
weights:  6.045634987271372  cake
weights:  6.050551797792809  car
weights:  6.050618967335452  care
weights:  12.047115878410484  family
weights:  37.43289426842293  Sky

缺点

考虑到前一种算法的计算，如果单词长度超过20或者更长，会导致计算量很大的问题

如果有一百个单词，比较计算很有必要，如果只有两个单词

bbbbbbbbbbbbbbbb 与 bar 比较用权重法不合适，因为只有两个单词没比较计算这么多，就能得出排序结论，下面就讲讲另一种排序算法

方法二逐个字母计算排序

下面说一下新思路，逐个比较

apple，car， a，family，sky，application，app，baby，back，background，bad，bbbbb，bee，cafe ，cake，care

还是上面的单词

首先获取每个字符串的第一个字母

第一个字母为 a 的全部取出

apple a application app

比较他们的第二个字母 a 没有第二个字母，自然排在最前面，依次类推，使用递归即可完成排序

因为临时想到的一种排序方法，用到了TreeSet HashMap ArrayList 工具类，感觉还可以后期优化。

代码如下：

1
package javabasis.algorithm;
2

3
import java.util.ArrayList;
4
import java.util.List;
5
import java.util.Set;
6
import java.util.TreeMap;
7

8
/**
9
 * 字段排序算法
10
 *
11
 * @author Narule
12
 *
13
 */
14

15
public class StringAlgorithm {
16

17
  /**
18
   * 逐个字母比较排序
19
   *
20
   * @param disorder
21
   * @return orderly
22
   */
23
  public static String[] nopTop(String[] disorder) {
24
    int index = 0;
25
    int end = disorder.length;
26
    String[] orderly = new String[end]; // 新建排序后的数组
27
    TreeMap<Character, List<String>> treeMap = new TreeMap<>(); // 排序工具类，key是按照大小排序的
28
    List<String> list = null;
29

30
    // 收集字符串首字母信息
31
    for (String str : disorder) {
32
      char cTag = str.charAt(0);
33

34
      list = treeMap.get(cTag);
35
      if (list == null) {
36
        list = new ArrayList<>(1);
37
      }
38
      list.add(str);
39
      treeMap.put(cTag, list);
40
    }
41

42
    // 通过收集的首字母信息给字符串排序
43
    Set<Character> keySet = treeMap.keySet();
44
    for (char cTag : keySet) {
45
      list = treeMap.get(cTag);
46
      if (list != null && list.size() > 0) {
47

48
        if (list.size() < 2) { // 如果只有一个字符串，不需要递归
49
          for (String string : list) {
50
            orderly[index] = string;
51
            index++;
52
          }
53
        } else { // 如果有两个以上字符串，开头字母相同，可能需要递归排序
54
          ArrayList<String> arrayList = new ArrayList<>(0);
55
          for (String string : list) {
56
            if (string.length() > 1) { // 字符串长度大于2的，需要添加到list,准备下一次递归排序用到
57
              arrayList.add(string.substring(1));
58
            } else {
59
              orderly[index] = string;
60
              index++;
61
            }
62
          }
63
          if (arrayList.size() > 1) {
64
            String[] array = new String[arrayList.size()];
65
            int i = 0;
66
            for (String string : arrayList) {
67
              array[i] = string;
68
              i++;
69
            }
70
            array = nopTop(array); // 还需要递归排序 back background -> ack ackground
71
            for (String string : array) {
72
              orderly[index] = cTag + string;
73
              index++;
74
            }
75
          } else if (arrayList.size() == 1) {
76
            orderly[index] = cTag + arrayList.get(0);
77
            index++;
78
          }
79
        }
80
      }
81

82
    }
83
    treeMap.clear();
84
    return orderly; // 排序后的字符串数组
85
  }
86

87
  public static void main(String[] args) {
88
    String[] noP = { "apple", "car", "a", "family", "sky", "application", "app", "baby", "back", "background",
89
        "bad", "bbbbb", "bee", "cafe", "cake", "care" };
90
    String[] nopTop = nopTop(noP);
91
    for (String string : nopTop) {
92
      System.out.println(string);
93
    }
94

95
  }
96
}

此方法用到TreeMap,这是Java工具类，自带排序效果，对此有疑问可以查看java源代码，或介绍文档

优点

没有很大的计算量

缺点

使用TreeMap ArrayList 对象，递归过多也会出现内存损耗过大或者溢出的情况

未完，后期待优化

英文字符串排序算法